0% encontró este documento útil (0 votos)
60 vistas98 páginas

Introducción a la Estadística en Biología

Este documento presenta la materia que se desarrollará en el curso de Estadística Aplicada a la Biología durante el año académico 2015-2016. El curso cubrirá tres bloques temáticos: 1) análisis descriptivo de datos, 2) nociones de probabilidad y modelos teóricos, y 3) inferencia estadística. Los estudiantes aprenderán a planificar análisis estadísticos, interpretar resultados, y aplicar conceptos como distribuciones de probabilidad y pruebas de hipótesis a problemas

Cargado por

Maribel Romero
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
60 vistas98 páginas

Introducción a la Estadística en Biología

Este documento presenta la materia que se desarrollará en el curso de Estadística Aplicada a la Biología durante el año académico 2015-2016. El curso cubrirá tres bloques temáticos: 1) análisis descriptivo de datos, 2) nociones de probabilidad y modelos teóricos, y 3) inferencia estadística. Los estudiantes aprenderán a planificar análisis estadísticos, interpretar resultados, y aplicar conceptos como distribuciones de probabilidad y pruebas de hipótesis a problemas

Cargado por

Maribel Romero
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

GRADO EN BIOLOGÍA

ESTADÍSTICA APLICADA A LA BIOLOGÍA


CURSO 2015-16

Nota: Este documento es un guión-resumen de la materia que se desarrollara en clase.


No puede ser considerado como “apuntes”de la asignatura

CARÁCTER: FORMACIÓN BÁSICA. PRIMER CURSO. PRIMER SEMESTRE


DEPARTAMENTO QUE LA IMPARTE: Departamento de Estadı́stica e Investigación Operativa
Facultad de Matemáticas.
[Link]/destadio
Número de créditos: 6
Número de horas de trabajo del alumno (presencial + no presencial+ trabajos prácticos+exámenes):
150 horas. (El tiempo de trabajo personal se considera una estimación media, pero dependerá de las
necesidades de cada alumno en particular).
OBJETIVOS DOCENTES ESPECÍFICOS: El objetivo principal es una introducción básica al análi-
sis de datos y a la inferencia estadı́stica, que se concretará en las siguientes competencias:

Aprender a planificar e interpretar los resultados de los análisis experimentales desde el punto
de vista de la significación estadı́stica.

Resumir y representar gráficamente de manera adecuada un conjunto de datos.

Conocer las nociones básicas de probabilidad y algunos modelos clásicos de distribuciones.

Adquirir y comprender el modo de razonar en las situaciones donde se usa la inferencia es-
tadı́stica.

METODOLOGÍAS DOCENTES:

Sesiones académicas teórico-prácticas: 4 horas semanales.

Tutorı́as personalizadas: voluntarias.

Básicamente, se expondrá el contenido teórico de los temas a través de clases presenciales, siguiendo
libros de texto de referencia y/o documentación adicional, que servirán para fijar los conocimientos
y contenidos ligados a las competencias previstas.
A su vez, las clases prácticas de resolución de problemas y/o estudio de casos prácticos permitirán
la aplicación de las definiciones, propiedades y teoremas expuestos en las clases teóricas, utilizando

1
cuando sea conveniente medios informáticos, de modo que los estudiantes alcancen las competencias
previstas. Se fijan las siguientes fechas para clases con software especı́fico:
GRUPO A: 21/10/2015, 28/10/2015, 16/12/2015 Y 13/01/2016.
GRUPO B: 20/10/2015, 27/10/2015, 15/12/2015 Y 12/01/2016.
GRUPO C: 19/10/2015, 26/10/2015, 14/12/2015 Y 11/01/2016.
GRUPO D: 20/10/2015, 27/10/2015, 15/12/2015 Y 12/01/2016.
Estas clases se impartirán en las aulas 1.04-2, 1.09 y 1.06.

BLOQUES TEMÁTICOS

BLOQUE TEMÁTICO I: ANÁLISIS DESCRIPTIVO DE UN CONJUNTO DE DA-


TOS.

1. Introducción a la Estadı́stica. Conceptos básicos.

2. Métodos gráficos.

3. Caracterı́sticas asociadas a una distribución de frecuencias.

4. Series estadı́sticas de dos caracteres. Regresión.

BLOQUE TEMÁTICO II: NOCIONES DE PROBABILIDAD. MODELOS TEÓRICOS


POBLACIONALES.

5. Experimentos aleatorios. Probabilidad.

6. Variables aleatorias. Modelos clásicos de distribuciones de probabilidad.

BLOQUE TEMÁTICO III: INFERENCIA ESTADÍSTICA.

7. Introducción a la Inferencia Estadı́stica.

8. El problema de la estimación: Estimación puntual y estimación por regiones de confianza.

9. Contrastes de hipótesis estadı́sticas.

2
SISTEMAS Y CRITERIOS DE EVALUACIÓN:

Sistema de evaluación continua (evaluación alternativa). Se desarrolla durante el periodo de


docencia de la asignatura a través de:

• 2 pruebas escritas que se celebrarán el viernes 20/11/2015 (todos los grupos) y el miércoles
13/01/2016 (grupos B y D) o jueves 14/01/2016 (grupos A y C).
• trabajos personales (individuales y/o en grupo), exposiciones, y participación en las acti-
vidades presenciales u otros medios que serán fijados por el profesor.

Sistema de evaluación tradicional (convocatorias oficiales). Un examen teórico-práctico que


consistirá en una prueba escrita con cuestiones relacionadas con la materia impartida en las
clases teóricas y habrá de efectuar el planteamiento y resolución de problemas de naturaleza
similar a los realizados en clase.

Evaluación de las prácticas con software especı́fico.

• En la última práctica se realizará una prueba. La nota obtenida en esta prueba supondrá el
15 % de la nota de la Primera Convocatoria (tanto en la evaluación continua como en la
tradicional).
• Restantes convocatorias: en el examen se incluirán cuestiones especı́ficas (15 % de la nota)
sobre la materia desarrollada en las prácticas.

BIBLIOGRAFÍA RECOMENDADA

Carlberg, C. (2011). Análisis Estadı́stico con Excel. Ed. Anaya Multimedia.

Fernández Dı́az, M.J., Garcı́a Ramos, J.M., Asensio Muñoz, I., Fuentes Vicente, A. (1992). 225
problemas de Estadı́stica aplicada a las ciencias sociales: ejercicios prácticos para alumnos. Ed.
Sı́ntesis

González Rosales, A., Guervós Sánchez, E., Garcı́a Nicolás, M. B. (2010). Estadı́stica Aplicada.
Recurso electrónico.

Martı́n Andrés, A., Luna del Castillo, J.D. (2004). Bioestadı́stica para las Ciencias de la Salud.
Ed. Norma-Capitel.

Milton, J.S. (2007). Estadı́stica para la Biologı́a y Ciencias de la Salud. Ed. McGraw-Hill.

Quesada Paloma, V. Isidoro Martı́n, A., López Martı́n, L.A. (2005). Curso y ejercicios de
estadı́stica: aplicación a las ciencias biológicas, médicas y sociales. Ed. Alhambra.

Rius Dı́az, F., Barón López, F.J. (2005). Bioestadı́stica. Ed. Thomson.

3
Samuels, M.L., Witmer J.A., Schaffner, A.A. (2012). Fundamentos de Estadı́stica para las
Ciencias de la Vida. Ed. Pearson.

Spiegel, M.R., Stephens, L.J. (2009). Estadı́stica. Ed. McGraw-Hill.

4
BLOQUE TEMÁTICO I:

ANÁLISIS DESCRIPTIVO DE UN CONJUNTO DE DATOS

1. Introducción a la Estadı́stica. Conceptos básicos. Distribuciones de


frecuencias

1.1. Introducción
Los investigadores en el campo de las Ciencias de la Vida realizan sus actividades en varios entor-
nos como en la clı́nica, laboratorio, invernadero o en el campo. Generalmente los datos resultantes
presentan una cierta variabilidad. A menudo el grado de variabilidad es sustancial, incluso aunque
las condiciones experimentales se mantengan tan constantes como sea posible. Las Ciencias de la
Vida son esencialmente ciencias experimentales que necesitan del razonamiento inductivo a partir de
datos: se hacen afirmaciones acerca de un colectivo de individuos u objetos, habiendo observado en
realidad sólo una parte de ellos.
La Estadı́stica es la ciencia de la interpretación de los datos y de la toma de decisiones en entornos
de variabilidad e incertidumbre. Los conceptos y métodos de la estadı́stica permiten al investigador
describir la variabilidad y planificar sus investigaciones teniendo en cuenta dicha variabilidad. Es
decir, la estadı́stica tiene como objetivo descubrir los patrones que pueden estar más o menos ocultos
por la variabilidad de las respuestas de los sistemas vivos.
Los métodos estadı́sticos se utilizan para analizar los datos y extraer la máxima información, iden-
tificando además la fiabilidad de dicha información.

1.2. Tipos de estudios.


Hay dos modos básicos de recoger datos: estudios observacionales y diseño de experimentos.
En un estudio observacional, los investigadores recogen datos de un modo que no interfieran
directamente en cómo se obtienen los datos.
En cambio, el investigador puede realizar una planificación previa para la recolección de datos. A la
metodologı́a utilizada en este caso se le llama diseño de experimentos.

1.3. Conceptos básicos


Se llama población o universo al conjunto de elementos que es objeto de estudio y que
poseen una determinada caracterı́stica. Cada uno de los elementos de la población se denomina

5
individuo o unidad estadı́stica.

Se llama Carácter o Variable a un rasgo de la población, es decir, es una caracterı́stica de


una persona o cosa a la que se le puede asignar un número o una categorı́a.

Distinguimos dos tipos de variables o caracteres: cualitativos y cuantitativos.

• Una Variable Cualitativa, Categórica o Atributo es aquella que no se puede cuan-


tificar. Dado que las variables categóricas no pueden medirse no tienen un orden natural
asociado (cualitativa nominal), sin embargo, en algunas ocasiones las categorı́as se pue-
den disponer en algún tipo de orden que tenga sentido (cualitativa ordinal).
• Una Variable Cuantitativa o Numérica es aquella que puede ser medida numérica-
mente.
A su vez dentro de las variables cuantitativas podemos distinguir dos tipos: variables
discretas (toman valores aislados) y variables continuas (toman todos los valores de
un intervalo).

Durante este curso trabajaremos básicamente con variables cuantitativas, discretas o continuas.

No siempre es posible estudiar todos los elementos de una población. En estos casos se recurre
a observar un subconjunto de la misma. Se llama muestra a un subconjunto de la población
elegido en términos de representatividad. Por regla general el tamaño de la muestra se
representa por n (o N).

De la población, por razones de inaccesibilidad, extraeremos una muestra, de forma que del compor-
tamiento estudiado en la muestra pueda generalizarse o inferir el de la población.
Razones habituales de inaccesibilidad a la población:

Imposibilidad fı́sica de acceder a toda la población.

Imposibilidad económica de acceder a toda la población:

Imposibilidad por destrucción del individuo objeto de estudio.

Para poder extraer conclusiones de la muestra que sean aplicables a toda la población con una base
cientı́fica las diferencias entre la muestra y la población deben ser mı́nimas, es decir la muestra debe
ser representativa de la población. Pero la población es desconocida, debemos escoger la muestra “a
ciegas”. Por ello debemos cuidar:

Tamaño de la muestra. Viene determinado por el tamaño de la población, por la variabilidad


de la misma, por el procedimiento de selección de la muestra, el objetivo del estudio y por la
precisión deseada.

6
Procedimiento de elección que garantice la objetividad y la representatividad.

La forma de seleccionar los individuos que han de constituir la muestra tiene, como es lógico, una
importancia capital para garantizar que ésta permita obtener conclusiones que puedan extrapolarse
válidamente a la población de la que la muestra procede. No hay que olvidar nunca que el objeto
final del estudio es siempre la población y que la muestra es sólo un medio para obtener información
sobre ésta.
Con el fin de permitir inferir conclusiones válidas sobre una población la muestra debe ser repre-
sentativa de ésta. En teorı́a la única forma de garantizar la representatividad de una muestra es
seleccionando al azar los individuos.

Definición 1 Una muestra aleatoria simple de n elementos es una muestra en la que:

a) todos los miembros de la población, y sólo ellos, tienen las mismas oportunidades de ser inclui-
dos en la muestra,

b) los miembros de la muestra se escogen independientemente entre sı́. Es decir que las oportu-
nidades de que un determinado miembro de la población sea elegido no dependen de que otros
miembros de la población son elegidos y los valores que presentan esos individuos no están
condicionados por los valores que presenten otros individuos.

Aunque esta forma de proceder rara vez sea aplicable de forma estricta en la práctica, siempre hay
que extremar las precauciones para que la forma real de obtener la muestra sea lo más parecida
posible a la ideal.
Al procedimiento mediante el cual se obtiene la muestra se llama muestreo.
El objetivo de los métodos de muestreo es conseguir que la muestra sea una réplica de la población.
Pero esto puede fallar debido a:

Errores de muestreo. Se producen por la variabilidad inherente a la población.

Errores ajenos al muestreo:

• de observación: sobrecobertura, de medida y de proceso.


• no en la observación: subcobertura, falta de respuesta.

Según la naturaleza de la investigación que se lleve a cabo será conveniente un tipo de muestreo u
otro. Se deberá escoger aquel que minimice los errores de muestreo.

7
1.4. Distribución de frecuencias
Un primer paso para entender el significado de un conjunto de datos de una variable dada consiste en
explorar dichos datos y describirlos en forma resumida. En este apartado se verán tres maneras com-
plementarias de resumir esta información: las distribuciones de frecuencias, las medidas de tendencia
central y las medidas de dispersión.
Usualmente se denotará por X la variable de interés en el estudio, n el número total de individuos
estudiados (población total o grupo reducido de esta), Los valores observados u observaciones de la
variable X para dichos individuos, se notaran por x1 , . . . xn . También se utiliza frecuentemente, de
forma alternativa, la notación x1 , . . . xk para expresar los valores distintos observados de la variable
ordenados en sentido creciente, es decir, x1 < . . . < xk .
Si X es un atributo, a x1 , . . . xk se les denomina modalidades. Nótese que en este caso x1 , . . . xk no
se pueden ordenar, especialmente en el caso nominal.
Una distribución de frecuencias es simplemente una presentación del número de apariciones de
cada valor en el conjunto de datos. Está información se puede presentar en forma de tabla o mediante
un gráfico.
Para ello, definimos los siguientes conceptos:

Frecuencia (absoluta) de xi , que denotaremos ni , es el número de veces que se observa dicho


valor. Se tiene que
X k
ni = n.
i=1

Frecuencia relativa de xi , que denotaremos fi , es la proporción de observaciones que toman


dicho valor, es decir
ni
fi = , 1 ≤ i ≤ k.
n
Se tiene que
X k
fi = 1.
i=1

Si la variable es cuantitativa o cualitativa ordinal, se puede definir:

Frecuencia (absoluta) acumulada de xi , que denotaremos Ni , es el número de observaciones


con valor menor o igual que xi .
i
X
Ni = nj , 1 ≤ i ≤ k.
j=1

Se tiene que
N1 = n1 , Nk = n, ni = Ni − Ni−1 , 2 ≤ i ≤ k.

8
Frecuencia relativa acumulada de xi , que denotaremos Fi , es la proporción de observaciones
con valor menor o igual que xi ,
i
Ni X
Fi = = fj , 1 ≤ i ≤ k.
n j=1

Se tiene que
F 1 = f1 , Fk = 1, fi = Fi − Fi−1 , 2 ≤ i ≤ k.

Las frecuencias se representan en una tabla, denominada tabla de frecuencias. En el caso de que
la variable sea cualitativa nominal, serı́a:

xi ni fi
x1 n1 f1
x2 n2 f2
.. .. ..
. . .
xk nk f k
n 1

Y en el caso de variable cualitativa ordinal o cuantitativa discreta:


xi ni Ni fi Fi
x1 n1 N1 f1 F1
x2 n2 N2 f2 F2
.. .. .. .. ..
. . . . .
xk nk Nk fk Fk
n 1

Si la variable toma muchos valores distintos, entonces es usual agruparlos en intervalos. En esta
situación, se definen de manera análoga las frecuencias de los intervalos, que se disponen en una
tabla de la siguiente forma:

(Li−1 , Li ] ni Ni fi Fi xi Ai hi
(L0 , L1 ] n1 N1 f1 F1 x1 A1 h1
(L1 , L2 ] n2 N2 f2 F2 x2 A2 h2
.. .. .. .. .. .. .. ..
. . . . . . . .
(Lk−1 , Lk ] nk Nk fk Fk xk Ak hk
n 1

donde xi = (Li + Li−1 )/2 es el punto medio de cada intervalo, denominado marca de clase y que
representa al intervalo, Ai = Li − Li−1 es la amplitud del intervalo y hi = ni /Ai .

9
Ejemplo 1 Se quiere estudiar el número de crı́as del lobo común. Para ello se toma una muestra de
15 lobos y se obtienen los siguientes resultados:

4, 3, 7, 5, 6, 4, 5, 4, 5, 6, 7, 7, 3, 4, 5

La tabla de frecuencias para estos datos es

xi ni Ni fi Fi
3 2 2 0.133 0.133
4 4 6 0.266 0.4
5 4 10 0.266 0.666
6 2 12 0.133 0.8
7 3 15 0.2 1
15 1

Ejemplo 2 Se miden las longitudes en milı́metros de las patas de una determinada variedad de
escarabajos, obteniéndose los siguientes resultados

0.2, 0.6, 1.1, 1.7, 1.9, 3.7, 3.8, 4.2, 4.5, 4.8, 5.3,
5.7, 6.2, 6.7, 7.5, 8.1, 8.5, 8.7, 9.2, 9.5

Obsérvese que en los datos se repiten muy pocos valores, por lo que casi todas las frecuencias son
1, y en consecuencia, la tabla de frecuencias que se obtendrı́a serı́a demasiado larga. En este caso,
es aconsejable agrupar los datos por intervalos. El criterio de división no es objetivo, pero no ha
de haber muy pocos intervalos, pues se perderı́a demasiada información, ni demasiados, pues no se
lograrı́a el efecto deseado, aunque sı́ deben abarcar todos los posibles valores y no solaparse. Tomare-
mos como criterio general los intervalos de la forma (a, b]. En este caso, hemos tomado la división
(0, 1], (1, 3], (3, 5], (5, 6], (6, 8], (8, 10]. Entonces la tabla quedará como sigue:

(Li−1 , Li ] ni Ni fi Fi xi Ai hi
(0,1] 2 2 0.1 0.1 0.5 1 2
(1,3] 3 5 0.15 0.25 2 2 1.5
(3,5] 5 10 0.25 0.5 4 2 2.5
(5,6] 2 12 0.1 0.6 5.5 1 2
(6,8] 3 15 0.15 0.75 7 2 1.5
(8,10] 5 20 0.25 1 9 2 2.5
20 1

Nótese que no todos los intervalos han de tener la misma amplitud.

10
2. Métodos gráficos

Una buena representación gráfica de los datos puede mostrar de forma clara y concisa las caracterı́sti-
cas de los mismos. No obstante, es necesario recalcar que la representación gráfica no es más que un
elemento auxiliar de análisis y representación, y que por sı́ sola no sirve para un estudio riguroso de
la información contenida en los datos.
Una misma información puede ser representada gráficamente de muchas maneras. Existen distin-
tos tipos de representación según el tipo de la variable, ya sea cuantitativa o cualitativa. Las más
importantes son:

  Diagrama de barras


 Discretas Polı́gono de frecuencias

(no agrupadas)
 
Curva acumulativa

 

V. cuantitativas 
 Histograma

Continuas

 


Polı́gono de frecuencias

(agrupadas)


Curva acumulativa


 Diagrama de rectángulos

V. cualitativas Diagrama de sectores

Pictogramas

2.1. Variables no agrupadas


2.1.1. Diagrama de barras

En el eje de abscisas se representan los distintos valores observados de la variable. Para cada valor
observado se levanta un segmento con altura igual a la frecuencia absoluta de dicho valor.
El diagrama de barras de los datos en el ejemplo 1 se muestra en la figura 1.
También puede usarse el diagrama de barras para representar las frecuencias relativas. En ese caso,
la altura de cada segmento serı́a fi , en vez de ni .

2.1.2. Polı́gono de frecuencias

El polı́gono de frecuencias es una forma alternativa de representar los mismos datos que el diagrama de
barras. Se construye uniendo los extremos superiores de los segmentos del correspondiente diagrama
de barras, como se muestra en la figura 2.
También puede usarse para representar las frecuencias relativas en vez de las absolutas.

11
ni 5
4

1 2 3 4 5 6 7 8

Figura 1: Diagrama de barras para los datos del ejemplo 1.


ni
5

1 2 3 4 5 6 7 8

Figura 2: Polı́gono de frecuencias para los datos del ejemplo 1

2.1.3. Curva acumulativa

Hasta ahora ninguno de los métodos gráficos ha representado las frecuencias acumuladas, ya sean
absolutas o relativas. La curva acumulativa es una forma de representar estas frecuencias, esto es, el
número de observaciones que hay con valor menor o igual que uno dado. Es una función escalonada
que vale 0 desde −∞ hasta el valor observado más pequeño. Entre el primer y el segundo valor más
pequeño, la función vale N1 , la primera frecuencia acumulada. Entre el segundo valor más pequeño
y el tercero, la función vale N2 , etc. A partir del mayor valor observado, la función es constante e
igual al número de observaciones n. En la figura 3 puede apreciarse la curva acumulativa para los
datos del ejemplo 1.
La función dibujada es discontinua en cada valor observado, siendo continua a la derecha.

12
Ni
16
14
12
10
8 ni
6
4
2
1 2 3 4 5 6 7 8

Figura 3: Curva acumulativa correspondiente a los datos del ejemplo 1.

También pueden representarse las frecuencias acumuladas relativas, en vez de las absolutas, en cuyo
caso a partir del valor más grande, la función es constante e igual a 1.

2.2. Variables agrupadas


2.2.1. Histograma

En el eje de abscisas se sitúan los intervalos en los que se han agrupado los datos, y para cada
uno de ellos se levanta un rectángulo con base dicho intervalo y área igual a la frecuencia absoluta
observada. Obsérvese que si Ai es la amplitud del intervalo, para que el área del rectángulo sea igual
a ni , entonces su altura ha de ser
ni
hi =
Ai
El histograma correspondiente a los datos del ejemplo 2 puede verse en la figura 4.
Al igual que en el caso anterior, también puede usarse el histograma para representar las frecuencias
relativas en vez de las absolutas. En ese caso, la fórmula para la altura de los rectángulos pasarı́a a
ser
fi
hi =
Ai
y el área de los rectángulos serı́a fi .

2.2.2. Polı́gono de frecuencias

El polı́gono de frecuencias es una forma alternativa de representar los mismos datos que el histograma.
Su construcción difiere ligeramente del caso discreto. En el caso de variables agrupadas por intervalos,
se unen los puntos medios de la parte superior de cada rectángulo. Obsérvese que la coordenada x

13
hi
2.5

1.5

0.5

1 3 5 6 8 10

Figura 4: Histograma correspondiente a los datos del ejemplo 2.

de cada punto es la marca de clase del intervalo. Un ejemplo del polı́gono de frecuencias en este caso
puede verse en la figura 5.

hi
2.5

1.5

0.5

1 3 5 6 8 10

Figura 5: Polı́gono de frecuencias para los datos del ejemplo 2.

Al igual que en los casos anteriores, también puede usarse para representar las frecuencias relativas
en vez de las absolutas.

2.2.3. Curva acumulativa

Como en el caso discreto, representa el número de observaciones que hay con valor menor o igual
que uno dado. En el caso continuo, la curva acumulativa es una lı́nea quebrada que vale 0 desde

14
−∞ hasta L0 . Dentro del primer intervalo, (L0 , L1 ], es un segmento que une los puntos (L0 , 0) y
(L1 , N1 ). En el segundo intervalo, (L2 , L3 ], es un segmento que une los puntos (L1 , N1 ) y (L2 , N2 ),
y ası́ sucesivamente. A partir del extremo derecho del último intervalo, Lk , hasta +∞ su valor
será siempre igual al número de observaciones n. Un ejemplo de este tipo de curva acumulativa
puede verse en la figura 6.

Ni
20
18
16
14
12
10
8
6
4
2
1 3 5 6 8 10

Figura 6: Curva acumulativa correspondiente a los datos del ejemplo 2.

También pueden representarse las frecuencias acumuladas relativas, en vez de las absolutas, en cuyo
caso a partir del extremo derecho del último intervalo hasta +∞ su valor será siempre 1.

2.3. Variables cualitativas o atributos


2.3.1. Diagrama de rectángulos

Su construcción es similar al diagrama de barras. Las frecuencias se pueden representar en el eje


horizontal o en el eje vertical.

Ejemplo 3 En un estudio sobre roedores se dispone de 12 ejemplares, cuya especie se registra en la


siguiente tabla:
Especie ni
Marmotas (M) 5
Ratones (R) 3
Otros (O) 4
12
Estos datos se pueden representar en un diagrama de rectángulos (horizontales o verticales) como
sigue

15
ni 6
5
6

4
M
3
R
2
O
1

- -
1 2 3 4 5 ni M R O

2.3.2. Diagrama de sectores

En un cı́rculo, se asigna a cada modalidad un sector de tamaño proporcional a su frecuencia. Para


el ejemplo 3, los sectores correspondientes a cada categorı́a serı́an:

Especie ni fi fi × 360o
Marmotas (M) 5 0.4166 150o
Ratones (R) 3 0.2500 90o
Otros (O) 4 0.3333 120o
12 1 360o

Con los datos del ejemplo 3 se obtendrı́a el siguiente diagrama de sectores:

2.3.3. Pictograma

En este tipo de gráficos se emplean figuras relacionadas con el fenómeno que se está estudiando, de
forma que su tamaño o número nos indique la frecuencia asociada a cada modalidad.

16
Ejemplo 4 Dentro de un estudio sobre cómo afecta la urbanización al medio ambiente, se contabiliza
el número de viviendas construidas en 3 zonas

Zonas ni
Zona1 200
Zona 2 400
Zona 3 600
1200

Pictograma con figuras de tamaño proporcional a las frecuencias:

@
@
@ @
@ @
@ @@
@@

Zona 1 Zona 2 Zona 3

Pictograma con número figuras proporcional a las frecuencias:

@ @
@@ @@
=200
Zona 1
@ @
@@ @@
Zona 2
@ @ @
@@ @@ @@
Zona 3

17
3. Caracterı́sticas asociadas a una distribución de frecuencias

Una vez recogidos los datos, hay que buscar un número reducido de magnitudes o valores que nos
resuman la información contenida en los mismos y que a su vez, nos permita comparar dos o más
series. El tipo de información sobre la variable puede ser muy diverso. Centraremos nuestro estudio
en las medidas de localización y las medidas de dispersión.

3.1. Medidas de localización


El objetivo de las medidas de localización consiste en resumir cuantitativamente una distribución, es
decir, dar un único valor que represente a todos los datos.

3.1.1. La media aritmética

Se define la media aritmética como


n
X k
X
xi xi ni
i=1 i=1
x= =
n n
o de forma alternativa
k
X
x= xi f i
i=1

donde x1 , . . . , xk son los valores distintos observados para variables no agrupadas y las marcas de
clase para variables agrupadas en intervalos.
Nótese que la media aritmética se mide en las mismas unidades que los datos.

Ejemplo 5 Se toman 100 cajas de semillas y se observa que en cada una de ellas hay entre 0 y 5
semillas germinadas. Si X =“número semillas germinadas en una caja”, calcula el número medio de
semillas germinadas a partir de los datos en la siguiente tabla:

xi ni Ni
0 4 4
1 20 24
2 45 69
3 25 94
4 5 99
5 1 100
100

18
k
X
xi n i
i=1 0 × 4 + 1 × 20 + 2 × 45 + 3 × 25 + 4 × 5 + 5 × 1
x= = = 2.1 semillas
n 100
Propiedades (linealidad)

(a) Si sobre una variable se realiza una transformación de tipo lineal Y = a + bX, entonces

y = a + bx

es decir, realizar un cambio de escala y/o un cambio de ejes en los datos supone realizar el
mismo cambio a la media aritmética.

(b) Si la variable Z se puede expresar de la forma Z = aX + bY , entonces

z = ax + by.

Ejemplo 6 La relación entre la temperatura medida en grados Fahrenheit y en grados Celsius es:
9
F = C + 32
5
Si la temperatura media en un laboratorio es de 200 C, la media en grados Fahrenheit es:
9
F̄ = × 20 + 32 = 680 F.
5
Ejemplo 7 Calcula la media aritmética de la variable Z, si sus valores son zi = 3yi + 9xi , i =
1, 2, ..., n, y se sabe que y = −3 y x = 4.

z = 3y + 9x = 3 × (−3) + 9 × 4 = 27.

Ejemplo 8 El tamaño de las esporas se puede medir en micras o en milı́metros. Sea X= tamaño de
las esporas en milı́metros e Y =tamaño de las esporas en micras. Sabiendo que 1 mm=1000 micras,
(Y =1000X), si x̄=4 entonces ȳ = 1000 x̄ = 4000.

3.1.2. Moda

La moda es el valor o modalidad de la variable que más veces se presenta.

M d = xi tal que ni = max{nj : 1 ≤ j ≤ k} o fi = max{fj : 1 ≤ j ≤ k}

La moda puede no ser única. Si una distribución tiene 2 modas se llama bimodal, o si tiene 3 modas
se llama trimodal. En general, si tiene varias modas se llama multimodal y si sólo tiene una se llama
unimodal.

19
En el ejemplo 5 M d = 2 semillas, en el ejemplo 3 M d =Marmota y en el ejemplo 1 M d1 = 4 y
M d2 = 5.
En caso de tratarse de una variable cuantitativa, la moda se mide en las mismas unidades que los
datos.
Si los datos se encuentran agrupados en intervalos, el intervalo que presenta mayor hi se denomina
intervalo modal.

3.1.3. Mediana

La mediana se define como el punto que deja a su izquierda el 50 % de las observaciones y a su


derecha el otro 50 %. Es decir, es el punto que “corta” a los datos ordenados de menor a mayor en
dos, con igual número de observaciones en cada lado. Matemáticamente, es aquel valor xi tal que
Fi = 1/2 (o equivalente, Ni = n/2).
La mediana se mide en las mismas unidades de los datos.
Si los datos no los tenemos resumidos en una tabla de frecuencias, la mediana serı́a el valor que se
encuentre en la posición central de la serie, una vez ordenada de menor a mayor. Por lo tanto si
tenemos un número impar de datos (n = 2r + 1), la mediana serı́a la observación (r+1)-ésima. Si
embargo si n es par (n = 2r), la mediana serı́a el punto medio entre las observaciones r-ésima y
(r+1)-ésima.

Ejemplo 9 Si tenemos los datos 4, 6, 6, 8, 9, 11, 12, la mediana es 8, que ocupa la posición
central. (n = 7 = 2 · 3 + 1, r = 4 )

Si tenemos los datos 4, 6, 6, 8, 9, 11, 12, 12, la mediana será 8.5. (n = 8 = 2 · 4, r = 4 )

En el caso de tener los datos resumidos en una tabla de frecuencias, para calcular la mediana primero
obtenemos las frecuencias absolutas acumuladas y si existe un i de forma que Ni = n/2, la mediana
se puede determinar mediante la siguiente fórmula:
xi + xi+1
Me =
2
Si ningún Ni = n/2, sea j de forma que Nj−1 < n/2 < Nj , es decir, j indica el primer Nj que es
mayor que n/2. Entonces Me= xj .

Ejemplo 10 Calcule la mediana de los siguientes datos:

xi ni Ni
2 3 3
7 44 47
15 7 54
19 54 108

20
En este caso, obsérvese que N3 = 54 = n/2, luego la mediana vale Me=(x3 +x4 )/2 = (15+19)/2 = 17.

Ejemplo 11 Calcule la mediana de los datos del ejemplo 5. En este caso, observamos que ningún
Ni coincide con n/2 = 50. La primera frecuencia acumulada que supera a n/2 es N3 = 69, entonces,
la mediana valdrá
Me = x3 = 2

3.1.4. Percentiles

Dijimos antes que la mediana es el punto que deja a su izquierda el 50 % (n/2) observaciones. La idea
de percentil generaliza en este sentido al de la mediana definiendo el percentil de orden α como aquel
punto que deja a su izquierda αn/100 observaciones y a su derecha (100 − α)n/100 observaciones, y
se denota Pα , es decir, Pα es aquel xi tal que Fi = α/100. Ası́, P20 es el punto que deja a su izquierda
el 20 % de las observaciones, P55 el que deja un 55 %, etc. Obsérvese que P50 =Me.
El cálculo de los percentiles es análogo al de la mediana, pero sustituyendo n/2 por nα/100.
Los percentiles P25 , P50 y P75 también se llaman cuartiles y dividen a los datos en 4 partes con igual
número de observaciones. Se representan por Q1 , Q2 y Q3

Ejemplo 12 Para calcular el tercer cuartil, P75 = Q3 , con los datos del ejemplo 1, tenemos que ver
si hay algún i con Ni = 75n/100 = 11.25. Como ningún i verifica esta igualdad, se procede igual que
en la mediana, es decir, se busca el primer valor cuya frecuencia absoluta acumulada sea mayor que
11.25, que en este caso es xi = 6 con Ni = 12, y entonces

P75 = xi = 6,
lo que se interpreta como sigue: un 75 % de los lobos tiene 6 crı́as o menos.

3.2. Medidas de dispersión


Dado que las medidas de localización resumen los datos en un valor, es interesante conocer si este
valor representa bien la serie, es decir, si los datos se encuentran concentrados en torno a este valor,
o bien están muy dispersos. Las medidas de dispersión miden la representatividad de las medidas de
localización.

3.2.1. Rango

Se define el rango como el mayor valor observado menos el menor. Matemáticamente

Rango = xmax − xmin

21
En el ejemplo 1, su rango vale 7 − 3 = 4.
Cuando las variables vienen agrupadas en intervalos:

Rango = Lk − L0

Observamos que viene dado en las mismas unidades de los datos.

3.2.2. Varianza, desviación tı́pica, cuasivarianza y cuasidesviacı́ón tı́pica

Se define la varianza, que denotaremos por S 2 , como


n
X n
X
2
(xi − x) x2i
i=1 i=1
S2 = = − x̄2 =
n n
k
X k
X
2
(xi − x) ni x2i ni
i=1
= = i=1 − x2
n n
donde, como es usual, los xi denotan los valores de la variable.

Se define la desviación tı́pica como S = + S 2 .
Otra forma de denotar la varianza de una variable X es V ar(X).
Propiedades

(a) S 2 ≥ 0, S ≥ 0.

(b) S = 0 ⇐⇒ S 2 = 0 ⇐⇒ los valores observados son todos iguales, es decir, no existe


variabilidad en las observaciones.

(c) Si yi = a + bxi , entonces Sy2 = b2 Sx2 y Sy = |b|Sx , donde Sy2 es la varianza de Y y Sx2 es la
varianza de X.

(d) Las unidades en que se mide la varianza son las de X al cuadrado y las de la desviación tı́pica
coinciden con las de X.

Ejemplo 13 Para los datos del ejemplo 1, la varianza del número de crı́as es
k
X
x2i ni
i=1
S2 = − x2
n
32 × 2 + 42 × 4 + 52 × 4 + 62 × 2 + 72 × 3
= − 52
15
= 26.733 − (5)2 = 1.733

22
Ejemplo 14 Considerando el ejemplo 8, donde X= tamaño de las esporas en milı́metros e Y = ta-
maño de las esporas en micras, Y =1000X, si Sx2 =0.01, entonces Sy2 =10002 Sx2 =10002 0.01 =10000.

Otras medidas de dispersión, que se usan principalmente en Inferencia Estadı́stica, cuando los datos
proceden de muestras, son la cuasivarianza y la cuasidesviación tı́pica. La cuasivarianza es:
n
X k
X
2
(xi − x) (xi − x)2 ni
i=1 i=1
SC2 = =
n−1 n−1
y la cuasidesviación tı́pica q
SC = + SC2
Es inmediato que nS 2 = (n − 1)SC2 .

3.2.3. Coeficiente de variación

El problema que plantea el uso de la varianza y de la desviación tı́pica, como medidas de dispersión,
es la dependencia de las unidades. Por ello, es conveniente definir una medida adimensional de
dispersión (es decir, que no tenga unidades), que sea objetiva y además, que permita la comparación
de la dispersión entre distintas variables. Si x 6= 0, esta medida nos la da el coeficiente de variación:

S
CV = 100 · ( %)
|x|
Cuanto más se separen las observaciones de la media, mayor es la dispersión y el valor de la varianza,
y por tanto mayor es el coeficiente de variación. Cuanto menor sea S, más representativa es la media.

Ejemplo 15 Para el ejemplo1, S = 1.733 = 1.3164 x̄ = 5 y el coeficiente de variación
1.3164
CV = 100 · = 26.33( %)
5
0.1
Ejemplo 16 En el ejemplo 8 se tendrı́a que: CVx = 4
100 = 2.5 % de dispersión.
100
CVy = 4000 100 = 2.5 % de dispersión.
CVy = CVx .

23
4. Series estadı́sticas de dos caracteres. Regresión
Hasta ahora hemos estudiado herramientas que nos permiten describir las caracterı́sticas de una sola
variable. Sin embargo, en muchos casos prácticos, es necesario estudiar conjuntamente dos o más
variables, ası́ como la relación que hay entre ellas.
De ahora en adelante supondremos que sobre cada individuo se miden u observan dos variables X e
Y , o equivalentemente, que sobre cada individuo se observa la variable bidimensional (X, Y ). Cada
observación vendrá dada por un par (xi , yi ), 1 ≤ i ≤ n, y por tanto ahora los datos observados serán
los n pares (x1 , y1 ), (x2 , y2 ), ..., (xn , yn ). Alternativamente, denotaremos por x1 , ..., xk a los k valores
distintos observados de la variable X; y por y1 , ..., yp a los p valores distintos observados de la variable
Y . En general k y p no tienen por qué coincidir.

Ejemplo 17 Se quiere estudiar la efectividad de cierto fungicida, en olmos afectados por hongos
grafiosis. Se tratan 10 olmos afectados por el hongo con el fungicida considerando el número de apli-
caciones realizadas a la planta al año y el número de veces que ha reaparecido el hongo, obteniéndose
los siguientes datos,
Olmo 1 2 3 4 5 6 7 8 9 10
Aplicaciones 2 5 3 2 5 4 2 4 5 3
Reapariciones 2 1 2 3 1 1 3 2 1 2
A la representación de los n pares observados en un sistema de ejes se le denomina nube de puntos.
5

0
−1 0 1 2 3 4 5
−1

4.1. Tabla de frecuencias


La frecuencia (absoluta) conjunta del par (xi , yj ), que denotaremos nij , es el número de veces
que se observa dicho par. Se tiene que
p
k X
X
nij = n.
i=1 j=1

La frecuencia relativa conjunta del par (xi , yj ), que denotaremos fij , es la proporción de veces
que se observa dicho par, es decir
nij
fij = , 1 ≤ i ≤ k, 1 ≤ j ≤ p.
n
24
Se tiene que
p
k X
X
fij = 1.
i=1 j=1

La frecuencia (absoluta) marginal de xi , que denotaremos ni. , es el número de veces que X


presenta dicho valor. La frecuencia relativa marginal de xi , que denotaremos fi. , es la proporción
de veces que X presenta dicho valor. La frecuencia (absoluta) marginal de yj , que denotaremos
n.j , es el número de veces que Y presenta dicho valor. La frecuencia relativa marginal de yj ,
que denotaremos f.j , es la proporción de veces que Y presenta dicho valor. Estas frecuencias se
representan en una tabla llamada tabla de frecuencias conjuntas o tabla de doble entrada
como sigue
X\Y y1 y2 ... yp
x1 n11 n12 ... n1p n1.
x2 n21 n22 ... n2p n2.
.. .. .. . . . ..
. . . . .. .
xk nk1 nk2 ... nkp nk.
n.1 n.2 ... n.p n
Nótese que las frecuencias marginales son las frecuencias de cada variable, sin tener en cuenta la
otra. Son distribuciones de una variable, y por tanto tiene sentido, para cada una de ellas, calcular
las medidas estudiadas anteriormente, como la media y la varianza. Ası́, hablaremos de la media
marginal de la variable X, x, la varianza marginal de la variable X, Sx2 , la media marginal de la
variable Y , y, y la varianza marginal de la variable Y , Sy2 .

Ejemplo 18 La tabla de frecuencias conjuntas con los datos del ejemplo 17 es

X= Aplicaciones, Y = Reapariciones
H
HH Y
H 1 2 3
X HH
H
2 0 1 2
3 0 2 0
4 1 1 0
5 3 0 0

4.2. Distribuciones condicionadas


De los n individuos en el estudio hay n.j con Y = yj . Podemos estar interesados en estudiar la
variable X en este subconjunto de los datos originales. A la distribución de frecuencias de la variable

25
X en este subconjunto, definido por aquellos individuos con Y = yj , se le denomina distribución
de X condicionada a Y = yj .

Ejemplo 19 Con los datos del ejemplo 17, la distribución de frecuencias de X condicionada a Y = 2,
es decir el número de aplicaciones en las plantas que tuvieron 2 reapariciones, es

X|Y = 2 Frec. Abs. Cond.


2 1
3 2
4 1
5 0
4

Análogamente podemos considerar la distribución de Y condicionada a X = xi ,

Ejemplo 20 Con los datos del ejemplo 17, la distribución de frecuencias de Y condicionada a X = 4,

Y |X = 4 Frec. Abs. Cond.


1 1
2 1
3 0
2

Las distribuciones condicionadas son distribuciones de una variable (en un subconjunto de los datos
originales), y por tanto tiene sentido, para cada una de ellas, calcular las medidas estudiadas en el
tema anterior, como la media y la varianza. Ası́, hablaremos de la media condicional de la variable
2
X dado que Y = yj , x|Y =yj , la varianza condicional de la variable X dado que Y = yj , SX| Y =yj
, la
media condicional de la variable Y dado que X = xi , y|X=xi y la varianza condicional de la variable
Y dado que X = xi , SY2 |X=x .
i

4.3. Dependencia funcional e Independencia


Diremos que la variable Y depende funcionalmente de X cuando existe una función f tal que
Y = f (X). Es decir, a cada valor x le corresponde un único valor y. Análogamente se define la
relación de dependencia funcional de X respecto de Y .
Diremos que dos variables X e Y son independientes si la distribución de una variable, por ejemplo,
X no depende de los valores de la otra, en este caso Y . Es decir, la distribución de los valores de
X es la misma para los individuos en los que Y = y1 , que en los que Y = y2 , etc. Esto se traduce
en que las frecuencias relativas de X condicionada a los valores de Y no dependen de la elección del
valor de Y , o equivalentemente
fij = fi· f·j para todo i, j

26
o bien, usando frecuencias absolutas
ni· n·j
nij = para todo i, j.
n
Si existe un i y un j que no cumplan la ecuación anterior, entonces las variables no son independientes.
Para que se dé la independencia ha de cumplirse la igualdad para todos los i, j.
Se tiene que: X e Y son independientes ⇔ las filas de la tabla de doble entrada son proporcionales
entre sı́ ⇔ las columnas de la tabla de doble entrada son proporcionales entre sı́.

4.4. Covarianza
Dada una variable bidimensional (X, Y ), definimos la covarianza entre X e Y como
n k p
1X 1 XX
Sxy = (xi − x)(yi − y) = (xi − x)(yj − y)nij .
n i=1 n i=1 j=1

Una forma alternativa para el cálculo de la covarianza es


n k p
1X 1 XX
Sxy = xi yi − x y = xi yj nij − x y.
n i=1 n i=1 j=1

Otra forma de denotar la covarianza entre dos variables es Cov(X, Y ).


La covarianza es una medida de dependencia de las dos variables: si la covarianza es positiva, la
relación entre X e Y es directa, es decir, cuando X crece, Y también tiende a crecer, y viceversa.
Si la covarianza es negativa, la relación es inversa, o sea, cuando X crece, Y tiende a decrecer, y
viceversa (ver figura 7). Si SXY = 0, se dice que las variables X e Y son incorreladas.

27
Y Y

SXY > 0 X SXY < 0 X

Figura 7: Interpretación del signo de la covarianza.

Propiedades

(a) X, Y independientes =⇒ X, Y incorreladas.

(b) Cov(aX + b, cY + d) = acSxy .

(c) Cov(aX + bY, Z) = aSxz + bSyz .

(d) V ar(X + Y ) = Sx2 + Sy2 + 2Sxy .

(e) V ar(X − Y ) = Sx2 + Sy2 − 2Sxy .

Aunque la independencia implique incorrelación (propiedad (a)), la implicación contraria no es cierta


en general, como se muestra en el siguiente ejemplo.

Ejemplo 21 Consideremos la siguiente tabla de doble entrada:

X\Y −1 0 1
−2 3 4 3 10
0 1 0 1 2
2 2 2 2 6
6 6 6 18

Para estos datos se tiene que Sxy = 0, pero X e Y no son independientes pues
2×6 n2. × n.2
n22 = 0 6= = .
18 n

4.5. Análisis de regresión. Recta de regresión


Dada la variable bidimensional (X, Y ), muchas veces es interesante estudiar la relación o nivel de
asociación que presentan, ası́ como predecir o estimar el valor de una variable en función de la otra,
digamos la Y en función de X. En este sentido, es necesario buscar cuál es la “mejor” función h(X)
que aproxima a Y . Es lo que llamamos Análisis de Regresión.

28
El criterio más usado para encontrar la “mejor” función suele ser el de mı́nimos cuadrados, es
decir, hallar la función h que haga lo más pequeña posible la cantidad
n p
k X
X X
2
(yi − h(xi )) = (yj − h(xi ))2 nij
i=1 i=1 j=1

Puede demostrarse que la mejor función en este sentido es h(x) = y |X=x , es decir, la media condicio-
nada. Como en general, en la práctica no puede calcularse en todos los valores reales, se suele buscar
la mejor función h dentro de un conjunto de funciones. Y ası́ podremos calcular la “mejor”función
lineal (recta), la “mejor”función cuadrática (parábola), la “mejor”función logarı́tmica, etc.
Desde el punto de vista teórico solo desarrollaremos la aproximación de la nube de puntos a partir de
una función lineal (análisis de regresión lineal). Es decir, buscamos la recta que “mejor represente
a la nube de puntos”, es decir
h(x) = y ∗ = a + bx.
Para determinar los coeficientes a y b aplicamos de nuevo el criterio de mı́nimos cuadrados, es decir,
consideramos la función
n
X n
X
F (a, b) = (yi − h(xi ))2 = (yi − a − bxi )2
i=1 i=1

y buscamos a y b que minimicen esta función F . Para ello, se deriva F (a, b) con respecto a a y b y
se iguala a 0, obteniéndose 
 a = y − bx

Sxy
 b=

Sx2
A dicha recta se le llama recta de regresión de Y sobre X o recta de mı́nimos cuadrados de
Y sobre X y se denota rY |X .
Análogamente también podemos aproximar los valores de X a partir de los Y a través de una recta
y calcular la recta de regresión de X sobre Y , rX|Y , cambiando los papeles de las variables:

h0 (y) = x∗ = a0 + b0 y

con 
0 0
 a = x−b y

Sxy
 b0 =

Sy2
Propiedades

(a) Las dos rectas no coinciden, a menos que exista dependencia lineal funcional entre las variables
(los puntos de la nube de puntos estarı́an alineados). Por tanto, si de la ecuación de la recta
rY |X despejáramos x no obtendremos, en general, la recta de regresión rX|Y .

29
(b) Las dos rectas pasan siempre por el punto (x, y). En general, es el punto de corte de ambas
rectas, salvo en el caso de dependencia funcional lineal, donde todos los puntos de las dos rectas
son coincidentes.

(c) Las pendientes de las dos rectas rY |X y rX|Y tienen el mismo signo y coincide con el signo de
la covarianza. Es decir, si una de ellas es creciente, la otra también. No puede darse el caso de
que una tenga pendiente positiva y la otra negativa.

Ejemplo 22 Calcular las rectas de regresión del ejemplo 17.


HH
Y
HH
1 2 3
X H HH
2 0 1 2 3
3 0 2 0 2
4 1 1 0 2
5 3 0 0 3
4 4 2 10

Calculamos primero las medias, las desviaciones tı́picas y la covarianza que necesitamos para el
cálculo de las rectas de regresión,
q
x = 35
10
= 3.5 S x = 137
10
− 3.52 = 1.2042 Sx2 = 1.45
55
Sxy = 10
− 3.5 · 1.8 = −0.8
q
18 38
y= 10
= 1.8 Sy = 10
− 1.82 = 0.7483 Sy2 = 0.56

Sx,y < 0 nos indica una relación inversa entre X e Y , es decir, a mayor número de aplicaciones del
fungicida tiende a haber menos reapariciones del hongo.
La recta de regresión de Y|X será y ∗ = a + bx

Sxy
b= Sx2
= −0.5517

a = y − (−0.5517)x = 3.73

y∗ = 3.73 − 0.5517x

La recta de regresión de X|Y x∗ = a0 + b0 y

30
Sxy
b0 = Sy2
= −1.4286

a0 = x − (−1.4286)y = 6.07

x∗ = 6.07 − 1.4286y

Calcular el número de reapariciones que sufrirá un olmo al que se le han realizado 6 aplicaciones.
x=6 yb = 3.73 − 0.5517 · 6 = 0.42
Calcular el número de veces que será necesario aplicar a un olmo que haya experimentado 4 reapa-
riciones en el último año.
y=4 b = 6.07 − 1.4286 · 4 = 0.36
x

4.6. Medida de la bondad del ajuste


Además de calcular la recta de regresión de Y sobre X para predecir la Y en función de la X es
necesario dar una medida de la fiabilidad de las estimaciones que hagamos. Para ello necesitamos
medir la “fuerza de la asociación lineal” existente entre las variables. Es necesario saber cómo es de
bueno el ajuste hecho por la recta de regresión. Para ello, tenemos que introducir alguna cantidad
que nos mida la distancia entre la nube de puntos y la recta.
Si el ajuste es bueno, entonces las diferencias entre los valores observados y los valores ajustados
(errores o residuos),

ei = yi − yi∗ , con yi∗ = a + bxi , i = 1, 2, ..., n

e0i = xi − x∗i , con x∗i = a0 + b0 yi , i = 1, 2, ..., n


serı́an todas muy pequeñas y por tanto, las varianzas de dichos residuos, también debe ser pequeña.
Se puede comprobar fácilmente que
n
X n
X
ei = e0i = 0 y por tanto ē = ē0 = 0
i=1 i=1

Ası́ que las varianzas de los residuos u errores, llamadas varianzas residuales, son
n n
1X 1X
Se2 = (yi − yi∗ )2 = (yi − a − bxi )2
n i=1 n i=1

n n
1X 1X
Se20 = (xi − x∗i )2 = (xi − a0 − b0 xi )2
n i=1 n i=1

31
ajuste bueno ajuste malo ajuste bueno
-1 0 1

Sustituyendo a , b, a0 , b0 , en las expresiones para la varianzas residuales y operando obtenemos


Sxy
Se2 = Sy2 (1 − r2 ) Se20 = Sx2 (1 − r2 ) donde r=
Sx Sy

A la cantidad r se le llama coeficiente de correlación lineal. Obsérvese que la varianza residual


será más pequeña cuanto más cercano esté r a 1 o a −1. Obsérvese también que la varianza residual
alcanza su valor más grande cuando r = 0, por lo tanto, podemos medir el grado del ajuste realizado
por la recta de regresión mediante el coeficiente de correlación lineal.

Propiedades

(a) r2 = b · b0

(b) El signo de r es el mismo signo que b, b0 y Sxy . Si r < 0 entonces la dependencia lineal entre
X e Y es inversa (cuando una crece la otra decrece), y si r > 0 entonces la dependencia lineal
entre X e Y es directa (cuando una crece la otra también).

(c) r es un número entre −1 y 1.

(d) Si r = 1 o r = −1, entonces el ajuste es perfecto. Esto es debido a que si r2 = 1, entonces


Se2 = 0, y en consecuencia, los valores ajustados coinciden con los observados. En este caso las
dos rectas de regresión coinciden. A la hora de la práctica, en raras ocasiones se tiene r = 1 o
r = −1. El ajuste lineal serı́a mejor cuanto más cercano está r a 1 o a -1, en otras palabras,
cuanto más cercano está r2 a 1.
Conviene notar que una correlación de 0 no significa necesariamente que no haya relación entre
X e Y , si no que no hay relación lineal.

(e) El coeficiente de correlación lineal es una medida numérica invariante bajo cambios de escala.

(f) A r2 se le denomina coeficiente de determinación y representa la proporción de varianza


de Y explicada por la recta de regresión rY |X , o recı́procamente la proporción de varianza de
X explicada por la recta de regresión rX|Y .

Ejemplo 23 Con los datos del ejemplo 17, para obtener el coeficiente de correlación lineal.
Coeficiente de Correlación Lineal r
Sxy
r= = −0.8878
Sx Sy

32
Al ser r < 0 la relación es inversa, por lo que cuantas más veces se aplica el fungicida, tiende a haber
un menor número de reapariciones.
Como criterio a seguir, podemos decir que se considera que existe una correlación lineal significativa
si r2 > 0.75.
En nuestro ejemplo r2 = (−0.8878)2 = 0.7881 > 0.75, por lo que podemos decir que existe una buena
relación lineal entre el número de aplicaciones del fungicida y el número de reapariciones y, por
tanto, es adecuado realizar un ajuste lineal para explicar o describir una de las variables en función
de la otra. Consideraremos fiables las predicciones que se puedan derivar de dichos modelos lineales.

33
ESTADÍSTICA APLICADA A LA BIOLOGÍA

Hoja de Problemas n0 1

1. Un centro de investigación realizó un estudio hace 50 años sobre la distribución de la edad de los
alcornoques de un bosque, construyéndose una tabla en papel deteriorado, quedando sólo la siguiente
información. Reconstruya a partir de ella la tabla original, y construya el histograma correspondiente:

(Li−1 , Li ] xi ni Ni fi Fi Ai hi
(20, 50] 35 2 2
( , 60] 10 0.125
(60, ] 0.425 10
( , ] 75 0.225
( , 100] 28 80 1.4

2. Un médico estudió el número de ataques de un grupo de gatos con epilepsia severa en un periodo
de ocho semanas.

N0 ataques 5 6 8 9 10 12
N0 gatos 12 18 20 15 15 20

(a) Identifique y clasifique la variable del estudio.

(b) Represente el diagrama de barras y la curva acumulativa.

(c) Calcule media, mediana, moda, varianza, desviación tı́pica, coeficiente de variación, los cuartiles
y los percentiles 15, 80 y 90.

(d) Complete: el 60 % de los gatos sufrieron más de....ataques

3. El siguiente gráfico representa la curva acumulativa de la edad de las ciervas de una manada X.

34
Fi

0.7



0.2 !
!!

!!
5 7 12 15 xi

Si la manada tiene 40 ciervas,

(a) Señale la mediana en la gráfica.

(b) Construya la tabla estadı́stica: intervalos, marcas de clase, frecuencias.

(c) Represente el histograma.

4. Considérese el siguiente diagrama:

1
3/4

1/4

1 3 7

(a) Señale la mediana en la gráfica.

(b) Obtenga los datos originales sabiendo que el tamaño muestral es 20.

(c) Calcule las medidas de tendencia central y dispersión aplicables a esta distribución.

(d) Calcule el tercer cuartil y el percentil 20.

5. En la siguiente tabla se recoge la información obtenida de las variables X = “altura” e Y =


“edad de 100 chicas adolescentes”.
Y 15 16 17 18
X
(130,150] 15 4 5 1
(150,160] 10 20 3 2
(160,170] 5 10 15 5
(170,190] 0 1 2 2

35
(a) ¿Cuál es la edad mayoritaria? De las niñas de altura entre (150,170], ¿cuál es el porcentaje de
niñas de 17 años? Y ¿cuál es la edad media de estas chicas?

(b) Represente gráficamente el histograma de la variable X. Represente la curva acumulativa de la


variable Y.

(c) ¿Dónde existe mayor variabilidad en cuanto a la altura, entre las adolescentes de 15 o de 18
años?

6. Dadas las siguientes rectas de regresión

r: 3x + 2y − 1 = 0
s: x+y+2=0

(a) Determine de manera razonada cuál es la recta de regresión de Y sobre X y cuál es la de X


sobre Y .

(b) Calcule el coeficiente de correlación lineal.

(c) Calcule x̄ y ȳ.

(d) Si X = 3, ¿qué valor se puede predecir para Y ? ¿Es fiable la predicción?

7. Los datos sobre la concentración de estrona en la saliva (X) y la concentración en plasma libre
(Y ), en pg/ml, de 15 individuos son los siguientes

X 7.5 8 8.3 7.5 8.9 12 11.2 10 14.4 16.5 15.1 18 17.9 22 22.3
Y 26 35 34 27 43.5 25.8 45 46 50.7 43.2 54 68 68.5 53.1 60

(a) Calcule las medias marginales e interprételas.

(b) Calcule la recta de mı́nimos cuadrados para ajustar la concentración de estrona en la saliva en
función de la concentración de estrona en plasma libre.

(c) ¿Cuál se estima que serı́a la concentración de estrona en la saliva en un individuo con 50pg/ml
en plasma libre? ¿Es fiable esta predicción?

(d) ¿En qué variable presentan los datos una mayor dispersión?

36
8. En un estudio para relacionar la longitud de lı́nea de la vida en la mano izquierda y la duración
de la vida se han tomado datos de 50 personas con los resultados recogidos en la siguiente tabla,
donde X representa la longitud de la lı́nea en centı́metros e Y la edad al morir en años:

X / Y (10,30] (30,50] (50,80]


(6, 7] 7 2 1
(7, 8] 1 11 3
(8, 9] 0 1 9
(9, 10] 2 1 12

(a) ¿Qué edad cabe esperar que tenga al morir una persona cuya lı́nea de la vida mide 10 centı́me-
tros? ¿En qué medida son fiables este tipo de predicciones? Justifique la respuesta.

(b) Determine la relación lineal que mejor exprese la longitud de lı́nea en función de la edad al
morir. ¿Coincide con la expresión lineal calculada en el apartado anterior?

9. En un estudio sobre la reducción del número de ganglios linfáticos cancerosos detectados en una
muestra de pacientes sometidos a tratamiento, los resultados obtenidos se muestran en la siguiente
tabla:
X Frecuencia
0 7
1 26
3 35
4 20
5 8
6 3
8 1

Se sabe que otra variable Y influye en la reducción del número de ganglios. Los datos obtenidos
fueron n n n
X X X
yi = 540, yi2 = 3520, xi yi = 1100
i=1 i=1 i=1
¿Qué número de ganglios linfáticos se espera se reduzca en un paciente en el que y = 7? ¿Es fiable
la predicción?

10. Al observar dos variables estadı́sticas X e Y sobre un conjunto de 20 plantas, se han obtenido
los siguientes valores:

(5, 1) (5, 0) (5, 0) (8, 1) (5, 0) (5, 1) (8, 0) (5, 1) (5, 2) (8, 1)
(5, 0) (8, 0) (5, 1) (5, 0) (8, 2) (5, 1) (5, 0) (5, 2) (8, 0) (5, 0)

37
(a) Construya la tabla de frecuencias conjunta.

(b) Determine la distribución relativa de Y condicionada a X = 5 y calcule su media.

(c) ¿Son independientes las variables? Razone la respuesta.

(d) Determine qué valor de X cabe esperar para un valor de Y igual a 3.

(e) Valore si es fiable la predicción realizada.

11. (Excel) Para estudiar el efecto de las aguas residuales de las alcantarillas que afluyen a un
lago, se toman medidas de la concentración de nitrato en el agua. Para monitorizar la variable se ha
utilizado un antiguo método manual. Se idea un nuevo método automático. Si se pone de manifiesto
una alta correlación positiva entre las medidas tomadas empleando los dos métodos, entonces se
hará uso habitual del método automático. Los datos obtenidos son los siguientes:

Manual=X 25 40 120 75 150 300 270 400 450 575


Automático = Y 30 80 150 80 200 350 240 320 470 583

(a) Halle el coeficiente de determinación para ambas variables.

(b) Compruebe la idoneidad del modelo lineal de regresión. Si el modelo es apropiado, halle la recta
de regresión de Y sobre X y utilizarla para predecir la lectura que se obtendrı́a empleando la
técnica automática con una muestra de agua cuya lectura manual es de 100.

(c) Para cada una de las observaciones, halle las predicciones que ofrece el modelo lineal de regresión
para X en función de Y , e Y en función de X, es decir X ∗ e Y ∗ .

(d) Calcule los errores para cada una de dichas predicciones, es decir, e0i = xi − x∗i e ei = yi − yi∗ .

(e) ¿Qué relación hay entre las medias de X y X ∗ ? ¿Y entre las de Y e Y ∗ ?

(f) Calcule las medias de e y e0 .

(g) Calcule el cociente entre la varianza de e0 y la de X. Análogamente para la de e y la de Y .

38
BLOQUE TEMÁTICO II:
NOCIONES DE PROBABILIDAD.
MODELOS TEÓRICOS POBLACIONALES

5. Experimentos aleatorios. Probabilidad

5.1. Experimentos aleatorios. Sucesos


El azar juega un papel importante en el pensamiento cientı́fico sobre los sistemas vivos. Algunos
procesos biológicos están afectados directamente por el azar (aparición de mutaciones, separación
de gametos, etc...), otras veces los experimentos se ven afectados por fluctuaciones aleatorias en las
condiciones, variaciones aleatorias en la genética, etc.
Las conclusiones de un análisis de datos estadı́stico se establecen en términos de probabilidad, no
sólo porque el azar influya en los resultados del experimento, sino también porque los modelos de
probabilidad nos permiten cuantificar cómo es de probable o improbable un resultado experimental,
dadas ciertas hipótesis iniciales.
En este tema se introducirá el lenguaje probabilı́stico y algunas herramientas básicas para manejar
probabilidades.

Definición Diremos que un experimento o fenómeno es aleatorio si se verifican las siguientes


condiciones:

(a) Se puede repetir indefinidamente, siempre en las mismas condiciones.

(b) Antes de realizarlo, no se puede predecir el resultado que se va a obtener.

(c) El resultado que se obtenga pertenece a un conjunto conocido, previamente, de resultados posi-
bles. A este conjunto, de resultados posibles, lo denominaremos espacio muestral y lo deno-
taremos por Ω. Los elementos del espacio muestral se denominan sucesos elementales.

Cualquier subconjunto de Ω será denominado suceso y lo denotaremos por letras mayúsculas: A,


B,...

5.1.1. Operaciones con sucesos

Unión: Dados dos sucesos A, B ⊂ Ω, se denomina suceso unión de A y B al suceso formado


por todos los sucesos elementales que pertenecen a A o bien pertenecen a B. Se denotará por
A ∪ B.

39
Intersección: Dados dos sucesos A, B ⊂ Ω, se denomina suceso intersección de A y B al
suceso formado por todos los sucesos elementales que pertenecen a A y a la vez pertenecen a
B. Se denotará por A ∩ B.

Definiremos:

Suceso imposible: Lo representaremos por ∅ y es cualquier resultado que no puede suceder al


realizar el experimento.

Suceso complementario: Dado un suceso A ⊂ Ω llamaremos suceso complementario, Ā, al


suceso formado por todos los elementos del espacio muestral que no pertenecen a A.

Sucesos disjuntos, incompatibles o mutuamente excluyentes: Dados dos sucesos A, B ⊂ Ω dire-


mos que son disjuntos, incompatibles o mutuamente excluyentes si cuando ocurre uno
de ellos nunca ocurre el otro, es decir, A ∩ B = ∅

Suceso seguro: Es aquel que ocurre sea cual sea el resultado del experimento. Lo representare-
mos por Ω.

Propiedades:

A∪B =B∪A

A ∪ Ā = Ω

A∪∅=A

A∩B =B∩A

A ∩ Ā = ∅

A∩Ω=A

(A ∩ B) ∪ C = (A ∪ C) ∩ (B ∪ C) .

(A ∪ B) ∩ C = (A ∩ C) ∪ (B ∩ C) .

A∪B = A∩B .

A∩B = A∪B .

Si A ⊆ B entonces A ∩ B = A y A ∪ B = B.

40
5.2. Probabilidad
Definición Una probabilidad es una cantidad numérica (∈ [0, 1]) que expresa verosimilitud o
posibilidad de ocurrencia de un suceso. Se expresa como P(A).

Noción frecuentista de probabilidad


En los experimentos aleatorios se observa que cuando el número de pruebas aumenta, las frecuencias
relativas con las que ocurre cierto suceso, A, tienden a estabilizarse en torno a un valor fijo al que
denominaremos probabilidad de A, P (A).
nA
P (A) = lı́m
n→+∞ n

Es decir, cada vez que se repite el experimento aleatorio, un suceso A ocurre o no ocurre. La pro-
babilidad P (A) se interpreta como la frecuencia relativa de A en una serie infinitamente larga de
repeticiones del experimento.

Regla de Laplace
Si un experimento aleatorio tiene un espacio muestral finito y no existe ninguna razón que privile-
gie unos resultados elementales en contra de otros, decimos entonces que los resultados elementales
son equiprobables. En este caso se calcula la probabilidad de un suceso A, según la regla de La-
place como el cociente entre el número de casos favorables (o sucesos elementales) a A, y el de todos
los posibles resultados del experimento.
número de casos favorables a A
P (A) =
número de casos posibles

Propiedades básicas de la probabilidad

(P1) P (Ω) = 1.

(P2) 0 ≤ P (A) ≤ 1.

(P3) Si A y B son dos sucesos disjuntos o mutuamente excluyentes entonces P (A∪B) = P (A)+P (B)

Otras Propiedades de la probabilidad

Si A ⊆ B entonces P (A) ≤ P (B).

Probabilidad de la unión. Sean A, B ⊂ Ω dos sucesos cualesquiera (no necesariamente


disjuntos). Se tiene que

P (A ∪ B) = P (A) + P (B) − P (A ∩ B)

41
Probabilidad del complementario: P (Ā) = 1 − P (A)
En particular P (∅) = 0.

Probabilidad condicionada
Sea B ⊂ Ω un suceso aleatorio de probabilidad no nula, es decir P (B) > 0. Para cualquier otro
suceso A ⊂ Ω, llamamos probabilidad condicionada de A a B a

P (A ∩ B)
P (A|B) =
P (B)

Más resultados básicos para calcular probabilidades

Probabilidad de la intersección: P (A ∩ B) = P (B)P (A|B) si P (B) > 0.


Como los papeles de A y B se pueden intercambiar también podemos escribir P (A ∩ B) =
P (A)P (B|A) si P (A) > 0.

P (Ā|B) = 1 − P (A|B)

Independencia de sucesos. Diremos que dos sucesos de probabilidad no nula son indepen-
dientes si el conocimiento de que ha ocurrido uno de ellos no cambia la probabilidad de que ocurra
el otro. Es decir:

P (A|B) = P (A)

Equivalentemente, si:
P (A ∩ B) = P (A)P (B).
La expresión anterior permite extender la definición de independencia a sucesos de probabilidad nula.
Es inmediato probar que: A y B independientes ⇔ Ā y B independientes ⇔ A y B̄ independientes
⇔ Ā y B̄ independientes.

Teorema de la Probabilidad Total y Teorema de Bayes

Llamaremos sistema exhaustivo y excluyente de sucesos (o también sistema completo de su-


cesos) a una colección de sucesos A1 , A2 , ..., An ⊂ Ω tales que
n
[
Ai = Ω y Ai ∩ Aj = ∅ para todo i 6= j .
i=1

42
Teorema de la Probabilidad Total Sean A1 , A2 , ..., An ⊂ Ω un sistema exhaustivo y excluyente
de sucesos con P (Ai ) > 0 para todo i. Entonces para cualquier B ⊂ Ω se tiene
n
X
P (B) = P (B|Ai )P (Ai ).
i=1

Teorema de la Bayes Sean A1 , A2 , ..., An ⊂ Ω un sistema exhaustivo y excluyente de sucesos con


P (Ai ) > 0 para todo i y sea B ⊂ Ω cualquier otro suceso con P (B) > 0. Entonces para cualquier j

P (B|Aj )P (Aj )
P (Aj |B) = n
X
P (B|Ai )P (Ai )
i=1

5.3. Pruebas diagnósticas:


Ayuda a mejorar una estimación de la probabilidad de que un individuo presente una enfermedad.
Serı́a deseable que los test que se aplican para detectar la presencia de una enfermedad, un factor
genético o alguna otra condición fueran seguros en el sentido de que siempre detectaran la condición
cuando está presente y nunca la indicaran cuando el individuo no la tiene. Desgraciadamente, esto
no es ası́. Sólo cabe exigir que los tests no den resultados erróneos muy a menudo.

En principio tenemos una idea de las posibilidades de un individuo de estar enfermo.


Prevalencia o incidencia de la enfermedad: porcentaje de la población que presenta una
enfermedad.

Para confirmar la sospecha, usamos una prueba diagnóstica. Ha sido evaluada con anterioridad
sobre dos grupos de individuos: sanos y enfermos. Ası́, de modo frecuentista se ha estimado:

• P (+|Enfermo)= sensibilidad (verdaderos +)= Tasa de acierto sobre enfermos


• P (−|Sano)= especificidad (verdaderos -)= Tasa de acierto sobre sanos.

A partir de lo anterior y usando el teorema de Bayes, podemos calcular las probabilidades a


posteriori (en función de los resultados del test): ı́ndices predictivos

• P (Enfermo|+) = Índice predictivo positivo.


• P (Sano|−) = Índice predictivo negativo.

43
5.4. Riesgo relativo
Algunos estudios se diseñan para investigar un factor que el investigador cree que puede estar asociado
con el desarrollo de una enfermedad o condición especı́fica. Este factor se denomina factor de riesgo.
Para realizar el estudio se seleccionan dos muestras, una formada por sujetos que han estado expuestos
al facto de riesgo (E); los demás no han estado expuestos al factor de riesgo (Ē). Si notamos por D
al suceso padecer la enfermedad, se denomina factor de riesgo relativo (RR) al cociente:

P [D|E]
RR =
P [D|Ē]

Si RR = 1, significa que no existe asociación entre el factor de riesgo y el desarrollo de la


enfermedad.

Si RR > 1, se supone que un individuo expuesto al riesgo tiene más probabilidades de desarro-
llar la enfermedad que uno que no estuvo expuesto.

Si RR < 1, indica que es menos probable que un individuo expuesto desarrolle la enfermedad
que uno que no lo estuvo.

44
6. Variables aleatorias. Modelos clásicos de distribuciones
de probabilidad.

6.1. Definiciones
Llamaremos variable aleatoria (v.a.) a cualquier función X : Ω −→ R tal que asigna un número
real a cada suceso elemental del espacio muestral.
Las variables aleatorias se representarán por letras mayúsculas, y sus valores numéricos, por letras
minúsculas
Para describir el comportamiento de la variable en términos de probabilidades se utiliza la Función
de Distribución
F : R −→ [0, 1]
x −→ F (x) = P [X ≤ x]
Uso de la Función de la Distribución para el cálculo de probabilidades

(a) P [a < X ≤ b] = F (b) − F (a)

(b) P [X > a] = 1 − F (a)

Diremos que una variable aleatoria es discreta si sólo puede tomar un número finito o infinito
numerable de valores. Y diremos que es continua si puede tomar un número infinito no numerable
de valores, normalmente, un intervalo o unión de intervalos.

6.2. Variables aleatorias discretas


Dada una v.a. discreta, X, se define su función de probabilidad como

P [X = k] = P [{sucesos elementales que se transforman en k mediante la v.a. X}]


P
Se verifica que k P [X = k] = 1.

Para una v.a. discreta la función de distribución viene dada por:

F : R −→ [0, 1]
X
x −→ F (x) = P [X ≤ x] = P [X = k]
k≤x

Ejemplo 1: Consideremos que una cabra que va a tener tres crı́as. Los sexos de los crı́as son un
fenómeno aleatorio con el siguiente espacio muestral,

Ω = {OOO, OOA, OAO, AOO, OAA, AOA, AAO, AAA}

45
donde O={macho} y A={hembra}.
Este fenómeno puede ser modelizado por la v.a. X= “número de machos”. Entonces:

X(OOO) = 3
X(OOA) = X(OAO) = X(AOO) = 2
X(OAA) = X(AAO) = X(AOA) = 1
X(AAA) = 0

Por tanto, X(Ω) = {0, 1, 2, 3} que es un conjunto finito, luego X es una v.a. discreta con función de
probabilidad:
P [X = 0] = P [{AAA}] = 81
P [X = 1] = P [{OAA, AOA, AAO}] = 38
P [X = 2] = P [{OOA, OAO, AOO}] = 38
P [X = 3] = P [{OOO}] = 18
El fenómeno aleatorio planteado puede ser, entonces, sustituido por un modelo matemático repre-
sentado por la v.a.

k 0 1 2 3
P [X = k] 18 83 38 18

Su función de distribución viene dada por:




 0 si x<0

1
si 0≤x<1


 8

4
F (x) = 8
si 1≤x<2
 7
si 2≤x<3




 8
 1 si x≥3

6.3. Variables aleatorias continuas


En Estadı́stica Descriptiva utilizamos el histograma para representar la distribución de frecuencias
de las variables continuas (o que presentaban tantos valores diferentes que resultaba más eficiente
agruparlas en intervalos). Si consideramos un histograma construido con frecuencias relativas (recor-
demos la noción frecuentista de probabilidad) podemos verlo como una representación aproximada
de la verdadera distribución de probabilidades que sigue la variable de la que provienen los datos.
Suponiendo que consideramos un histograma de frecuencias relativas con intervalos muy estrechos,
el polı́gono de frecuencias se convierte en una “curva”, llamada curva de densidad que es la
representación gráfica de la función de densidad.
Definición: Dada una v.a. continua, X, se define su función de densidad como una función
f : R → R que verifica las siguientes propiedades:

46
(a) f (x) ≥ 0.

(b) Interpretación de la densidad. Dados dos números a y b, a ≤ b, a, b ∈ R.

área bajo la curva de densidad limitada entre a y b =


= proporción de valores de X comprendidos entre a y b=
Z b
P [a < X ≤ b] = f (x)dx
a
Z +∞
(c) f (x)dx = 1 ya que P [−∞ < X ≤ +∞] = 1.
−∞

(d) Paradoja del continuo. La interpretación de la probabilidad, en una v.a. continua, como el área
limitada por la f.d.d. nos lleva a que la probabilidad de que X tome un valor concreto es cero.
Entonces, para las variables continuas se cumple que P [X = x] = 0, para cualquier x ∈ R. Lo
que implica que

P [a < X ≤ b] = P [a < X < b] = P [a ≤ X ≤ b] = P [a ≤ X < b] = F (b) − F (a)

P [X ≤ a] = P [X < a] = F (a)
P [X > a] = P [X ≥ a] = 1 − F (a)

La función de distribución de una variable aleatoria continua, F , viene dada por:

F : R −→ [0, 1] Z x
x −→ F (x) = P [X ≤ x] = f (t)dt
−∞

6.4. Medidas de tendencia central y dispersión de una variable aleatoria


Por su interés nos vamos a centrar en dos medidas que son la esperanza matemática y la varianza que
desempeñan un papel equivalente al de la media aritmética y la varianza en la Estadı́stica Descriptiva.
Dada una variable aleatoria X, se define:

Esperanza matemática o valor esperado de X, E[X]: es el promedio teórico de X a largo


plazo.

47
Variable discreta Variable continua

X R +∞
E[X] = xi P [X = xi ] E[X] = −∞
xf (x)dx
i∈I

donde {xi , i ∈ I} es el conjunto de


valores que toma la variable X

Propiedades de la esperanza matemática

(a) E[aX + b] = aE[X] + b, siendo a y b números reales y X una variable aleatoria.


(b) E[X + Y ] = E[X] + E[Y ]

Varianza de X, V ar[X] = E[(X − E[X])2 ]. Se demuestra que V ar[X] = E[X 2 ] − (E[X])2

Variable discreta Variable continua

X Z +∞
V ar[X] = (xi − E[X])2 P [X = xi ] = V ar[X] = (x − E[X])2 f (x)dx =
i∈I −∞
X Z +∞
= x2i P [X = xi ] − (E[X])2 = x2 f (x)dx − (E[X])2
i∈I −∞

Propiedades de la varianza

(a) V ar[X] ≥ 0
(b) V ar[aX + b] = a2 V ar[X], donde a y b son números reales y X una variable aleatoria.

Desviación tı́pica de X: es la raı́z cuadrada positiva de la varianza de X.

Ejemplo 1:Considerando la variable X= “número de crı́as machos”, su valor esperado se calcula


como
1 3 3 1
E[X] = 0 × + 1 × + 2 × + 3 × = 1.5
8 8 8 8
Su varianza se calcula como
1 3 3 1
V ar[X] = (0 × + 1 × + 4 × + 9 × ) − 1.52 = 0.75
8 8 8 8

48
6.5. Independencia de variables aleatorias
Dadas dos variables aleatorias X e Y , diremos que son independientes si lo son los sucesos aleatorios
que cada una de ellas describe, es decir, si el resultado de uno no influye en absoluto en el resultado
del otro.
Este concepto puede extenderse a más de dos variables, en general a n variables independientes,
X1 , X2 , ..., Xn .
Propiedad: Si X e Y son variables aleatorias independientes entonces

V ar(X + Y ) = V ar(X − Y ) = V ar(X) + V ar(Y )

6.6. Modelos clásicos de distribuciones de probabilidad


Modelos Discretos

6.6.1. Distribución Bernoulli

Considérese un experimento con dos posibles resultados, E (éxito) y F (fracaso). A un experimento


ası́ se le denomina experimento de Bernoulli. En este caso el espacio muestral es Ω = {E, F }. Sean
P (E) = p ∈ (0, 1) y P (F ) = q = 1 − p. A la v.a. X que se define como:

X(E) = 1, X(F ) = 0,
se le denomina variable aleatoria Bernoulli (o que sigue un modelo de distribución de Bernoulli) con
probabilidad de éxito p y se denota X ∼ Be(p).
La función de probabilidad de esta v.a. es

P (X = 1) = p, P (X = 0) = 1 − p = q.

La media y la varianza de esta distribución son E(X) = p y V ar(X) = pq.

6.6.2. Distribución Binomial

Supongamos que realizamos n experimentos Bernoulli independientes, todos ellos con igual probabi-
lidad de éxito p. La distribución de la v.a. definida como

X= “número de éxitos ocurridos en los n experimentos Bernoulli independientes”,

se denomina distribución Binomial de parámetros n y p y se denota X ∼ B(n, p). La función de


probabilidad de esta v.a. viene dada por
 
n k
P (X = k) = p (1 − p)n−k , k = 0, . . . , n.
k

49
La media y la varianza de esta distribución son E(X) = np y V ar(X) = npq.
Los siguientes fenómenos aleatorios pueden modelarse como distribuciones Binomiales.

Un portador de tuberculosis tiene un 10 % de posibilidades de transmitir la enfermedad a


alguien que no haya estado previamente expuesto a ella y con el que entre en contacto directo.
Durante el transcurso de un dı́a, un portador entra en contacto con diez de tales individuos.
Sea X=”número de individuos que contraen la enfermedad”.

Se está desarrollando una nueva variedad de maı́z. Se espera que tenga una tasa de germinación
del 90 %. Para verificar esto, se plantan 20 semillas en suelos de idéntica composición y se les
dedican los mismos cuidados. Sea X=”número de semillas que germinan en la muestra”.

Se está llevando a cabo un estudio de opinión pública relativo a la conveniencia de construir una
presa para controlar inundaciones. Hay que elegir aleatoriamente y preguntar a 15 residentes del
área. Resulta que un 80 % de la gente que vive en el área se opone a la presa. Sea X=”número
de personas que se oponen en la muestra seleccionada”.

Notas

(a) Se define el factorial de k como k! = k × (k − 1) × · · · × 2 × 1 k = 0, 1, 2, . . .

(b) Se define el número combinatorio nk , n sobre k como nk = n!


 
k!(n−k)!
k = 0, . . . , n

(c) Se cumple:

a) 0! = 1! = 1 n! = n(n − 1)!
b) n0 = nn = 1 n n
   
1
= n−1 =n

6.6.3. Distribución Poisson

Supongamos que se realiza un experimento que consiste en observar la ocurrencia de cierto suceso
a lo largo de un intervalo continuo de tiempo, longitud o espacio. Supongamos que tales sucesos
ocurren de modo independiente y que se conoce el número medio de ocurrencias que tienen lugar en
una unidad de tiempo (longitud o espacio), llamémosle λ. Entonces la v.a. X que da el número de
ocurrencias del suceso en esa unidad de tiempo (longitud o espacio) se distribuye según una ley de
Poisson con parámetro λ, lo que se denota X ∼ P(λ).
Si X ∼ P(λ), entonces su función de probabilidad es de la forma
λk
P (X = k) = e−λ , k = 0, 1, 2, ...
k!
La media y la varianza de esta distribución son E(X) = V ar(X) = λ.
Se ajustan a modelos de Poisson:

50
El número de leucocitos en una gota de sangre.

El número de veces que una planta de energı́a nuclear emite gases radioactivos en un perı́odo
de tres meses.

El número de llamadas de emergencia recibidas cada noche por una brigada de rescate.

A la ley Poisson también se le conoce como ”ley de los sucesos raros”por lo siguiente: si X ∼ B(n, p), n
grande y p es pequeño, entonces podemos aproximar la ley Binomial por una ley Poisson de parámetro
λ = np. En la práctica, la usaremos si n > 30, p < 0.1 y np ≤ 5 o n > 30, q < 0.1 y nq ≤ 5.

Modelos continuos

6.6.4. Distribución Exponencial

Diremos que una v.a. X sigue una distribución Exponencial de parámetro λ > 0, y se denota
X ∼ Exp(λ), si su función de densidad es de la forma
(
λe−λx si x > 0,
f (x) =
0 en caso contrario.

La función de distribución es
(
0 si x < 0,
F (x) = P [X ≤ x] = −λx
1−e si x ≥ 0.

1 1
La media y la varianza son E(X) = y V ar(X) = 2 .
λ λ
Usualmente esta variable representa el tiempo de vida, esto es, el tiempo hasta que ocurre un determi-
nado suceso, cuando no depende del tiempo transcurrido, cuando no hay envejecimiento o deterioro.

6.6.5. Distribución Normal

Un gran número de fenómenos aleatorios continuos como el peso, la altura, etc, se pueden modelar
con la distribución Normal. Diremos que una v.a. X sigue una ley Normal de parámetros µ y σ 2
(µ ∈ R, σ > 0), X ∼ N (µ, σ 2 ), si su función de densidad es
 
1 1 2
f (x) = √ exp − 2 (x − µ) , x ∈ R.
2π σ 2σ
La media y la varianza de esta distribución son

E(X) = µ, V ar(X) = σ 2 .

Siguen un modelo de distribución Normal:

51
La concentración de plomo en partes por millón en la corriente sanguı́nea del individuo.

La cantidad de radiación que puede ser absorbida por un individuo antes de que sobrevenga la
muerte.

El volumen de la cavidad craneal de los primates.

El error que se comete cuando se utiliza un instrumento electrónico para contar partı́culas como
glóbulos blancos.

La densidad de la tierra arcillosa, etc.

Propiedades
(a) Por ser una variable aleatoria continua, el área determinada por la gráfica de la función de
densidad de cualquier variable aleatoria Normal es igual a 1. Y el valor de la función de distri-
bución en un punto, x0 , F (x0 ) = P [X ≤ x0 ] viene dada por el área delimitada por la gráfica
de la función de densidad, a la izquierda del punto x0
X −µ
(b) Sea X ∼ N (µ, σ 2 ), entonces si realizamos una transformación lineal del tipo , la v.a.
σ
resultante
X −µ
Z= ∼ N (0, 1)
σ
A Z se le denomina variable tipificada. A la distribución N (0, 1) se le denomina distribución
normal estándar.
De lo que se deduce que cualquier v.a. Normal sean cuales sean sus parámetros puede trans-
formarse en la N (0, 1) sin mas que tipificarla. Ası́, para calcular probabilidades en cualquier
distribución normal, lo primero que debemos hacer es tipificar la variable, esto es,
 
x−µ
P (X ≤ x) = P Z ≤ = P [Z ≤ z] = Φ (z) ,
σ
x−µ
donde Φ representa la función de distribución de una distribución normal estándar y z = .
σ
(c) La gráfica de la función de densidad de cualquier variable aleatoria Normal, X ∼ N (µ, σ 2 ) es
una curva simétrica respecto a x = µ. Por lo que

P [X ≤ µ − a] = P [X ≥ µ + a] para cualquiera ∈ R

En particular para N (0, 1)

P [Z ≤ −a] = P [Z ≥ a] = 1 − P [Z ≤ a]

52
(d) Los valores de Φ(z) están tabulados pero sólo para z ≥ 0, ya que por la propiedad (c) se verifica
que Φ(−z) = 1 − Φ(z).
2
(e) Si X e Y son variables aleatorias independientes de modo que X ∼ N (µX , σX ) e Y ∼
2
N (µY , σY ), entonces para cualesquiera a, b ∈ R se tiene que
aX + b ∼ N (aµX + b, a2 σX
2
),
2
X +Y ∼ N (µX + µY , σX + σY2 ),
2
X −Y ∼ N (µX − µY , σX + σY2 ).

(f) Si X1 , ..., Xn son v.a. independientes que se distribuyen todas como N (µ, σ 2 ) entonces
σ2
 
X 1 + . . . + Xn
∼ N µ,
n n
(g) Si Si X1 , ..., Xn , n > 30, son v.a. independientes, todas con el mismo modelo de distribución
de probabilidad (cualquiera), con E[X] = µ, V ar(X) = σ 2 , entonces
σ2
 
X 1 + . . . + Xn
∼ N µ,
n n
(h) Percentiles o puntos crı́ticos: sea α ∈ (0, 1), representaremos por Zα el valor x ∈ R tal que
P [Z ≤ Zα ] = α
Ejemplo: Para hallar el percentil 70 de una distribución N (0, 1) buscaremos en la tabla,
observamos que
P [Z ≤ 0.52] = 0.6985
por lo que aproximando deducimos que Z0.7 = 0.52

(i) La importancia de la distribución normal radica en que no sólo es útil para modelar algunos
fenómenos aleatorios frecuentes (peso, altura, etc), sino que también sirve para aproximar la
función de distribución de otras distribuciones, como muestran las siguientes propiedades:

X Si X ∼ B(n, p) con n elevado, entonces podemos aproximar la distribución de X por una


ley Normal de parámetros µ = np y σ 2 = npq, en el siguiente sentido
   
X − np x − np x − np
P (X ≤ x) = P √ ≤ √ 'Φ √ .
npq npq npq
Emplearemos la aproximación normal a la distribución Binomial cuando n sea grande y
no sea adecuado aplicar la aproximación por la distribución de Poisson.
X Si X ∼ P(λ) y λ es elevado, entonces podemos aproximar la distribución de X por una
ley Normal de parámetros µ = λ y σ 2 = λ, en el siguiente sentido
   
X −λ x−λ x−λ
P (X ≤ x) = P √ ≤ √ 'Φ √ .
λ λ λ

53
6.7. Modelos de distribuciones de probabilidad asociados al muestreo
A continuación definiremos tres modelos de distribuciones de probabilidad fundamentales para las
técnicas de inferencia estadı́stica que introduciremos en el siguiente bloque

6.7.1. Distribución chi-cuadrado

Definición 2 Sean X1 , X2 , ..., Xn n v.a. i.i.d. según una ley N (0, 1) y consideremos la v.a.

Y = X12 + X22 + ... + Xn2

A la distribución de la v.a. Y se le denomina distribución chi-cuadrado con n grados de


libertad, lo que se representa como Y ∼ χ2n

• La esperanza y la varianza de esta distribución son:

E[X] = n V ar[X] = 2n

• Percentiles o puntos crı́ticos: sea α ∈ (0, 1), mediante χ2n,α representaremos a aquel x ∈ R tal que

χ2n,α = x / P (χ2n ≤ x) = α.

Ejemplo: Para X ∼ χ220 , hallar el percentil o punto crı́tico de nivel α = 0.95.


Solución: X ∼ χ220,0.95 = 31.410, lo que significa que P [χ220 ≤ 31.410] = 0.95

6.7.2. Distribución t de Student

Definición 3 Sean X e Y dos v.a. independientes de modo que X ∼ N (0, 1) e Y ∼ χ2n . Sea
X
T =p
Y /n
A la distribución de la v.a. T se le denomina distribución t de Student con n grados de
libertad, y se representa T ∼ tn

• La distribución t de Student tiene propiedades parecidas a N (0, 1).

Su esperanza es cero y es simétrica respecto a la misma, entonces

P (T ≤ −x) = 1 − P (T ≤ x)

Para un número alto de grados de libertad se puede aproximar por la Normal, es decir

tn −−−→ N (0, 1)
n→∞

54
• Percentiles o puntos crı́ticos: sea α ∈ (0, 1), mediante tn,α representaremos a aquel x ∈ R tal que si
T ∼ tn , entonces:
tn,α = x / P (T ≤ x) = α.
Por la simetrı́a respecto del origen se verifica que tn,α = −tn,1−α .
Ejemplo: Para X ∼ t20 , hallar el percentil o punto crı́tico de nivel α = 0.9 y de nivel α = 0.1.
Solución: t20,0.9 = 1.325341, lo que significa que P [t20 ≤ 1.325341] = 0.9, y

t20,0.1 = −t20,0.9 = −1.325341

6.7.3. Distribución F de Snedecor

Definición 4 Sean X e Y dos v.a. independientes de modo que X ∼ χ2n e Y ∼ χ2m . Sea

X/n
F =
Y /m

A la distribución de la v.a. F se le denomina distribución F de Snedecor con n y m grados


de libertad, y se representa F ∼ Fn,m .

• Percentiles o puntos crı́ticos: sea α ∈ (0, 1), mediante Fn,m,α representaremos a aquel x ∈ R tal
que si F ∼ Fn,m , entonces:
Fn,m,α = x / P (F ≤ x) = α.
1 1
• Si F ∼ Fm,n entonces ∼ Fn,m . Por tanto, se verifica que Fm,n,α = .
F Fn,m,1−α
Ejemplo: Para X ∼ Fn=8,m=15 , hallar el percentil o punto crı́tico de nivel α = 0.9 y de nivel α = 0.1.
Solución: F8,15,0.9 = 2.11853, lo que significa que P [F8,15 ≤ 2.11853] = 0.9, y

1 1
F8,15,0.1 = = = 0.4058
F15,8,0.9 2.464216

55
ESTADÍSTICA APLICADA A LA BIOLOGÍA

Hoja de Problemas n0 2

12. ¿Cuál es la probabilidad de que una mujer con tres hijos que es portadora de hemofilia clásica
no transmita el gen a ninguno de sus hijos?

13. En una planta de un hospital se tienen los siguientes datos:

Varón Mujer
Niños 15 35
Adolescentes 20 20
Adultos 25 10
Ancianos 45 15

Obtenga las probabilidades de que al seleccionar un paciente al azar éste sea:

(a) Anciano varón.


(b) Adulto o varón.
(c) Niño, sabiendo que es varón.

14. Se diseña un estudio para investigar el peso y el hábito de fumar de los pacientes con hi-
pertensión. El 70 % de los pacientes tiene sobrepeso y un 60 % fuma; además, un 35 % del total
presenta ambas condiciones. Elegido un paciente al azar, calcule las probabilidades de las siguientes
situaciones:

(a) que fume si tiene sobrepeso,


(b) que fume, si no tiene sobrepeso,
(c) no fume, sabiendo que tiene sobrepeso,
(d) que fume o tenga sobrepeso,
(e) que fume o no tenga sobrepeso.
(f) ¿Son los sucesos fumar y tener sobrepeso independientes?

56
15. Un estudio de las corrientes acuáticas que circulan en las proximidades de un complejo industrial
revela que el 35 % tiene una alta DBO (demanda biológica de oxı́geno), el 10 % muestra una acidez
elevada y un 4 % presenta ambas caracterı́sticas ¿Son independientes los sucesos la corriente tiene
una alta DBO y la corriente posee una acidez elevada? ¿Son excluyentes? Calcular la probabilidad
de que la corriente tenga una acidez elevada, dado que presenta una alta DBO.

16. En una determinada muestra de suelo se pueden aislar 3 tipos de bacterias: A, B, C, que se
presentan en las proporciones 0.6; 0.3; 0.1 respectivamente. La probabilidad de que una bacteria de
la clase A reaccione a la prueba del nitrato (transformándolo en nitrito) es 0.15. Para B y C son 0.8
y 0.6 respectivamente. Si se aı́sla una bacteria, halle la probabilidad de que reaccione a la prueba del
nitrato.

17. Se cree que la distribución de los grupos sanguı́neos en los soldados de la Segunda Guerra
Mundial era: tipo A, 41 %; tipo B, 9 %; tipo AB, 4 % ; y tipo O, 46 %. Se estima que en esa época,
el 4 % de las personas pertenecientes al grupo O fue clasificado tipo A; el 88 % de los de tipo A
fue correctamente clasificado; el 4 % de los de tipo B se clasificó como tipo A y el 10 % de los de
tipo AB fue igualmente clasificado tipo A. Un soldado fue herido y conducido a la enfermerı́a. Se le
clasificó como de tipo A, ¿Cuál es la probabilidad de que tal grupo fuese ciertamente el suyo?

18. Un médico aplica un test para detectar una enfermedad cuya incidencia (probabilidad a priori
de padecer la enfermedad) es del 10 %. La sensibilidad (probabilidad de que el test dé positivo al
aplicarlo sobre un enfermo) es del 80 % y la especificidad (probabilidad de que el test dé negativo
sobre una persona sana) es del 75 %.

(a) Calcule la probabilidad de que el test dé positivo al aplicarlo sobre un paciente elegida al azar.

(b) Si el test ha dado positivo ¿cuál es la probabilidad de que esté realmente enfermo?

(c) Calcule la probabilidad de que el test suministre un resultado incorrecto.

19. Estamos interesados en saber cuál de dos análisis A y B es mejor para el diagnóstico de una
determinada enfermedad de la cual sabemos que la presentan un 8 % de individuos de la población. El
porcentaje de resultados falsos positivos del análisis A es del 15 % y el de B es del 22 %. El porcentaje
de falsos negativos del análisis A es del 7 % y el de B es del 3 %.Calcule el ı́ndice predictivo negativo.
¿Cuál es la probabilidad de acertar en el diagnóstico con cada método?

20. En una cierta región se sabe por experiencia que la probabilidad de seleccionar a un manzano
afectado de mildiu es de 0.02. Además la probabilidad de que un experto detecte correctamente a

57
un manzano afectado por la enfermedad en una etapa temprana es 0.78 y la de que se equivoque, es
decir, que diagnostique que tiene la enfermedad un manzano sin mildiu, es de 0.06.

a) ¿Cuál es la probabilidad de que el experto diagnostique en una etapa temprana que un manzano
se encuentra afectado por mildiu?
b) ¿Cuál es la probabilidad de que si diagnostica que un manzano posee mildiu, verdaderamente
tenga la enfermedad?

21. Se ha realizado un estudio sobre la edad de la madre en el momento del nacimiento de su


hijo como factor de riesgo en el desarrollo del sı́ndrome de la muerte súbita (SMS). Se seleccionaron
para el estudio un total de 7330 mujeres que estaban por debajo de los 25 años en el momento del
nacimiento. De ellas, 29 tuvieron niños afectados de SMS. De las 11256 mujeres que tenı́an 25 años
o más, 15 tuvieron niños con SMS. ¿Qué puede concluirse?

22. En un estudio sobre la relación entre el uso regular de tinte para cabello y el desarrollo de
enfermedades en el cuero cabelludo, fueron seleccionadas 577 pacientes con enfermedades y 1245
personas sin ellas. Consultados sobre el uso de tinte resultó que 43 de los primeros y 55 de los
segundo admitieron haber usado regularmente tintes.

(a) Calcule el riesgo relativo e interprételo.

(b) Calcule el cociente entre la probabilidad de haber usado tinte si se tienen problemas capilares
y la probabilidad de haber usado tinte si no se tienen. ¿Qué conclusión se puede obtener?

23. Dada una urna con tres bolas numeradas de 1 a 3, considérese el experimento “extraer dos bolas
con reemplazamiento y apuntar los números que aparecen”. Sea la variable aleatoria X = “suma de
los números obtenidos”. Halle la función de probabilidad de dicha variable. Halle la función de
distribución. Halle esperanza y varianza.

24. Una variable aleatoria discreta viene dada por la función de probabilidad

X 2 4 6 8 10
P[X=x] 0.5 0.1 0.1 0.1 0.2

(a) Halla la función de distribución.

(b) Calcule la esperanza, la varianza y la desviación tı́pica.

(c) Calcule P [2 < X ≤ 7], P [2 ≤ X ≤ 8], P [X ≥ 3], P [X < 6], P [X > 6], P [X ≥ 4|X ≤ 7]

58
25. Después de inyectar determinado fármaco a una rata, la variable aleatoria que mide el tiempo
de vida restante tiene la siguiente función de distribución :

 0
 si x < 0
F (x) = x/4 si 0 ≤ x < 4

1 si 4 ≤ x

Determine las siguientes probabilidades: P [X > 2], P [X ≤ 4.5], P [0 < X ≤ 2.5], P [(0.5 < X ≤
2.5)|X > 2], P [1 ≤ X ≤ 3] y P [1 ≤ X < 3]. Calcule el valor de c que verifica P [X ≤ c] = 0.95.

26. Una variable aleatoria continua, X, tiene como función de densidad:


(
1 si 0 < x < 1
f (x) =
0 en caso contrario

Determine un valor de a tal que la probabilidad de que el valor de X sea mayor que a, sea 0.99.

27. Después de una determinada operación quirúrgica, un equipo médico tiene dos opciones: man-
tener ingresado al paciente en el hospital durante 5 dı́as o durante 8 dı́as. Cuando los pacientes son
dados de alta a los 8 dı́as el coste por paciente es de 600 euros y no regresan al hospital por causa de
la operación. Cuando son dados de alta a los 5 dı́as, 23 de los pacientes no regresan pero el 31 restante
sı́ lo hacen. Cada individuo del primer caso cuesta 300 euros y del segundo 900 euros. En términos
puramente económicos ¿es preferible dar de alta a los enfermos a los 5 o a los 8 dı́as?

28. Un varón y una mujer, cada uno con un gen recesivo y uno dominante para el color de los ojos,
son padres de tres hijos. ¿Cuál es la distribución de probabilidad y la función de probabilidad para
el número de hijos con ojos azules?

29. Al realizar un estudio sobre cierta especie animal se ha observado que el 60 % de los machos
vive más de 9 años, porcentaje que es del 80 % en el caso de las hembras. Se sabe también que en la
población los machos representan el 40 % y las hembras el 60 % del total.

(a) Si se eligen 10 ejemplares de la especie al azar, ¿cuál es la probabilidad de que se obtengan


como máximo 2 machos?
(b) Calcule la probabilidad de que al elegir 5 ejemplares al azar, al menos 1 viva más de 9 años.

30. En una cierta población, se ha observado un número medio anual de muertes por cáncer de
pulmón de 12 individuos. Si el número anual de muertes por cáncer de pulmón sigue una distribución
de Poisson, ¿cuál es la probabilidad de que durante el año en curso:

59
(a) Haya exactamente diez muertes por cáncer de pulmón?

(b) Alguna persona muera de cáncer de pulmón?

(c) Haya 4 muertes o más por cáncer de pulmón?

31. Cierta enfermedad se presenta en 1 de cada 100.000 personas.

(a) Calcule la probabilidad de que en una ciudad de 500.000 habitantes haya más de tres personas
con dicha enfermedad.

(b) Calcule el número esperado de habitantes que la padecen.

32. En una población de primates, el volumen de la capacidad craneal X sigue una distribución
normal de media 1200 cm3 y desviación tı́pica 140 cm3 .

(a) Calcule e interprete la probabilidad de que un miembro de la población seleccionado al azar


tenga una cavidad craneal:

i. inferior a 1410 cm3 .


ii. mayor que 1000 cm3 .
iii. entre 1000 y 1410 cm3 .

(b) Halle el valor de x tal que el 10 % de los primates tengan una cavidad craneal superior a x.

33. Entre los diabéticos, a la glucemia en ayunas puede suponérsele una distribución aproximada-
mente Normal con media 106mg/100ml y desviación tı́pica 8 mg/100ml.

(a) Calcule P [X ≤ 120mg/100ml].

(b) ¿Qué porcentaje de diabéticos tendrá niveles entre 90 y 120 mg/100ml?

(c) Calcule P [X > 95mg/100ml].

34. Sea X la cantidad de radiación que puede ser absorbida por un individuo antes de que le
sobrevenga la muerte. Supongamos que X es Normal con una media de 500 roentgen y una desviación
tı́pica de 150 roentgen. ¿Por encima de qué nivel de dosificación sobrevivirı́a solamente el 5 % de los
expuestos?

60
35. Se ha comprobado que el tiempo de vida de cierto tipo dr aparato que no sufre deterioro con
el tiempo sigue una distribución exponencial con media de 16 años.

(a) ¿Cuál es la probabilidad de que se estropee antes de 20 años?

(b) Si la máquina lleva funcionando correctamente 5 años , ¿cuál es la probabilidad de que se


estropee antes de 25 años?

36. Se sabe que la distribución de la variable aleatoria X = “tiempo en minutos entre dos flores
consecutivas que se abren, en cierta época del año” posee una distribución Exponencial de media 130
minutos.

(a) Determine la probabilidad de que, entre dos flores se abren, pasen más de 140 minutos.
(b) Determine la probabilidad de que pasen entre 80 y 120 minutos entre que se abre una flor y la
siguiente.
(c) Se abre una flor. Determine la probabilidad de que la siguiente tarde menos de 150 en abrirse.

37. En un bosque que conviven dos tipos de escarabajos, A y B; el 60 % de la población es de tipo


A y el resto de tipo B. La longitud, en cm, de la población de escarabajos sigue una distribución
Normal de media 1.5 cm y desviación tı́pica 0.25 cm para el tipo A y media 1.6 cm y desviación
tı́pica 0.2 cm para el tipo B. Si tomamos un escarabajo al azar,

(a) ¿Cuál es la probabilidad de que mida menos de 1.8 cm?


(b) Si mide menos de 1.8 cm, ¿cual es la probabilidad de que pertenezca al tipo B?
(c) Si se ha tomado una muestra de 20 individuos del tipo B, ¿cuál será el número esperado de
escarabajos cuya longitud esté entre 1.5 cm y 1.8 cm?

38. Se dispone de una muestra de 225 individuos a los que se les hace una prueba de nivel de
azúcar en la sangre. Se puede suponer que esta caracterı́stica se ajusta a un modelo de distribución
Normal y que su desviación tı́pica es 10. Los resultados de la prueba nos los dan expresados a partir
de valores de la media muestral.
P [X̄ < 1.6] = 0.3085
Determine la media poblacional del nivel de azúcar en sangre en la población de donde fue escogida
esa muestra.

61
39. Sean X e Y v.a. independientes, que representan, respectivamente, la altura en cm. de hombres
y mujeres de cierta población, de la que se sabe que se distribuyen según leyes normales de igual
desviación tı́pica, 7.29 cm. La media de los hombres es 186.87 cm y la de las mujeres 10 cm. menor.
Se eligen diez parejas al azar. Determine el número esperado de parejas en las que el hombre es más
bajo que la mujer.

40. En la fabricación de un cierto tipo de lámparas, la resistencia eléctrica se distribuye según una
ley normal de media 2000 y desviación tı́pica 200. Dichas lámparas se empaquetan en lotes de 10,
considerándose un lote defectuoso si la resistencia media de las lámparas que contiene el lote no
se encuentra en el intervalo (1900, 2150). ¿Cuál es la probabilidad de que un determinado lote sea
defectuoso?

41. Una máquina realiza automáticamente el envasado de cierto producto. En cada frasco introduce
una cantidad X, que es una v.a. con media 20 y desviación tı́pica 0.5. Sea X̄ la media de los contenidos
de una muestra de tamaño 100. Calcule la probabilidad de que el error absoluto que se comete al
envasar sea inferior a 0.1, es decir, P (|X̄ − 20| ≤ 0.1).

42. En una población muy numerosa de personas, la probabilidad de sufrir algún defecto ocular es
p = 0.4. Se efectúan 900 observaciones y se indica por X el número de individuos que poseen en esta
muestra algún defecto ocular.

(a) Determine la ley de probabilidad de X.


(b) Determine su esperanza matemática y su varianza.
(c) Halle las probabilidades siguientes: P (360 < X ≤ 390), P (X > 370).

43. El número de partı́culas alfa que llegan a un contador Geiger procedente de una sustancia
radioactiva es, por término medio, de 20 unidades en cada unidad de tiempo considerada. Para
prever la protección del personal del laboratorio en que se encuentra el contador, se está interesado
en saber el número máximo de partı́culas que llegarán en un 99 % de los tiempos considerados.

62
BLOQUE TEMÁTICO III:

INFERENCIA ESTADÍSTICA

7. Introducción a la Inferencia Estadı́stica

La Inferencia Estadı́stica es la parte de la Estadı́stica que se encarga de obtener conclusiones sobre


una población, a partir de los datos de una muestra. Para ello emplea técnicas basadas en el cálculo
de probabilidades y también, generalmente, en hipótesis sobre modelos de probabilidad para las
variables aleatorias bajo estudio. Es el conjunto de técnicas estadı́sticas que permiten la formulación
y confirmación de hipótesis realizadas sobre una población desconocida o inaccesible. Además, se
cuantifica el grado de certidumbre con el que se pueden establecer afirmaciones poblacionales basadas
en los datos muestrales. Es decir, permite obtener conclusiones a partir de una información incompleta
acompañando estas conclusiones de una medida de fiabilidad.
Recordemos los conceptos básicos que manejamos

Población: conjunto de objetos o individuos que se desean estudiar.

Muestra: parte de esa población seleccionada para el estudio.

Variable: Es una caracterı́stica de los individuos que puede tomar distintos valores sin una
norma fija (X).

Observación: es cada uno de los valores que toma la variable al medirla sobre los objetos
o individuos que nos sirven como fuente de datos para la realización de nuestra investigación
(x1 , ...xn ). Pueden recibir diferentes nombres: unidades muestrales, casos, unidades experimen-
tales, etc...

Valor: Son los distintos estados en los que se puede encontrar la caracterı́stica objeto de estudio.

De la población, por razones de inaccesibilidad, extraemos una muestra, de forma que del compor-
tamiento estudiado en la muestra pueda generalizarse o inferirse el de la población.
Los aspectos a tener en cuenta al aplicar las técnicas de inferencia estadı́stica pueden resumirse en:

(a) Selección de la muestra (métodos de muestreo).

(b) Estimación de los parámetros del modelo probabilı́stico que describe a la población.

(c) Contraste de hipótesis sobre el comportamiento de la población.

63
Ası́, consideremos una caracterı́stica bajo estudio en una población descrita por una variable aleatoria
X con función de distribución F que será desconocida, bien en parte (por ejemplo, X ∼ P(λ), con
λ desconocida), o bien totalmente (no sabemos nada sobre F ). Supongamos que disponemos de un
conjunto de observaciones o datos experimentales, que denotaremos por x1 , x2 , ..., xn .
Objetivo fundamental de la Inferencia Estadı́stica: A partir de estos datos experimentales pretende-
mos deducir información acerca de la distribución de la variable en la población. Es decir, nuestro
objetivo es la obtención de información acerca de la F.d.D. F .
Lo haremos de diferentes formas:

Estimación puntual: daremos un valor numérico aproximado del valor del parámetro o
parámetros poblacionales desconocidos.

Estimación por intervalos: daremos un intervalo dentro del cuál está el verdadero y desco-
nocido valor del parámetro poblacional buscado, con alta probabilidad, fijada de antemano.

Contrastes de hipótesis: haremos hipótesis (conjeturas) acerca del valor o valores de los
parámetros de una población, en distintas situaciones, o sobre la forma o expresión de su
función de distribución.

Pero todas ellas estarán basadas en la previa selección de una muestra. Las diferencias entre la muestra
y la población deben ser mı́nimas, es decir la muestra debe ser representativa de la población. Pero
la población es desconocida, debemos escoger la muestra ”a ciegas”. Por ello debemos cuidar:

Tamaño de la muestra.

Procedimiento de elección que garantice la objetividad y la representatividad

7.1. Muestra aleatoria simple y Estadı́stico


Para tratar la investigación con datos, hay que considerar primero cómo se obtienen esos datos. La
forma de obtener los datos implica luego a los métodos de análisis e incluso a la validez de nuestro
estudio.
Sea X una variable aleatoria (v.a.) que cuantifica los valores de una caracterı́stica medida sobre una
población. Supongamos que hacemos n pruebas independientes del experimento, obteniendo los da-
tos x1 , x2 , ..., xn . Cada xi se puede considerar como una realización de una v.a. Xi que se distribuye
como X. Ası́ pues, (x1 , x2 , ..., xn ) puede ser considerado como una realización de un vector aleatorio
(X1 , X2 , ..., Xn ), cuyas componentes son variables aleatorias independientes y están igualmente dis-
tribuidas (i.i.d.) como X. A X1 , X2 , ..., Xn se le denomina muestra aleatoria simple, (m.a.s.) de
X. A n se le denomina tamaño de muestra.

64
Definición 1 Sea X1 , X2 , ..., Xn una m.a.s. de una v.a. X y sea T : Rn → R una función. Entonces
a la v.a. dada por T (X1 , X2 , ..., Xn ) se denomina estadı́stico.

Ejemplos:
n
1X
• T (X1 , X2 , ..., Xn ) = Xi = X̄, media muestral.
n i=1
n
1X
• T (X1 , X2 , ..., Xn ) = (Xi − X̄)2 = S 2 , varianza muestral.
n i=1
n
1 X
• T (X1 , X2 , ..., Xn ) = (Xi − X̄)2 = Sc2 , cuasivarianza muestral.
n − 1 i=1
Nótese que cualquier estadı́stico, T (X1 , X2 , ..., Xn ), es una v.a. que tomará diferentes valores de-
pendiendo de la muestra extraı́da, y cada valor tendrá una probabilidad asociada. Luego conviene
recordar que un estadı́stico es una v.a. con una distribución de probabilidad (o modelo probabilı́stico
asociado).

65
8. El problema de la estimación: estimación puntual y estimación por
intervalos

8.1. Estimación Puntual


El concepto de estimador, como herramienta fundamental, lo caracterizamos mediante una serie de
propiedades que nos servirán para elegir el “mejor”para un determinado parámetro de una población.
Supongamos que queremos estudiar una población descrita por una v.a. X, con F.d.D. F y f.d.d. f
(si X es continua) ó función de probabilidad P (si X es discreta). A lo largo del tema supondremos
que la forma funcional de f o de P es conocida, y que desconocemos el valor de un número finito de
parámetros, que denotaremos mediante θ = (θ1 , θ2 , ..., θk ) (por ejemplo, sabemos que X ∼ Exp(λ),
pero desconocemos el valor de θ = λ). Nótese que si θ fuera conocido, entonces conocerı́amos comple-
tamente el comportamiento de la variable en la población. Por tanto, nuestro objetivo será estimar
o aproximar θ “lo mejor posible”.

8.1.1. El concepto de estimador

Se denomina estimador de un parámetro θ a cualquier estadı́stico que tenga por objetivo aproximar
el valor de dicho parámetro.
Sea X1 , X2 , ..., Xn una m.a.s. de la población. Basándonos en la muestra, deseamos estimar o aproxi-
mar el valor desconocido de θ. Para ello, tendremos que buscar una función de la muestra o estadı́stico,
T = T (X1 , X2 , ..., Xn ) que estime el parámetro θ. Al estimador obtenido lo notaremos por θ̂.
Para cada posible realización de la muestra, esto es, para cada posible muestra extraı́da, (x1 , x2 , ..., xn ),
obtendrı́amos un valor de T , T (x1 , x2 , ..., xn ), al que llamaremos estimación del parámetro.
Obsérvese que el estimador no es un valor concreto sino una variable aleatoria (por ser un estadı́stico),
ya que depende de la muestra y la elección de ésta es un proceso aleatorio. Una vez que la muestra ha
sido elegida, se denomina estimación al valor numérico que toma el estadı́stico sobre esa muestra.
Debido a que un estimador es una variable aleatoria podremos conocer, en algunos casos, su función
de distribución y ello nos permitirá determinar sus propiedades.

8.1.2. Propiedades

Como hemos visto, el problema de la estimación puntual consiste en la búsqueda de un estimador


que aproxime o estime al parámetro θ. Obviamente, es deseable obtener una “buena” aproximación
o estimación, en otras palabras, serı́a deseable que la función de la muestra que utilicemos para
estimar el parámetro desconocido verificara una serie de propiedades. A continuación daremos algunas
propiedades que nos van a permitir evaluar la bondad u optimalidad de un estimador.

66
Intuitivamente, las caracterı́sticas que serı́an deseables para esta nueva variable aleatoria, que llama-
mos estimador y que usamos para estimar un parámetro desconocido deben ser:

Consistencia: cuando el tamaño de la muestra crece arbitrariamente, el valor estimado se


aproxima al verdadero y desconocido valor del parámetro.

Insesgadez: el valor medio que se obtiene de la estimación para un número suficientemen-


te grande de muestras diferentes debe ser el valor del parámetro, es decir, la esperanza del
estimador es el parámetro .

Eficiencia: Al estimador, por ser una variable aleatoria, no puede exigı́rsele que para una
muestra cualquiera se obtenga como estimación el valor exacto del parámetro. Sin embargo
podemos pedirle que su dispersión con respecto al valor central (varianza) sea tan pequeña
como sea posible.

Suficiencia: El estimador deberı́a aprovechar toda la información existente en la muestra.

8.1.3. Algunos estimadores de interés

Basándonos en las propiedades anteriormente mencionadas podemos construir el siguiente cuadro


donde se definen los estimadores de los parámetros de las distribuciones de probabilidad presentadas
en el tema 6.

µ
b = X̄
N (µ, σ 2 )
σ̂ 2 = Sc2
Be(p) p̂ = X̄
B(N, p), N conocido p̂ = X̄/N
P(λ) λ̂ = X̄
Exp(λ) λ̂ = 1/X̄

8.2. Estimación Por Intervalos de Confianza.


8.2.1. Concepto e interpretación de un intervalo de confianza

Un estimador nos proporciona un único valor posible para un parámetro poblacional. Sin embargo,
una estimación difı́cilmente es exacta, generalmente hay algún error en la estimación. Serı́a conve-
niente poder dar información de lo confiados que estamos en la estimación. En lugar de dar una
estimación de un parámetro, el siguiente paso lógico deberı́a ser facilitar un rango de valores posibles
del parámetro poblacional, al que se le llama intervalo de confianza. Usar un valor o estimación pun-
tual es como pescar en un lago turbio con un arpón, y con un intervalo de confianza es como pescar
con una red. Podemos tirar un arpón cuando vemos un pez pero probablemente no lo pescaremos.

67
Por otro lado, si lanzamos una red en la zona en la que vimos el pez, tenemos más posibilidades de
capturar el pez. Nuestra estimación puntual es el valor más adecuado para el parámetro poblacional,
por lo que tiene sentido que construyamos el intervalo de confianza en torno al valor de la estimación
puntual. El error estándar, una medida de la incertidumbre asociada con el estimador puntual, nos
da una indicación de cómo de grande deberı́a ser el intervalo de confianza.
Existen una multitud de circunstancias en las que el interés de un estudio no estriba tanto en
obtener una estimación puntual para un parámetro, como determinar un posible ”rango”de valores
o ”intervalo” en los que pueda precisarse, con una determinada probabilidad, que el verdadero valor
del parámetro se encuentra dentro de esos lı́mites.
Las técnicas que abordan este tipo de situaciones, se encuadran dentro de la estadı́stica inferencial
bajo el tı́tulo de estimación confidencial, estimación por intervalos o regiones de confianza.

Definición 2 Sea X una variable aleatoria con función de distribución F que depende de un paráme-
tro θ que desconocemos. Sea X1 , ...Xn una m.a.s procedente de la población descrita por la variable
X. Diremos que IC(θ, 1 − α) es un intervalo aleatorio al nivel de significación α, o equivalen-
temente, intervalo aleatorio al nivel de confianza 1 − α si

P [θ ∈ I(θ, 1 − α)] ≥ 1 − α

o lo que es lo mismo
P [θ ∈
/ I(θ, 1 − α)] < α

Conviene observar que IC(θ, 1 − α) es un conjunto aleatorio que depende de la muestra elegida.
Por tanto para cada muestra obtendremos un intervalo numérico diferente. Una vez seleccionada
una muestra y calculado, con esa muestra, el intervalo aleatorio correspondiente , obtendremos dos
valores numéricos: extremo inferior y extremo superior. Al intervalo determinado por estos extremos
le llamaremos intervalo de confianza
Interpretación de un Intervalo de Confianza: Si elegimos un nivel de confianza, por ejemplo
de α = 95 %, y encontramos los intervalos de confianza al 95 % que se correspondan con todas y
cada una de las muestras que podrı́amos extraer de esa población, lo que sabemos es que
el 95 % de todos esos intervalos encontrados contienen al verdadero valor del parámetro y como
mucho un 5 % no lo contienen. Pero nosotros sólo tenemos uno de esos intervalos.
En la práctica se suele tomar 1 − α = 0.90 , 0.95 , 0.99

8.2.2. Intervalos aleatorios para los parámetros de las principales distribuciones de


probabilidad.

Utilizando el método de la cantidad pivotal (que no desarrollaremos explı́citamente) se construyen


los siguientes intervalos aleatorios para los parámetros de algunas de las distribuciones estudiadas en
el tema 6.

68
(a) INTERVALOS DE CONFIANZA PARA UNA POBLACIÓN NORMAL.
Sea X1 , ...Xn una m.a.s. procedente de una población X ∼ N (µ; σ 2 )

Intervalos de confianza para µ


 
Sc
I.C(µ; 1 − α) = X̄ ∓ tn−1,1− α2 √
n
Intervalo de confianza para σ 2 ,
!
2
 (n − 1)Sc2 (n − 1)Sc2
I.C σ ; 1 − α = ;
χ2n−1,1− α χ2n−1, α
2 2

ESTIMACIÓN DEL TAMAÑO MUESTRAL Debido a la posibilidad de conocer


las distribuciones de probabilidad de los intervalos aleatorios, antes de realizar el estu-
dio podemos estimar el tamaño necesario de la muestra a seleccionar, para un nivel de
significación y un error fijados de antemano.
Ası́ para una precisión buscada, d y un nivel de confianza prefijado 1 − α consiste en elegir
n tal que
2
Z1− α
n≥ 2
Ŝ 2
d2
Donde Ŝ 2 es una primera aproximación de la varianza de la muestra, ya que ésta es
desconocida. Para obtener dicha aproximación nos podemos basar en una cota superior
conocida por nuestra experiencia previa, o simplemente, calcularla a partir de una muestra
piloto.

(b) INTERVALOS DE CONFIANZA PARA UNA POBLACIÓN BERNOULLI.

a) Intervalo de confianza para una proporción: Sean X1 , ...X2 una m.a.s. de una población
Be (p) donde n es grande y p no es cercana a 0.
r !
p̂q̂
I.C(p, 1 − α) = p̂ ∓ Z1− α2
n

donde p̂ = X̄ y q̂ = 1 − p̂.
b) ELECCIÓN DEL TAMAÑO MUESTRAL Si queremos elegir una muestra que satis-
faga nuestros requerimientos con respecto al error (d) y al nivel de significación, tendremos
que considerar un tamaño muestral de
2
1 Z1− α2
n≥
4 d2

69
c) INTERVALOS DE CONFIANZA PARA LA MEDIA (CASO GENERAL CON
TAMAÑO DE MUESTRA ELEVADO). Sea X1 , ...Xn una m.a.s. procedente de una
distribución cualquiera donde n es suficientemente grande
 
Sc
I.C(µ ; 1 − α) = X̄ ∓ Z1− α2 √
n

d ) INTERVALOS DE CONFIANZA PARA DOS POBLACIONES NORMALES.


2
1) X1 , . . . , Xn m.a.s. de N (µX ; σX ) ; Y1 , . . . , Ym m.a.s. de N (µY ; σY2 ) independientes.
Intervalo de confianza para la diferencia de medias,
2
• si σX = σY2 desconocidas:
s !
(n − 1)Sc2X + (m − 1)Sc2Y

1 1
I.C(µX −µY ; 1−α) = (X̄ − Ȳ ) ∓ tn+m−2,1− α2 +
n+m−2 n m

2
• si σX 6= σY2 desconocidas:
r !
Sc2X Sc2
I.C(µX − µY ; 1 − α) = (X̄ − Ȳ ) ∓ tν,1− α2 + Y ,
n m
 S2 Sc2
2
cX
n
+ m
Y

con ν =  2 2  S 2 2 −2.
S cX 1 cY 1
n n−1
+ m m−1

Intervalo de confianza para el cociente de varianzas:


!
2 Sc2X Sc2X
 
σX 1 1
I.C ; 1−α = ;
σY2 2
ScY Fn−1,m−1,1− α2 2
ScY Fn−1,m−1, α2

2) Sean X1 , . . . , Xn e Y1 , . . . , Yn dos m.a.s. relacionadas de las v.a. X e Y , respectivamen-


2
te. Si la variable D = X − Y ∼ N (µD ; σD ), se puede calcular el intervalo de confianza
para µD utilizando la muestra de las diferencias D1 = X1 − Y1 , ..., Dn = Xn − Yn .
e) INTERVALOS DE CONFIANZA PARA DOS POBLACIONES BERNOU-
LLI.
Sean X1 , ...Xn una m.a.s de una Be (pX ) e Y1 , ...Ym una m.a.s de una Be (pY ) independientes
y n y m suficientemente grandes
r !
pˆX qˆX pˆY qˆY
IC(pX − pY , 1 − α) = (pˆX − pˆY ) ∓ Z1− α2 +
n m

70
9. Contrastes de hipótesis estadı́sticas.

9.1. Conceptos básicos


En ocasiones, el investigador está interesado, más que en obtener una estimación de los parámetros
de interés, en determinar si hipótesis realizadas sobre la población son ciertas o no, a partir de una
serie de resultados experimentales. Un problema de este tipo se denomina un problema de contraste
de hipótesis.
Por ejemplo:
Un biólogo puede estar interesado en contrastar, con base en la evidencia experimental, si la
longitud media de cierta especie es mayor o igual que cierta cantidad µ0 .
Si denotamos mediante µ a la media de la variable aleatoria X=“longitud de la especie en
estudio”, entonces la hipótesis a contrastar es

H : µ ≥ µ0

Un biólogo podrı́a tener la necesidad de decidir si, con base en una serie de pruebas, existe
diferencia entre las precisiones de dos clases de medidores.
Si las variables X e Y , medida realizada con el medidor 1 y medida realizada con el medidor 2,
respectivamente, se distribuyen según leyes N (µ, σ12 ) y N (µ, σ22 ), respectivamente, la hipótesis
a contrastar es
H : σ12 = σ22

Una vez definida la hipótesis a contrastar, el siguiente paso es hallar una medida de la discrepancia
entre los datos resultantes de la experimentación y la hipótesis H, de modo que si la discrepancia es
muy grande se rechazarı́a tal hipótesis, y en caso contrario se tomarı́a como válida.
Un problema de contraste de hipótesis implica la existencia de dos teorı́as o hipótesis implı́citas,
que denominaremos hipótesis nula e hipótesis alternativa, que reflejarán la idea a priori que tenemos
y que pretendemos contrastar con la “realidad”. De la misma manera aparecen, implı́citamente,
diferentes tipos de errores que podemos cometer durante el procedimiento. De la probabilidad con
la que estemos dispuestos a asumir estos errores, dependerá, por ejemplo, el tamaño de la muestra
requerida.

Definición 3 Una hipótesis estadı́stica es una afirmación sobre la distribución de una o más
variables aleatorias.

En un contraste de hipótesis, también denominado test de hipótesis o contraste de significación se


decide si cierta hipótesis H0 que denominamos hipótesis nula puede ser rechazada o no a la vista

71
de los datos suministrados por una muestra de la población. Para realizar el contraste es necesario
establecer previamente una hipótesis alternativa, H1 , que será admitida cuando H0 sea rechazada.
Ejemplos:

Supongamos que queremos contrastar si una moneda es perfecta o no. Las hipótesis a contrastar
serı́an:
H0 : p = 1/2
H1 : p 6= 1/2
siendo p = P (cara).

Si X es una variable aleatoria continua, nos planteamos si la distribución es Normal o no.

H0 : X ∼ N ormal

H1 : X  N ormal

Incluso, las hipótesis, no tienen por qué ser exhaustivas. Se estudia si un medicamento es
efectivo. Suponiendo que la variable aleatoria es X: reducción de la temperatura, de la que se
sabe que sigue una distribución N (µ, σ 2 ), las hipótesis planteadas serı́an:

H0 : µ = 0

H1 : µ > 0

Sea X una variable aleatoria simétrica respecto a 0 y dudamos entre si la distribución es normal
o sigue una t de Student. En tal caso, planteamos las hipótesis:

H0 : X ∼ N ormal
H1 : X ∼ t-Student

Los contrastes de hipótesis o de significación se realizan:

(a) se extrae una muestra aleatoria de dicha población.

(b) si el “comportamiento” de la muestra es “diferente” al que cabrı́a esperar bajo la hipótesis


hecha a priori, concluimos que existen evidencias muestrales para suponer que la hipótesis de
partida era errónea.

Si se pretende decidir cuál de las dos hipótesis propuestas es la que más se adapta a las evidencias
que nos dan los datos, necesitamos una regla de decisión o procedimiento para rechazar o aceptar
una hipótesis estadı́stica. A esta regla se le llama test o contraste de hipótesis.

Definición 4 Un test o contraste de hipótesis es una regla para decidir cuándo rechazar H0 .

72
Un contraste de hipótesis se elabora a partir de la muestra. Si la muestra contradice la hipótesis nula,
H0 , rechazaremos tal hipótesis. En caso contrario, diremos que no existen evidencias significativas
para rechazar la hipótesis nula ( “aceptamos H0 ”). Ası́, cuando nosotros tomemos una muestra, nos
llevarı́a a “aceptar H0 ” o rechazar H0 . Por lo tanto, las muestras las podemos dividir en dos grupos:
con las que se rechaza H0 y con las que se “acepta”tal hipótesis.
Siguiendo con el ejemplo de la moneda, supongamos que se desea contrastar si una moneda es perfecta
o no. Para ello la lanzamos 20 veces, de las que 18 de ellas resultan ser cara. El resultado obtenido
hace dudar de la hipótesis H0 de que la moneda es perfecta. Obviamente, bajo H0 , el resultado
obtenido es posible. No obstante, y bajo esta hipótesis, el número esperado de caras es 10, que dista
bastante del resultado obtenido 18. De hecho si H0 es cierta X=“número de caras obtenidas en 20
lanzamientos” ∼ Bi(20, 0.5). Si razonamos: lo poco probable no ocurre entonces

Pp=1/2 (|X − 10| > 8) = 0.004

nos conduce a pensar que la hipótesis de partida era falsa y por tanto, p 6= 1/2.
Por otra parte, si el resultado obtenido hubiera sido de 10 caras, esto podrı́a inducirnos a aceptar
nuestra hipótesis inicial de que la moneda es perfecta; pero no hemos de olvidar que este resultado
también puede ocurrir si p 6= 1/2.
Como consecuencia, podemos afirmar que, aunque el resultado obtenido muestre fuertes evidencias
a favor o en contra de la hipótesis nula, cabe la posibilidad de que la decisión a tomar (rechazar o
aceptar H0 ) sea errónea.
Formalmente, al realizar un test de hipótesis, pueden darse las siguientes circunstancias:

H0 cierta H0 falsa
Decisión
Rechazar H0 Error tipo I
correcta
Decisión
Aceptar H0 Error tipo II
correcta

Definición 5 Se denomina error tipo I al error que se comete al rechazar H0 siendo cierta. Se
denomina error tipo II al error que se comete al aceptar H0 siendo falsa.

Ası́, continuando con el ejemplo de la moneda, si en los 20 lanzamientos se obtienen 18 caras,


sospecharemos que la moneda no es perfecta y por lo tanto p 6= 0.5. Pero, aún siendo p = 0.5, el
hecho anterior puede ocurrir aunque sea poco probable. De este modo se cometerı́a un error de tipo
I si rechazamos la hipótesis nula. De igual forma, si obtuviéramos 10 caras, lo más lógico es pensar
que la moneda es perfecta, pero siendo p 6= 0.5, también puede darse esta situación. En este caso
cometerı́amos un error de tipo II al no rechazar H0 : p = 0.5.

73
Estos errores se deben a que las decisiones se toman a partir de m.a.s., que están constituidas por
variables aleatorias. Tales errores sólo pueden ser cuantificados con probabilidades (medidas de la
posibilidad de que ocurran).
Llamaremos
α = P (error tipo I) = P (rechazar H0 /H0 )
β = P (error tipo II) = P (aceptar H0 /H1 )
Nuestro objetivo, lógicamente, es intentar equivocarnos lo menos posible, es decir, que la probabilidad
de equivocarnos sea lo menor posible
Lo ideal serı́a hallar un test que minimizara la probabilidad de ocurrencia simultánea de ambos
errores. Pero esto no es posible en general, ya que al disminuir uno aumenta el otro. Por ello, lo
que se hace es acotar la probabilidad de ocurrencia de uno de ellos, el de tipo I. A esta cota se le
denomina nivel de significación.

P (Rechazar H0 / H0 cierta) ≤ α

Usualmente α=0.10, 0.05, 0.01. Una vez fijado el nivel de significación, se trata de encontrar una
regla de decisión, es decir, un test que minimice la probabilidad de error tipo II.

9.2. Interpretación de un test de hipótesis


Es una constante en Estadı́stica acompañar toda afirmación con una medida del error que pueda
cometerse al realizarla (nunca estamos libres de este error al realizar inferencias, pues la afirmaciones
se basan en el análisis de una muestra, no de toda la población). Por tanto, y puesto que tal y como
se han diseñado los contrastes de hipótesis, tan sólo estamos controlando el error tipo I, en caso de
no rechazar H0 , no debe interpretarse como que H0 es cierta (ya que en general se desconoce P(error
tipo II)), sino que los datos no aportan suficiente evidencia para dudar de su validez.
Éste es el motivo por el que no se debe decir que se acepta la hipótesis nula: cuando H0 es cierta,
la probabilidad de equivocarnos (al rechazar) es muy pequeña (α) y está acotada, pero cuando H0
es falsa la probabilidad de equivocarnos (al aceptar) es elevada y no la podemos controlar por no
poderla calcular. Ası́, serı́a más correcto decir que no existen evidencias significativas para rechazar
H0 , mejor que decir que aceptamos tal hipótesis. Cuando aceptamos, serı́a porque no hay evidencias
de que se dé lo contrario, no porque tengamos una gran seguridad de ello y de cualquier forma no
podrı́amos dar una medida de la probabilidad de equivocarnos.

Existen dos tipos de problemas de contrates de hipótesis, según el tipo de hipótesis que se planteen:

Contrastes paramétricos: aquéllos en los que las hipótesis versan sobre el valor de los parámetros
desconocidos de la distribución de la v.a. bajo estudio.

74
Contrastes no paramétricos: aquéllos en los que las hipótesis versan sobre otros aspectos de la
distribución de la v.a. bajo estudio.

9.3. Contrastes paramétricos


En los contrastes paramétricos se supone que la variable aleatoria X objeto del contraste sigue una
distribución de probabilidad conocida, si bien se desconoce alguno de los parámetros que la determi-
nan. En estos casos, el contraste de hipótesis esté referido a algún parámetro θ de la distribución cuyo
valor se desconoce. Por ejemplo, si sabemos que X ∼ Be(p), podemos estar interesados en contrastar,
a partir de una muestra X1 , ..., Xn , si el valor de p es superior a un cierto valor de referencia p0 (una
situación como ésta se tendrá al someter a un conjunto de n personas a una prueba para diagnosticar
una enfermedad, a partir de los resultados podrı́amos contrastar si la prevalencia de la enfermedad
es superior al 15 %).
En los contrastes paramétricos podemos distinguir entre unilaterales y bilaterales. Si θ es el parámetro
estudiado, los pares de hipótesis
(
H0 : θ = θ0
(1)
H1 : θ 6= θ0
(
H0 : θ = θ0
(2)
H1 : θ > θ0
(
H0 : θ = θ0
(3)
H1 : θ < θ0
proporcionan contrastes unilaterales (2), (3) y bilaterales (1)

9.4. Relación entre intervalos de confianza y contrastes de hipótesis pa-


ramétricos
Existe una estrecha relación entre los contrastes de hipótesis y los intervalos de confianza. De hecho,
puede demostrarse la siguiente equivalencia:
La hipótesis H0 : θ = θ0 es rechazada a un nivel de significación α si y sólo si θ0
no es un valor del intervalo de confianza construido para θ al nivel 1 − α
Ası́, por ejemplo, si calculamos un intervalo de confianza para la proporción p de manzanas sanas
que tiene un manzano, y obtenemos (0.69,0.99), la hipótesis H0 : p =0.85 no serı́a rechazada, y por
ejemplo, la hipótesis H0 : p =0.65 sı́ serı́a rechazada. Por tanto, la equivalencia anterior puede ser
utilizada como regla de decisión para resolver los problemas de contrastes de hipótesis paramétricos.
Una forma de obtener el contraste de hipótesis para el caso bilateral se basa en los intervalos de
confianza. Suponemos que vamos a utilizar un nivel de significación α. La forma es la siguiente:

75
Se construye un intervalo de confianza con nivel 1 − α para θ.

Se comprueba si θ0 pertenece al intervalo de confianza:

• Si θ0 ∈
/ IC(θ; 1 − α) rechazaremos H0 ya que tenemos evidencias significativas para pensar
que es falso.
• Si θ0 ∈ IC(θ; 1 − α) sólo diremos que no rechazamos H0 . La muestra no proporciona
evidencias significativas para contradecir la hipótesis nula.

9.5. Región crı́tica y Región de aceptación


Como regla general de decisin para realizar un contraste de hiptesis podemos calcular la Región
crı́tica. El procedimiento general consiste en definir un estadı́stico T relacionado con la hipótesis que
deseamos contrastar. A éste lo denominamos estadı́stico del contraste. Como todo estadı́stico es
una v.a. tomará diferentes valores dependiendo de la muestra extraı́da. A continuación suponiendo
que H0 es verdadera, se calcula la distribución de estadı́stico y se determina una región Rc llamada,
región crı́tica, de valores que son poco probables para el estadı́stico y por tanto, si al calcular el
valor del estadı́stico para nuestra muestra obtenemos uno de esos valores, nos llevará pensar que H0
es falsa.

Definición 6 Se denomina región crı́tica al conjunto de valores del estadı́stico que nos llevarán a
rechazar H0 .

Es decir que después de calcular el valor del estadı́stico T sobre la muestra, Texp seguimos el siguiente
criterio:

Si Texp ∈
/ Rc ⇒ no rechazamos H0 (; rechazamos H1 ).

Si Texp ∈ Rc ⇒ rechazamos H0 y aceptamos H1

Al complementario de la región crı́tica se le llama intervalo de aceptación

Ra = R \ Rc

9.6. El concepto de p-valor


Veamos otra forma de obtener conclusiones en un problema de contrastes de hipótesis que en la
práctica es más rápida de interpretar y lo incorporan la mayorı́a de los paquetes estadı́sticos. El
p-valor proporciona el nivel de significación más pequeño que nos hubiera llevado a rechazar la
hipótesis nula con los datos experimentales del problema concreto que se esté estudiando. Si el p-
valor es inferior al nivel de significación prefijado, se rechazará la hipótesis nula planteada. Si es

76
igual o superior no se rechazará la hipótesis nula. También podemos verlo como la probabilidad de
equivocarnos al rechazar la hipótesis nula. Si esta probabilidad es menor que la cota máxima fijada
de antemano (α) rechazamos dicha hipótesis, en caso contrario, no.
En la práctica, tras introducir las observaciones que se obtienen de la muestra y tras indicar el estudio
deseado, los paquetes estadı́sticos proporcionan el p-valor asociado. A partir de éste se realizarán las
interpretaciones correspondientes.
Ejemplo: Suponemos que para resolver el problema del tiempo (segundos) en recorrer 30 metros
por jóvenes entre 14 y 18 años, introducimos en un paquete estadı́stico los tiempos obtenidos por 50
jóvenes. En tal caso, pediremos que el paquete estudie la hipótesis: el tiempo medio en recorrerlos
es 5. Debemos de fijar el nivel de significación a utilizar en el problema, por ejemplo α = 0.05. Si
el p-valor obtenido por el paquete estadı́stico es p = 0.386, al ser p > α = 0.05, no se rechaza la
hipótesis nula, es decir, el tiempo medio no es significativamente diferente de 5. En cambio, si el
p-valor fuera 0.013 < α = 0.05, se rechazarı́a la hipótesis nula, es decir, podrı́amos afirmar que el
tiempo medio es significativamente diferente de 5.

9.7. Contrastes no paramétricos


Los contrastes no paramétricos se caracterizan porque en ellos no se tiene información a priori sobre
la distribución que sigue la variable aleatoria objeto de estudio.
Para realizar estos contraste utilizaremos como regla de decisión el cálculo de la Región Crı́tica o el
p-valor.
Un grupo de interés, dentro de los contrastes no paramétricos, lo constituyen los contrastes sobre
tablas de contingencia (es decir, sobre tablas de frecuencias conjuntas). De éstos estudiaremos en
detalle el contraste χ2 de homogeneidad e independencia.

9.7.1. χ2 para contrastar independencia

Consideremos dos variables X e Y , cualitativas o cuantitativas, con k y p modalidades, respectiva-


mente. Queremos contrastar la hipótesis de que ambas variables son independientes.

H0 : Las variables Xe Y son independientes


H1 : Las variables Xe Y no son independientes

Partimos de una muestra de tamaño N y construimos la tabla de doble entrada (tabla de contingen-
cia):

77
X/Y y1 y2 ... yp
x1 n11 n12 ... n1p n1.
x2 n21 n22 ... n2p n2.
.. .
. ... ... ... ... ..
xk nk1 nk2 ... nkp nk.
n.1 n.2 ... n.p n

Si la hipótesis de independencia es cierta, vimos que debe verificarse


ni. n.j
nij =
n
para todo par de ı́ndices i, j. Por tanto, de ser cierta H0 , la frecuencia esperada del par (xi , yj ) debe
ser igual a
ni. n.j
eij =
n
El estadı́stico del contraste se basará, por tanto, en evaluar las diferencias entre las frecuencias
observadas (en la muestra), nij , y las frecuencias esperadas, eij
k X p
2
X (nij − eij )2
χ =
i=1 j=1
eij

Este estadı́stico sigue aproximadamente una distribución χ2(k−1)(p−1) cuando H0 es cierta. Teniendo
en cuenta que el valor del estadı́stico debe ser pequeño cuando la hipótesis nula es cierta (pues lo
son las diferencias nij − eij ), la regla de decisión resultante es la siguiente:

Rechazar H0 si χ2 ≥ χ2(k−1)(p−1),1−α

Con objeto de garantizar que la aproximación a la distribución χ2 es adecuada, es preciso exigir


que todas las frecuencias esperadas, eij , sean mayores o iguales a 5. Si esto no se cumple, se deben
agrupar clases contiguas hasta que se satisfaga esa condición, o bien aplicar la denominada corrección
de Yates al estadı́stico del contraste:
k X p
X (|nij − eij | − 0.5)2
χ2c =
i=1 j=1
eij

La corrección de Yates conduce a tests más conservadores, es decir, que tienden a no rechazar la
hipótesis nula en un mayor número de casos.
Ejemplo: Se desea contrastar, con nivel de significación del 5 %, si existe algún tipo de relación
entre la hipertensión arterial (HTA) y el estado civil en una determinada población. Para ello se
seleccionó una muestra formada por 619 individuos, obteniéndose los siguientes resultados:

78
Estado civil
Tensión Casado Soltero Viudo/Separado
HTA 76 7 23 106
No HTA 393 83 37 513
469 90 60 619

Las frecuencias esperadas eij obtenidas a partir de la tabla anterior son las siguientes:

Estado civil
Tensión Casado Soltero Viudo/Separado
HTA 80.3134 15.4119 10.2746 106
No HTA 388.6866 74.5880 49.7254 513
469 90 60 619

Calculando con Excel el p-valor=0.0000044<0.05, por lo que el tet es significativo y por tanto se
concluye que existe relación entre la tensión arterial y el estado civil.

9.7.2. χ2 para contrastar homogeneidad

Consideramos r poblaciones en las que se observa una variable (cualitativa o cuantitativa) con s
modalidades o valores, lo que da lugar a s grupos o clases en cada una de las poblaciones. Nuestro
objetivo es contrastar la hipótesis nula

H0 : Las r poblaciones son homogéneas

Dos poblaciones se dicen homogéneas si la proporción de individuos pertenecientes a cada clase es la


misma en todas las poblaciones.
Para ello nos basaremos en r muestras de tamaños respectivos n1 , n2 , ..., nr , lo que nos permitirá cons-
truir la siguiente tabla de contingencia:

Clase
Muestra
C1 C2 ... Cs
P1 n11 n12 ... n1s n1
P2 n21 n22 ... n2s n2
..
. ... ... ... ...
Pr nr1 nr2 ... nrs nr
m1 m2 ... ms n

m
La proporción del total de individuos que pertenece a la clase Cj viene dada por nj . Por tanto, si la
hipótesis nula es cierta, esa misma proporción deberá presentarse en la clase Cj de cualquiera de las

79
poblaciones. Ası́, de ser cierta H0 , el número esperado de individuos en la clase Cj de la muestra Pi
será
mj
eij = ni
n
El estadı́stico del contraste estará basado en la comparación de las frecuencias observadas en cada
clase dentro de cada muestra, nij , con las que cabrı́a esperar de ser cierta la hipótesis nula, eij :
r X s
2
X (nij − eij )2
χ =
i=1 j=1
eij

Cuando la hipótesis nula es cierta, las diferencias nij − eji deben ser pequeñas, por lo que el valor
del estadı́stico también lo será. Teniendo en cuenta que este estadı́stico sigue aproximadamente una
distribución χ2(r−1)(s−1) cuando H0 es cierta, la regla de decisión que se obtiene es la siguiente:

Rechazar H0 si χ2 ≥ χ2(r−1)(s−1),1−α

Ejemplo: Con objeto de comparar el rendimiento de dos marcas de fertilizantes F1 y F2 , se abo-


naron 50 naranjos con el fertilizante F1 y 60 con F2 . Como resultado, unos naranjos aumentaron su
producción, otros la disminuyeron y, por último, en otros no se vio alterada.
F1 F2
Producción + 20 35 55
Producción = 20 15 35
Producción - 10 10 20
50 60 110
Teniendo en cuenta esta información muestral (frecuencias muestrales), ¿podemos concluir que los
dos fertilizantes producen los mismos efectos, con un nivel de significación α=0.1?
La hipótesis nula consiste en suponer que los dos fertilizantes producen efectos homogéneos o, lo que
es lo mismo, que ambas muestras proceden del mismo modelo de distribución de probabilidad.
Si la hipótesis nula fuera cierta esa muestra tendrı́a que comportarse de la siguiente forma (frecuencias
esperadas)

F1 F2
Producción + 25 30 55
Producción = 15.9091 19.0909 35
Producción - 9.0909 10.9091 20
50 60 110
Para este ejemplo, el p-valor resulta ser igual a 0.14 >0.1, por tanto el test no es significativo y no
podemos afirmar que los fertilizantes produzcan efectos diferentes.
Al igual que en el contraste de independencia, se debe verificar eij ≥ 5 en todos los pares de ı́ndices
i, j. En caso contrario, se deben agrupar modalidades contiguas o bien aplicar la corrección de Yates.

80
9.8. Contrastes No Paramétrico de Bondad de Ajuste
De entre los diferentes tipos de contrastes no paramétricos, podemos destacar los denominados con-
trastes de bondad de ajuste, que permiten determinar si los datos experimentales proceden de una
determinada distribución de probabilidad. De entre éstos citaremos como ejemplo, por su relevancia,
los tests de Shapiro- Wilk y D’Agostino, que permiten contrastar si los datos experimentales proce-
den de una distribución Normal. También dentro de este grupo se encuentra el test de Kolmogorov-
Smirnov, que permite comprobar si los datos experimentales proceden de una variable continua dada,
o el test χ2 de bondad de ajuste, con idéntica finalidad que el anterior para el caso de una variable
discreta o cualitativa.

81
ESTADÍSTICA APLICADA A LA BIOLOGÍA

Hoja de Problemas n0 3

44. El número de plantas por metro cuadrado que pueden encontrarse en un parque natural es una
variable aleatoria que se distribuye según una Poisson de parámetro λ desconocido. Se muestrearon
al azar 10 zonas de 1 m2 . El número de plantas obtenidas en cada zona fue:

ZONA 1 2 3 4 5 6 7 8 9 10

N DE PLANTAS 7 6 4 10 12 15 3 8 4 4

Estime el parámetro λ.

45. El tiempo de vida de una artemia en un cultivo de laboratorio se distribuye según una expo-
nencial de parámetro λ. Para estimar λ se observaron 8 artemias obteniéndose los siguientes tiempos
de vida en dı́as:
13, 9, 7, 18, 15, 14, 10, 12
Estime λ.

46. (Excel) A continuación se dan los resultados de un estudio realizado con 30 universitarios sobre
el tiempo de reacción ante un estı́mulo auditivo:

0.11 0.11 0.12 0.17 0.13 0.15 0.10 0.12 0.19 0.19
0.18 0.11 0.10 0.16 0.14 0.15 0.16 0.18 0.20 0.17
0.12 0.16 0.13 0.17 0.18 0.19 0.20 0.12 0.14 0.18

Suponinendo que la caracterı́stica en estudio sigue una distribución normal:

(a) ¿En cuánto se estima el tiempo esperado de reacción en un individuo cualquiera?

(b) ¿Cuál es la probabilidad de que, elegido un individuo al azar, tarde más de 0.135 en reaccionar?

(c) Si está establecido que valores por encima de 0.175 indican algún tipo de anomalı́a, ¿qué pro-
porción de universitarios presentan alguna incidencia?

47. En una muestra aleatoria de 26 botellas de suero se ha observado que el contenido medio es de
71.2 centilitros y la varianza es 13.4. Se supone normalidad de la caracterı́stica en estudio.

(a) Calcule un intervalo de confianza al 95 % para el contenido medio de las botellas.

82
(b) Manteniendo el nivel de confianza del 95 %, ¿cuántas observaciones habrı́a que tomar para
estimar dicho contenido medio con un error máximo de 1 centilitro?

48. El peso por comprimido de cierto preparado farmacéutico sigue una distribución normal. De
la producción diaria extraemos una muestra aleatoria de seis artı́culos para estudiar la varianza de
esta caracterı́stica. Estime la varianza mediante un intervalo de confianza al 90 % sabiendo que la
varianza muestral obtenida es de 40.

49. En cierta región se observó que en una muestra aleatoria de 125 individuos, 12 padecı́an afec-
ciones pulmonares.

(a) Estime por intervalos de confianza la proporción de individuos en dicha región con afecciones
pulmonares (nivel de confianza del 90 %)

(b) Para un nivel de confianza del 95 %, ¿qué tamaño de muestra debemos tomar para estimar
dicha proporción con un error máximo de 0.10?

50. En un estudio realizado sobre la efectividad del servicio de emergencias que atiende las inci-
dencias de un parque natural, se ha querido estudiar el número de llamadas telefónicas no atendidas
antes de conseguir hablar con dicho servicio. Para ello se ha llamado a dicho teléfono durante 50
dı́as anotando el número de llamadas fallidas antes de ser atendidos. Los datos muestrales nos dan
una media de 8.8 llamadas fallidas con una varianza de 16. A partir de estos datos se desea estimar
mediante un intervalo de confianza, el número medio de llamadas fallidas antes de ser atendidos a
un nivel de confianza del 98 %.

51. La experiencia ha sugerido que una dosis fija de cierta droga produce un aumento medio de
pulsaciones de 9 latidos por minuto, en ratas. En un grupo de nueve ratas que recibieron la misma
dosis se encontraron los siguientes aumentos:

13, 15, 14, 10, 8, 12, 16, 9, 20

¿Puede considerarse que la ingesta de esta droga aumenta las pulsaciones en 9 latidos de media?
Tome un nivel de significación del 5 % y suponga normalidad.

52. A continuación se muestra la presión sanguı́nea sistólica medida en un conjunto de 11 individuos


antes (variable X) y después (variable Y ) de la administración de un hipotensor beta-bloqueante.

X: 164 144 175 196 194 205 126 165 192 148 156
Y : 144 136 152 157 147 145 142 141 109 146 148

83
Suponiendo condiciones de normalidad,

(a) Estime con un nivel de confianza del 95 % la diferencia de las presiones sitólicas medias medidas
antes y después de la administración del medicamento.

(b) ¿Puede considerarse a un nivel de significación del 0.05 que el fármaco es efectivo para el
tratamiento de la hipertensión? ¿Y que produce una disminución de 10 puntos en la presión
sanguinea?

53. Una central de productos lácteos recibe diariamente la leche de dos granjas A y B. Deseando
estudiar la calidad de los productos recibidos se extraen dos muestras al azar y se analiza el contenido
en materia grasa, obteniéndose los siguientes resultados en tantos por cientos:
granja A x̄A =8.7 % s2cA =1.05 % nA = 31
granja B x̄B =10.9 % s2cB =1.80 % nB = 25
¿Puede considerarse a un nivel de significación del 0.1 que el contenido medio en materia grasa de
la leche es igual en las dos granjas? Nota: Podemos suponer condiciones de normalidad.

54. Se quiere probar la efectividad de un antitérmico (reductor de la fiebre) en caballos. Con tal
fin se tomó la temperatura a 10 caballos afectados de una cierta enfermedad, antes y después de
la administración del antitérmico resultando una diferencia de medias de d¯ = x̄ − ȳ=1.58 y una
cuasidesviación tı́pica de la diferencia Scd =1.71. Suponiendo condiciones de normalidad, estudia si
el antitérmico es efectivo, a un nivel de confianza del 90 %. ¿La conclusión serı́a la misma a un nivel
de confianza del 99 %?

55. La resistencia en Kg/cm2 de cierto material se distribuye normalmente. Se desea comparar la


resistencia de los materiales suministrados por dos proveedores para lo que se toman las siguientes
muestras:
Proveedor 1: 10 30 32 23 23 24 20 18 19 45
Proveedor 2: 32 39 35 30 37 28 34 33 25 30 37 33
¿Puede considerarse que la diferencia entre las resistencias medias es de 20 puntos? (Fijar un nivel
de significación α =0.1).

56. En una fábrica de piensos, se desea mejorar la conservación de los mismos, haciendo un cam-
bio en su proceso de empaquetamiento. Se toman muestras del procedimiento de empaquetamiento
existente y del nuevo para determinar si éste tiene como resultado alguna mejorı́a. Si se obtiene que
75 de 1500 sacos deteriorados con el procedimiento actual y 80 de 2000 sacos deteriorados con el
procedimiento nuevo, estudie si el nuevo proceso de fabricación es mejor que el antiguo. Considere
un nivel de significación del 10 %.

84
57. Una empresa que vende alpiste para canarios realizó un experimento para averiguar la prefe-
rencia por su producto (A) o el de la competencia (B). Se proporcionó alpiste a 180 hembras y 134
machos. 64 hembras y 30 machos mostraron su preferencia por el producto A. ¿Se puede concluir,
con un nivel de significación del 5 %, que hay una preferencia en cuanto al sexo por el producto A?

58. Se pretende determinar si la edad de los chimpancés puede explicar su preferencia por dis-
tintos tipos de alimentos (A, B o C) con diferente contenido en hidratos de carbono. Para ello se
seleccionaron 200 chimpancés, obteniéndose:

Edad A B C
0-15 11 39 13
15-30 37 31 25
30-50 7 18 19

¿Puede afirmarse que la edad influye en la selección del tipo de alimento? Tomar α = 0.05.

59. En un ensayo clı́nico se han probado cinco medicamentos diferentes sobre un grupo de pa-
cientes afectados de una cierta enfermedad, observándose si éstos presentaban mejorı́a al realizar el
tratamiento:

Medicamento A B C D E
Número de pacientes 51 54 48 49 48
Pacientes con mejorı́a 12 8 10 15 5

¿Puede considerarse, a un nivel de significación α = 0.05, que los cinco tratamientos son igualmente
efectivos?

60. Ocho grupos de 30 ranas, cada uno de distintas procedencias, fueron inyectadas con estrofantina
G, anotándose las siguientes cantidades de ranas fallecidas en cada grupo: 15, 12, 12, 18, 14, 22, 17,
13. ¿Puede suponerse al 5 % de significación que las ranas de los diferentes grupos fallecen con la
misma probabilidad?

61. En una explotación agrı́cola experimental se desea comparar el rendimiento de dos fertilizantes
A y B, para los cual se divide el terreno en 60 parcelas, aplicándose cada fertilizante en la mitad
de ellas. De las 22 parcelas que tienen un rendimiento de más de 15 Tm/Ha, 9 corresponden al
fertilizante A; de las 31 con rendimiento entre 5 a 15 Tm/Ha, 14 corresponden al fertilizante A y,
por último, las 7 parcelas con rendimiento inferior a 5 Tm/Ha han sido tratadas con el fertilizante
A. ¿Son igualmente efectivos ambos fertilizantes a un nivel de significación de 0.05?

85
ANEXO: TABLAS ESTADÍSTICAS

86
Función de distribución Normal Estándar, N(0,1)

N(0,1)

P(Z ≤ z)

z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.0 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359
0.1 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753
0.2 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.6141
0.3 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.6517
0.4 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.6879
0.5 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.7224
0.6 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.7549
0.7 0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 0.7852
0.8 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.8133
0.9 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 0.8389
1.0 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.8621
1.1 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 0.8830
1.2 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997 0.9015
1.3 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.9177
1.4 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319
1.5 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.9441
1.6 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545
1.7 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633
1.8 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706
1.9 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767
2.0 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.9817
2.1 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.9857
2.2 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.9890
2.3 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.9916
2.4 0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.9936
2.5 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.9952
2.6 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 0.9964
2.7 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.9974
2.8 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.9981
2.9 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.9986
3.0 0.9987 0.9987 0.9987 0.9988 0.9988 0.9989 0.9989 0.9989 0.9990 0.9990
3.1 0.9990 0.9991 0.9991 0.9991 0.9992 0.9992 0.9992 0.9992 0.9993 0.9993
3.2 0.9993 0.9993 0.9994 0.9994 0.9994 0.9994 0.9994 0.9995 0.9995 0.9995
3.3 0.9995 0.9995 0.9995 0.9996 0.9996 0.9996 0.9996 0.9996 0.9996 0.9997
3.4 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9998
3.5 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998
3.6 0.9998 0.9998 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999
3.7 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999
3.8 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999
3.9 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000
4.0 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000

Tabla A
2
Puntos críticos de la distribución Chi−cuadrado, 𝜒𝑛,𝛼

n/α 0.005 0.01 0.025 0.05 0.1


1 0.000039 0.000157 0.000982 0.003932 0.015791
2 0.010025 0.020101 0.050636 0.102587 0.210721
3 0.071722 0.114832 0.215795 0.351846 0.584374
4 0.206989 0.297109 0.484419 0.710723 1.063623
5 0.411742 0.554298 0.831212 1.145476 1.610308
6 0.675727 0.872090 1.237344 1.635383 2.204131
7 0.989256 1.239042 1.689869 2.167350 2.833107
8 1.344413 1.646497 2.179731 2.732637 3.489539
9 1.734933 2.087901 2.700389 3.325113 4.168159
10 2.155856 2.558212 3.246973 3.940299 4.865182
11 2.603222 3.053484 3.815748 4.574813 5.577785
12 3.073824 3.570569 4.403789 5.226029 6.303796
13 3.565035 4.106915 5.008751 5.891864 7.041505
14 4.074675 4.660425 5.628726 6.570631 7.789534
15 4.600916 5.229349 6.262138 7.260944 8.546756
16 5.142205 5.812212 6.907664 7.961646 9.312236
17 5.697217 6.407760 7.564186 8.671760 10.085186
18 6.264805 7.014911 8.230746 9.390455 10.864936
19 6.843971 7.632730 8.906516 10.117013 11.650910
20 7.433844 8.260398 9.590777 10.850811 12.442609
21 8.033653 8.897198 10.282898 11.591305 13.239598
22 8.642716 9.542492 10.982321 12.338015 14.041493
23 9.260425 10.195716 11.688552 13.090514 14.847956
24 9.886234 10.856361 12.401150 13.848425 15.658684
25 10.519652 11.523975 13.119720 14.611408 16.473408
26 11.160237 12.198147 13.843905 15.379157 17.291885
27 11.807587 12.878504 14.573383 16.151396 18.113896
28 12.461336 13.564710 15.307861 16.927875 18.939242
29 13.121149 14.256455 16.047072 17.708366 19.767744
30 13.786720 14.953457 16.790772 18.492661 20.599235
40 20.706535 22.164261 24.433039 26.509303 29.050523
50 27.990749 29.706683 32.357364 34.764252 37.688648
60 35.534491 37.484852 40.481748 43.187958 46.458888
70 43.275180 45.441717 48.757565 51.739278 55.328940
90 59.196304 61.754079 65.646618 69.126030 73.291090
100 67.327563 70.064895 74.221927 77.929465 82.358136

Tabla B
2
Puntos críticos de la distribución Chi−cuadrado, 𝜒𝑛,𝛼
n/α 0.9 0.95 0.975 0.99 0.995
1 2.705543 3.841459 5.023886 6.634897 7.879439
2 4.605170 5.991465 7.377759 9.210340 10.596635
3 6.251389 7.814728 9.348404 11.344867 12.838156
4 7.779440 9.487729 11.143287 13.276704 14.860259
5 9.236357 11.070498 12.832502 15.086272 16.749602
6 10.644641 12.591587 14.449375 16.811894 18.547584
7 12.017037 14.067140 16.012764 18.475307 20.277740
8 13.361566 15.507313 17.534546 20.090235 21.954955
9 14.683657 16.918978 19.022768 21.665994 23.589351
10 15.987179 18.307038 20.483177 23.209251 25.188180
11 17.275009 19.675138 21.920049 24.724970 26.756849
12 18.549348 21.026070 23.336664 26.216967 28.299519
13 19.811929 22.362032 24.735605 27.688250 29.819471
14 21.064144 23.684791 26.118948 29.141238 31.319350
15 22.307130 24.995790 27.488393 30.577914 32.801321
16 23.541829 26.296228 28.845351 31.999927 34.267187
17 24.769035 27.587112 30.191009 33.408664 35.718466
18 25.989423 28.869299 31.526378 34.805306 37.156451
19 27.203571 30.143527 32.852327 36.190869 38.582257
20 28.411981 31.410433 34.169607 37.566235 39.996846
21 29.615089 32.670573 35.478876 38.932173 41.401065
22 30.813282 33.924438 36.780712 40.289360 42.795655
23 32.006900 35.172462 38.075627 41.638398 44.181275
24 33.196244 36.415029 39.364077 42.979820 45.558512
25 34.381587 37.652484 40.646469 44.314105 46.927890
26 35.563171 38.885139 41.923170 45.641683 48.289882
27 36.741217 40.113272 43.194511 46.962942 49.644915
28 37.915923 41.337138 44.460792 48.278236 50.993376
29 39.087470 42.556968 45.722286 49.587884 52.335618
30 40.256024 43.772972 46.979242 50.892181 53.671962
40 51.805057 55.758479 59.341707 63.690740 66.765962
50 63.167121 67.504807 71.420195 76.153891 79.489978
60 74.397006 79.081944 83.297675 88.379419 91.951698
70 85.527043 90.531225 95.023184 100.425184 104.214899
90 107.565009 113.145270 118.135893 124.116319 128.298944
100 118.498004 124.342113 129.561197 135.806723 140.169489

Tabla C
Puntos críticos de la distribución t−Student, 𝑡𝑛,𝛼

n/α 0.9 0.95 0.975 0.99 0.995


1 3.077684 6.313752 12.706205 31.820516 63.656741
2 1.885618 2.919986 4.302653 6.964557 9.924843
3 1.637744 2.353363 3.182446 4.540703 5.840909
4 1.533206 2.131847 2.776445 3.746947 4.604095
5 1.475884 2.015048 2.570582 3.364930 4.032143
6 1.439756 1.943180 2.446912 3.142668 3.707428
7 1.414924 1.894579 2.364624 2.997952 3.499483
8 1.396815 1.859548 2.306004 2.896459 3.355387
9 1.383029 1.833113 2.262157 2.821438 3.249836
10 1.372184 1.812461 2.228139 2.763769 3.169273
11 1.363430 1.795885 2.200985 2.718079 3.105807
12 1.356217 1.782288 2.178813 2.680998 3.054540
13 1.350171 1.770933 2.160369 2.650309 3.012276
14 1.345030 1.761310 2.144787 2.624494 2.976843
15 1.340606 1.753050 2.131450 2.602480 2.946713
16 1.336757 1.745884 2.119905 2.583487 2.920782
17 1.333379 1.739607 2.109816 2.566934 2.898231
18 1.330391 1.734064 2.100922 2.552380 2.878440
19 1.327728 1.729133 2.093024 2.539483 2.860935
20 1.325341 1.724718 2.085963 2.527977 2.845340
21 1.323188 1.720743 2.079614 2.517648 2.831360
22 1.321237 1.717144 2.073873 2.508325 2.818756
23 1.319460 1.713872 2.068658 2.499867 2.807336
24 1.317836 1.710882 2.063899 2.492159 2.796940
25 1.316345 1.708141 2.059539 2.485107 2.787436
26 1.314972 1.705618 2.055529 2.478630 2.778715
27 1.313703 1.703288 2.051831 2.472660 2.770683
28 1.312527 1.701131 2.048407 2.467140 2.763262
29 1.311434 1.699127 2.045230 2.462021 2.756386
30 1.310415 1.697261 2.042272 2.457262 2.749996
40 1.303077 1.683851 2.021075 2.423257 2.704459
50 1.298714 1.675905 2.008559 2.403272 2.677793
60 1.295821 1.670649 2.000298 2.390119 2.660283
70 1.293763 1.666914 1.994437 2.380807 2.647905
90 1.291029 1.661961 1.986675 2.368497 2.631565
100 1.290075 1.660234 1.983972 2.364217 2.625891
1000 1.282399 1.646379 1.962339 2.330083 2.580755

Tabla D
Puntos críticos de la distribución F−Snedecor, 𝐹𝑛𝑢𝑚,𝑑𝑒𝑛,𝛼 , con 𝛼 = 0.9

den/num 1 2 3 4 5 6 7 8 9
1 39.863458 49.500000 53.593245 55.832961 57.240077 58.204416 58.905953 59.438981 59.857585
2 8.526316 9.000000 9.161790 9.243416 9.292626 9.325530 9.349081 9.366770 9.380544
3 5.538319 5.462383 5.390773 5.342644 5.309157 5.284732 5.266195 5.251671 5.239996
4 4.544771 4.324555 4.190860 4.107250 4.050579 4.009749 3.978966 3.954940 3.935671
5 4.060420 3.779716 3.619477 3.520196 3.452982 3.404507 3.367899 3.339276 3.316281
6 3.775950 3.463304 3.288762 3.180763 3.107512 3.054551 3.014457 2.983036 2.957741
7 3.589428 3.257442 3.074072 2.960534 2.883344 2.827392 2.784930 2.751580 2.724678
8 3.457919 3.113118 2.923796 2.806426 2.726447 2.668335 2.624135 2.589349 2.561238
9 3.360303 3.006452 2.812863 2.692680 2.610613 2.550855 2.505313 2.469406 2.440340
10 3.285015 2.924466 2.727673 2.605336 2.521641 2.460582 2.413965 2.377150 2.347306
11 3.225202 2.859511 2.660229 2.536188 2.451184 2.389067 2.341566 2.303997 2.273502
12 3.176549 2.806796 2.605525 2.480102 2.394022 2.331024 2.282780 2.244575 2.213525
13 3.136205 2.763167 2.560273 2.433705 2.346724 2.282979 2.234103 2.195350 2.163820
14 3.102213 2.726468 2.522224 2.394692 2.306943 2.242559 2.193134 2.153904 2.121955
15 3.073186 2.695173 2.489788 2.361433 2.273022 2.208082 2.158178 2.118530 2.086209
16 3.048110 2.668171 2.461811 2.332745 2.243758 2.178329 2.128003 2.087982 2.055331
17 3.026232 2.644638 2.437434 2.307747 2.218253 2.152392 2.101689 2.061336 2.028388
18 3.006977 2.623947 2.416005 2.285772 2.195827 2.129581 2.078541 2.037889 2.004674
19 2.989900 2.605612 2.397022 2.266303 2.175956 2.109364 2.058020 2.017098 1.983639
20 2.974653 2.589254 2.380087 2.248934 2.158227 2.091322 2.039703 1.998534 1.964853
21 2.960956 2.574569 2.364888 2.233345 2.142311 2.075123 2.023252 1.981858 1.947974
22 2.948585 2.561314 2.351170 2.219274 2.127944 2.060497 2.008397 1.966796 1.932725
23 2.937356 2.549290 2.338727 2.206512 2.114911 2.047227 1.994915 1.953124 1.918880
24 2.927117 2.538332 2.327390 2.194882 2.103033 2.035132 1.982625 1.940658 1.906255
25 2.917745 2.528305 2.317017 2.184242 2.092165 2.024062 1.971376 1.929246 1.894693
26 2.909132 2.519096 2.307491 2.174469 2.082182 2.013893 1.961039 1.918758 1.884067
27 2.901192 2.510609 2.298712 2.165463 2.072981 2.004519 1.951510 1.909087 1.874267
28 2.893846 2.502761 2.290595 2.157136 2.064473 1.995851 1.942696 1.900141 1.865199
29 2.887033 2.495483 2.283069 2.149415 2.056583 1.987811 1.934521 1.891842 1.856786
30 2.880695 2.488716 2.276071 2.142235 2.049246 1.980333 1.926916 1.884121 1.848958
40 2.835354 2.440369 2.226092 2.090950 1.996820 1.926879 1.872522 1.828863 1.792902
50 2.808658 2.411955 2.196730 2.060816 1.965999 1.895431 1.840496 1.796300 1.759836
60 2.791068 2.393255 2.177411 2.040986 1.945710 1.874720 1.819393 1.774829 1.738020
70 2.778604 2.380015 2.163735 2.026947 1.931343 1.860049 1.804438 1.759607 1.722546
90 2.762115 2.362513 2.145660 2.008390 1.912348 1.840645 1.784650 1.739457 1.702053
100 2.756378 2.356427 2.139376 2.001938 1.905742 1.833896 1.777765 1.732443 1.694917
0.9
Tabla E
Puntos críticos de la distribución F−Snedecor, 𝐹𝑛𝑢𝑚,𝑑𝑒𝑛,𝛼 , con 𝛼 = 0.9

den/num 10 12 15 24 30 40 60 80 100
1 60.194980 60.705212 61.220343 62.002046 62.264970 62.529052 62.794279 62.927318 63.007277
2 9.391573 9.408132 9.424711 9.449616 9.457927 9.466244 9.474565 9.478727 9.481225
3 5.230411 5.215618 5.200313 5.176365 5.168111 5.159719 5.151187 5.146868 5.144259
4 3.919876 3.895527 3.870360 3.830994 3.817422 3.803615 3.789568 3.782452 3.778153
5 3.297402 3.268239 3.238011 3.190523 3.174084 3.157324 3.140230 3.131555 3.126308
6 2.936935 2.904721 2.871222 2.818345 2.799960 2.781169 2.761952 2.752178 2.746259
7 2.702510 2.668111 2.632230 2.575327 2.555457 2.535096 2.514218 2.503575 2.497122
8 2.538037 2.501958 2.464216 2.404097 2.383016 2.361362 2.339097 2.327723 2.320818
9 2.416316 2.378885 2.339624 2.276827 2.254720 2.231958 2.208493 2.196480 2.189178
10 2.322604 2.284051 2.243515 2.178426 2.155426 2.131691 2.107161 2.094576 2.086917
11 2.248230 2.208725 2.167094 2.100005 2.076214 2.051610 2.026118 2.013013 2.005028
12 2.187764 2.147437 2.104851 2.035993 2.011492 1.986102 1.959732 1.946148 1.937862
13 2.137635 2.096588 2.053160 1.982718 1.957575 1.931466 1.904287 1.890259 1.881692
14 2.095396 2.053714 2.009535 1.937663 1.911933 1.885163 1.857234 1.842791 1.833960
15 2.059319 2.017070 1.972216 1.899044 1.872774 1.845393 1.816764 1.801931 1.792852
16 2.028145 1.985386 1.939921 1.865561 1.838792 1.810841 1.781557 1.766356 1.757042
17 2.000936 1.957716 1.911695 1.836242 1.809010 1.780528 1.750627 1.735078 1.725540
18 1.976980 1.933340 1.886811 1.810348 1.782685 1.753706 1.723222 1.707343 1.697592
19 1.955725 1.911702 1.864705 1.787307 1.759241 1.729793 1.698758 1.682565 1.672611
20 1.936738 1.892363 1.844935 1.766667 1.738223 1.708334 1.676776 1.660283 1.650134
21 1.919674 1.874975 1.827148 1.748068 1.719268 1.688962 1.656907 1.640127 1.629791
22 1.904255 1.859255 1.811057 1.731217 1.702083 1.671382 1.638853 1.621798 1.611283
23 1.890252 1.844974 1.796431 1.715878 1.686428 1.655352 1.622371 1.605053 1.594365
24 1.877480 1.831942 1.783076 1.701854 1.672104 1.640673 1.607260 1.589688 1.578834
25 1.865782 1.820003 1.770834 1.688981 1.658947 1.627177 1.593350 1.575536 1.564521
26 1.855028 1.809023 1.759571 1.677122 1.646819 1.614725 1.580502 1.562453 1.551283
27 1.845109 1.798891 1.749173 1.666160 1.635601 1.603198 1.568595 1.550320 1.539000
28 1.835930 1.789513 1.739543 1.655997 1.625193 1.592496 1.557527 1.539034 1.527569
29 1.827412 1.780807 1.730600 1.646547 1.615511 1.582531 1.547210 1.528506 1.516901
30 1.819485 1.772704 1.722272 1.637737 1.606479 1.573228 1.537569 1.518662 1.506920
40 1.762686 1.714563 1.662411 1.574111 1.541076 1.505625 1.467157 1.446524 1.433612
50 1.729150 1.680167 1.626896 1.536066 1.501797 1.464779 1.424238 1.402290 1.388465
60 1.707009 1.657429 1.603368 1.510718 1.475539 1.437342 1.395201 1.372207 1.357645
70 1.691297 1.641276 1.586630 1.492605 1.456726 1.417609 1.374189 1.350343 1.335168
90 1.670478 1.619851 1.564392 1.468426 1.431540 1.391075 1.345738 1.320578 1.304440
100 1.663225 1.612381 1.556629 1.459952 1.422691 1.381718 1.335642 1.309963 1.293439
0.9
Tabla F
Puntos críticos de la distribución F−Snedecor, 𝐹𝑛𝑢𝑚,𝑑𝑒𝑛,𝛼 , con 𝛼 = 0.95

den/num 1 2 3 4 5 6 7 8 9
1 161.44764 199.50000 215.70735 224.58324 230.16188 233.98600 236.76840 238.88269 240.54325
2 18.512821 19.000000 19.164292 19.246794 19.296410 19.329534 19.353218 19.370993 19.384826
3 10.127964 9.552094 9.276628 9.117182 9.013455 8.940645 8.886743 8.845238 8.812300
4 7.708647 6.944272 6.591382 6.388233 6.256057 6.163132 6.094211 6.041044 5.998779
5 6.607891 5.786135 5.409451 5.192168 5.050329 4.950288 4.875872 4.818320 4.772466
6 5.987378 5.143253 4.757063 4.533677 4.387374 4.283866 4.206658 4.146804 4.099016
7 5.591448 4.737414 4.346831 4.120312 3.971523 3.865969 3.787044 3.725725 3.676675
8 5.317655 4.458970 4.066181 3.837853 3.687499 3.580580 3.500464 3.438101 3.388130
9 5.117355 4.256495 3.862548 3.633089 3.481659 3.373754 3.292746 3.229583 3.178893
10 4.964603 4.102821 3.708265 3.478050 3.325835 3.217175 3.135465 3.071658 3.020383
11 4.844336 3.982298 3.587434 3.356690 3.203874 3.094613 3.012330 2.947990 2.896223
12 4.747225 3.885294 3.490295 3.259167 3.105875 2.996120 2.913358 2.848565 2.796375
13 4.667193 3.805565 3.410534 3.179117 3.025438 2.915269 2.832098 2.766913 2.714356
14 4.600110 3.738892 3.343889 3.112250 2.958249 2.847726 2.764199 2.698672 2.645791
15 4.543077 3.682320 3.287382 3.055568 2.901295 2.790465 2.706627 2.640797 2.587626
16 4.493998 3.633723 3.238872 3.006917 2.852409 2.741311 2.657197 2.591096 2.537667
17 4.451322 3.591531 3.196777 2.964708 2.809996 2.698660 2.614299 2.547955 2.494291
18 4.413873 3.554557 3.159908 2.927744 2.772853 2.661305 2.576722 2.510158 2.456281
19 4.380750 3.521893 3.127350 2.895107 2.740058 2.628318 2.543534 2.476770 2.422699
20 4.351244 3.492828 3.098391 2.866081 2.710890 2.598978 2.514011 2.447064 2.392814
21 4.324794 3.466800 3.072467 2.840100 2.684781 2.572712 2.487578 2.420462 2.366048
22 4.300950 3.443357 3.049125 2.816708 2.661274 2.549061 2.463774 2.396503 2.341937
23 4.279344 3.422132 3.027998 2.795539 2.639999 2.527655 2.442226 2.374812 2.320105
24 4.259677 3.402826 3.008787 2.776289 2.620654 2.508189 2.422629 2.355081 2.300244
25 4.241699 3.385190 2.991241 2.758710 2.602987 2.490410 2.404728 2.337057 2.282097
26 4.225201 3.369016 2.975154 2.742594 2.586790 2.474109 2.388314 2.320527 2.265453
27 4.210008 3.354131 2.960351 2.727765 2.571886 2.459108 2.373208 2.305313 2.250131
28 4.195972 3.340386 2.946685 2.714076 2.558128 2.445259 2.359260 2.291264 2.235982
29 4.182964 3.327654 2.934030 2.701399 2.545386 2.432434 2.346342 2.278251 2.222874
30 4.170877 3.315830 2.922277 2.689628 2.533555 2.420523 2.334344 2.266163 2.210697
40 4.084746 3.231727 2.838745 2.605975 2.449466 2.335852 2.249024 2.180170 2.124029
50 4.034310 3.182610 2.790008 2.557179 2.400409 2.286436 2.199202 2.129923 2.073351
60 4.001191 3.150411 2.758078 2.525215 2.368270 2.254053 2.166541 2.096968 2.040098
70 3.977779 3.127676 2.735541 2.502656 2.345586 2.231192 2.143478 2.073690 2.016601
90 3.946876 3.097698 2.705838 2.472927 2.315689 2.201056 2.113067 2.042986 1.985595
100 3.936143 3.087296 2.695534 2.462615 2.305318 2.190601 2.102513 2.032328 1.974829
0.95
Tabla G
Puntos críticos de la distribución F−Snedecor, 𝐹𝑛𝑢𝑚,𝑑𝑒𝑛,𝛼 , con 𝛼 = 0.95

den/num 10 12 15 24 30 40 60 80 100
1 241.88175 243.90604 245.94993 249.05177 250.09515 251.14315 252.19574 252.72373 253.04107
2 19.395897 19.412511 19.429135 19.454089 19.462411 19.470736 19.479064 19.483228 19.485727
3 8.785525 8.744641 8.702870 8.638501 8.616576 8.594411 8.572004 8.560709 8.553902
4 5.964371 5.911729 5.857805 5.774389 5.745877 5.716998 5.687744 5.672973 5.664064
5 4.735063 4.677704 4.618759 4.527153 4.495712 4.463793 4.431380 4.414982 4.405081
6 4.059963 3.999935 3.938058 3.841457 3.808164 3.774286 3.739797 3.722314 3.711745
7 3.636523 3.574676 3.510740 3.410494 3.375808 3.340430 3.304323 3.285983 3.274885
8 3.347163 3.283939 3.218406 3.115240 3.079406 3.042778 3.005303 2.986230 2.974674
9 3.137280 3.072947 3.006102 2.900474 2.863652 2.825933 2.787249 2.767522 2.755557
10 2.978237 2.912977 2.845017 2.737248 2.699551 2.660855 2.621077 2.600753 2.588412
11 2.853625 2.787569 2.718640 2.608974 2.570489 2.530905 2.490123 2.469246 2.456555
12 2.753387 2.686637 2.616851 2.505482 2.466279 2.425880 2.384166 2.362772 2.349753
13 2.671024 2.603661 2.533110 2.420196 2.380334 2.339180 2.296596 2.274716 2.261387
14 2.602155 2.534243 2.463003 2.348678 2.308207 2.266350 2.222950 2.200611 2.186988
15 2.543719 2.475313 2.403447 2.287826 2.246789 2.204276 2.160105 2.137331 2.123428
16 2.493513 2.424660 2.352223 2.235405 2.193841 2.150711 2.105813 2.082625 2.068455
17 2.449916 2.380654 2.307693 2.189766 2.147708 2.103998 2.058411 2.034828 2.020401
18 2.411702 2.342067 2.268622 2.149665 2.107143 2.062885 2.016643 1.992682 1.978010
19 2.377934 2.307954 2.234063 2.114143 2.071186 2.026410 1.979544 1.955221 1.940314
20 2.347878 2.277581 2.203274 2.082454 2.039086 1.993819 1.946358 1.921689 1.906554
21 2.320953 2.250362 2.175670 2.054004 2.010248 1.964515 1.916486 1.891483 1.876131
22 2.296696 2.225831 2.150778 2.028319 1.984195 1.938018 1.889445 1.864123 1.848559
23 2.274728 2.203607 2.128217 2.005009 1.960537 1.913938 1.864844 1.839213 1.823446
24 2.254739 2.183380 2.107673 1.983760 1.938957 1.891955 1.842360 1.816432 1.800468
25 2.236474 2.164891 2.088887 1.964306 1.919188 1.871801 1.821727 1.795512 1.779357
26 2.219718 2.147926 2.071642 1.946428 1.901010 1.853255 1.802719 1.776228 1.759888
27 2.204292 2.132303 2.055755 1.929940 1.884236 1.836129 1.785149 1.758390 1.741871
28 2.190044 2.117869 2.041071 1.914686 1.868709 1.820263 1.768857 1.741838 1.725146
29 2.176844 2.104493 2.027458 1.900531 1.854293 1.805523 1.753704 1.726435 1.709574
30 2.164580 2.092063 2.014804 1.887360 1.840872 1.791790 1.739574 1.712062 1.695037
40 2.077248 2.003459 1.924463 1.792937 1.744432 1.692797 1.637252 1.607666 1.589224
50 2.026143 1.951528 1.871384 1.737080 1.687157 1.633682 1.575654 1.544469 1.524911
60 1.992592 1.917396 1.836437 1.700117 1.649141 1.594273 1.534314 1.501853 1.481386
70 1.968875 1.893248 1.811681 1.673829 1.622040 1.566078 1.504572 1.471064 1.449840
90 1.937567 1.861344 1.778927 1.638904 1.585937 1.528369 1.464531 1.429404 1.406986
100 1.926692 1.850255 1.767530 1.626708 1.573302 1.515125 1.450386 1.414618 1.391720
0.95
Tabla H
Puntos críticos de la distribución F−Snedecor, 𝐹𝑛𝑢𝑚,𝑑𝑒𝑛,𝛼 , con 𝛼 = 0.975

den/num 1 2 3 4 5 6 7 8 9
1 647.78901 799.50000 864.16297 899.58331 921.84790 937.11108 948.21689 956.65622 963.28458
2 38.506329 39.000000 39.165495 39.248418 39.298228 39.331458 39.355205 39.373022 39.386883
3 17.443443 16.044106 15.439182 15.100979 14.884823 14.734718 14.624395 14.539887 14.473081
4 12.217863 10.649111 9.979199 9.604530 9.364471 9.197311 9.074141 8.979580 8.904682
5 10.006982 8.433621 7.763589 7.387886 7.146382 6.977702 6.853076 6.757172 6.681054
6 8.813101 7.259856 6.598799 6.227161 5.987565 5.819757 5.695470 5.599623 5.523407
7 8.072669 6.541520 5.889819 5.522594 5.285237 5.118597 4.994909 4.899341 4.823217
8 7.570882 6.059467 5.415962 5.052632 4.817276 4.651696 4.528562 4.433260 4.357233
9 7.209283 5.714705 5.078119 4.718078 4.484411 4.319722 4.197047 4.101956 4.025994
10 6.936728 5.456396 4.825621 4.468342 4.236086 4.072131 3.949824 3.854891 3.778963
11 6.724130 5.255889 4.630025 4.275072 4.043998 3.880651 3.758638 3.663819 3.587899
12 6.553769 5.095867 4.474185 4.121209 3.891134 3.728292 3.606515 3.511777 3.435846
13 6.414254 4.965266 4.347178 3.995898 3.766674 3.604256 3.482669 3.387987 3.312032
14 6.297939 4.856698 4.241728 3.891914 3.663423 3.501365 3.379933 3.285288 3.209300
15 6.199501 4.765048 4.152804 3.804271 3.576415 3.414665 3.293360 3.198738 3.122712
16 6.115127 4.686665 4.076823 3.729417 3.502116 3.340631 3.219431 3.124822 3.048753
17 6.042013 4.618874 4.011163 3.664754 3.437944 3.276689 3.155577 3.060973 2.984859
18 5.978052 4.559672 3.953863 3.608344 3.381968 3.220915 3.099877 3.005271 2.929112
19 5.921631 4.507528 3.903428 3.558706 3.332718 3.171844 3.050868 2.956257 2.880052
20 5.871494 4.461255 3.858699 3.514695 3.289056 3.128340 3.007416 2.912797 2.836546
21 5.826648 4.419918 3.818761 3.475408 3.250084 3.089509 2.968630 2.873999 2.797704
22 5.786299 4.382768 3.782886 3.440126 3.215087 3.054639 2.933799 2.839155 2.762815
23 5.749805 4.349202 3.750486 3.408268 3.183488 3.023154 2.902347 2.807689 2.731307
24 5.716639 4.318726 3.721080 3.379359 3.154816 2.994586 2.873808 2.779135 2.702711
25 5.686366 4.290932 3.694273 3.353009 3.128684 2.968549 2.847795 2.753106 2.676642
26 5.658624 4.265483 3.669736 3.328894 3.104770 2.944720 2.823988 2.729283 2.652780
27 5.633109 4.242094 3.647192 3.306741 3.082802 2.922831 2.802118 2.707396 2.630856
28 5.609564 4.220525 3.626408 3.286321 3.062554 2.902655 2.781959 2.687220 2.610643
29 5.587768 4.200572 3.607187 3.267438 3.043830 2.883998 2.763317 2.668562 2.591950
30 5.567535 4.182061 3.589359 3.249925 3.026466 2.866696 2.746027 2.651256 2.574610
40 5.423937 4.050992 3.463260 3.126114 2.903722 2.744382 2.623781 2.528863 2.451939
50 5.340323 3.974931 3.390189 3.054415 2.832654 2.673555 2.552974 2.457942 2.380821
60 5.285611 3.925265 3.342520 3.007659 2.786315 2.627370 2.506792 2.411672 2.334406
70 5.247025 3.890290 3.308972 2.974763 2.753714 2.594875 2.474294 2.379106 2.301729
90 5.196210 3.844295 3.264880 2.931540 2.710881 2.552179 2.431588 2.336299 2.258766
100 5.178594 3.828367 3.249619 2.916582 2.696059 2.537403 2.416807 2.321481 2.243889
0.975
Tabla I
Puntos críticos de la distribución F−Snedecor, 𝐹𝑛𝑢𝑚,𝑑𝑒𝑛,𝛼 , con 𝛼 = 0.975

den/num 10 12 15 24 30 40 60 80 100
1 968.62744 976.70795 984.86684 997.24925 1001.41441 1005.59810 1009.80011 1011.90792 1013.17477
2 39.397975 39.414615 39.431261 39.456238 39.464566 39.472895 39.481226 39.485392 39.487891
3 14.418942 14.336552 14.252711 14.124146 14.080523 14.036509 13.992098 13.969742 13.956280
4 8.843881 8.751159 8.656541 8.510873 8.461274 8.411132 8.360436 8.334875 8.319469
5 6.619154 6.524549 6.427728 6.278040 6.226879 6.175050 6.122529 6.096002 6.079999
6 5.461324 5.366244 5.268667 5.117192 5.065227 5.012471 4.958891 4.931779 4.915406
7 4.761116 4.665830 4.567787 4.414999 4.362393 4.308876 4.254398 4.226782 4.210087
8 4.295127 4.199667 4.101213 3.947220 3.894016 3.839780 3.784446 3.756345 3.739339
9 3.963865 3.868220 3.769357 3.614196 3.560410 3.505474 3.449302 3.420723 3.403411
10 3.716792 3.620945 3.521673 3.365369 3.311017 3.255396 3.198402 3.169353 3.151738
11 3.525672 3.429613 3.329935 3.172519 3.117617 3.061330 3.003533 2.974023 2.956110
12 3.373553 3.277277 3.177201 3.018711 2.963278 2.906346 2.847768 2.817807 2.799601
13 3.249668 3.153175 3.052713 2.893191 2.837247 2.779693 2.720356 2.689956 2.671465
14 3.146861 3.050155 2.949321 2.788811 2.732377 2.674223 2.614152 2.583325 2.564556
15 3.060197 2.963282 2.862093 2.700640 2.643735 2.585005 2.524226 2.492984 2.473944
16 2.986163 2.889048 2.787518 2.625166 2.567813 2.508529 2.447066 2.415423 2.396119
17 2.922195 2.824886 2.723032 2.559824 2.502042 2.442228 2.380105 2.348072 2.328513
18 2.866376 2.768881 2.666719 2.502697 2.444504 2.384181 2.321422 2.289012 2.269204
19 2.817245 2.719574 2.617118 2.452321 2.393736 2.332924 2.269552 2.236777 2.216727
20 2.773671 2.675831 2.573096 2.407562 2.348602 2.287322 2.223359 2.190229 2.169945
21 2.734764 2.636762 2.533762 2.367526 2.308208 2.246478 2.181945 2.148472 2.127960
22 2.699813 2.601657 2.498405 2.331500 2.271840 2.209678 2.144594 2.110790 2.090055
23 2.668244 2.569941 2.466451 2.298907 2.238919 2.176343 2.110728 2.076601 2.055651
24 2.639590 2.541148 2.437429 2.269277 2.208976 2.146000 2.079873 2.045434 2.024274
25 2.613466 2.514890 2.410954 2.242222 2.181619 2.118261 2.051639 2.016896 1.995533
26 2.589551 2.490848 2.386705 2.217418 2.156527 2.092800 2.025699 1.990663 1.969101
27 2.567576 2.468752 2.364412 2.194595 2.133427 2.069345 2.001781 1.966459 1.944704
28 2.547315 2.448375 2.343847 2.173522 2.112088 2.047664 1.979653 1.944054 1.922111
29 2.528575 2.429524 2.324816 2.154006 2.092317 2.027563 1.959118 1.923250 1.901123
30 2.511191 2.412034 2.307154 2.135879 2.073944 2.008872 1.940008 1.903877 1.881573
40 2.388161 2.288157 2.181903 2.006868 1.942916 1.875197 1.802770 1.764373 1.740503
50 2.316794 2.216209 2.109012 1.931343 1.865940 1.796275 1.721144 1.680971 1.655849
60 2.270198 2.169192 2.061308 1.881696 1.815202 1.744046 1.666791 1.625187 1.599037
70 2.237384 2.136060 2.027655 1.846552 1.779207 1.706873 1.627903 1.585119 1.558108
90 2.194227 2.092453 1.983313 1.800071 1.731487 1.657409 1.575840 1.531220 1.502843
100 2.179280 2.077342 1.967932 1.783898 1.714849 1.640107 1.557528 1.512179 1.483251
0.975
Tabla J
Puntos críticos de la distribución F−Snedecor, 𝐹𝑛𝑢𝑚,𝑑𝑒𝑛,𝛼 , con 𝛼 = 0.99

den/num 1 2 3 4 5 6 7 8 9
1 4052.18070 4999.50000 5403.35201 5624.58333 5763.64955 5858.98611 5928.35573 5981.07031 6022.47324
2 98.502513 99.000000 99.166201 99.249372 99.299296 99.332589 99.356374 99.374215 99.388093
3 34.116222 30.816520 29.456695 28.709898 28.237081 27.910657 27.671696 27.489177 27.345206
4 21.197690 18.000000 16.694369 15.977025 15.521858 15.206865 14.975758 14.798889 14.659134
5 16.258177 13.273934 12.059954 11.391928 10.967021 10.672255 10.455511 10.289311 10.157762
6 13.745023 10.924767 9.779538 9.148301 8.745895 8.466125 8.259995 8.101651 7.976121
7 12.246383 9.546578 8.451285 7.846645 7.460435 7.191405 6.992833 6.840049 6.718752
8 11.258624 8.649111 7.590992 7.006077 6.631825 6.370681 6.177624 6.028870 5.910619
9 10.561431 8.021517 6.991917 6.422085 6.056941 5.801770 5.612865 5.467123 5.351129
10 10.044289 7.559432 6.552313 5.994339 5.636326 5.385811 5.200121 5.056693 4.942421
11 9.646034 7.205713 6.216730 5.668300 5.316009 5.069210 4.886072 4.744468 4.631540
12 9.330212 6.926608 5.952545 5.411951 5.064343 4.820574 4.639502 4.499365 4.387510
13 9.073806 6.700965 5.739380 5.205330 4.861621 4.620363 4.440997 4.302062 4.191078
14 8.861593 6.514884 5.563886 5.035378 4.694964 4.455820 4.277882 4.139946 4.029680
15 8.683117 6.358873 5.416965 4.893210 4.555614 4.318273 4.141546 4.004453 3.894788
16 8.530965 6.226235 5.292214 4.772578 4.437420 4.201634 4.025947 3.889572 3.780415
17 8.399740 6.112114 5.185000 4.668968 4.335939 4.101505 3.926719 3.790964 3.682242
18 8.285420 6.012905 5.091890 4.579036 4.247882 4.014637 3.840639 3.705422 3.597074
19 8.184947 5.925879 5.010287 4.500258 4.170767 3.938573 3.765269 3.630525 3.522503
20 8.095958 5.848932 4.938193 4.430690 4.102685 3.871427 3.698740 3.564412 3.456676
21 8.016597 5.780416 4.874046 4.368815 4.042144 3.811725 3.639590 3.505632 3.398147
22 7.945386 5.719022 4.816606 4.313429 3.987963 3.758301 3.586660 3.453034 3.345773
23 7.881134 5.663699 4.764877 4.263567 3.939195 3.710218 3.539024 3.405695 3.298634
24 7.822871 5.613591 4.718051 4.218445 3.895070 3.666717 3.495928 3.362867 3.255985
25 7.769798 5.567997 4.675465 4.177420 3.854957 3.627174 3.456754 3.323937 3.217217
26 7.721254 5.526335 4.636570 4.139960 3.818336 3.591075 3.420993 3.288399 3.181824
27 7.676684 5.488118 4.600907 4.105622 3.784770 3.557991 3.388219 3.255827 3.149385
28 7.635619 5.452937 4.568091 4.074032 3.753895 3.527559 3.358073 3.225868 3.119547
29 7.597663 5.420445 4.537795 4.044873 3.725399 3.499475 3.330252 3.198219 3.092009
30 7.562476 5.390346 4.509740 4.017877 3.699019 3.473477 3.304499 3.172624 3.066516
40 7.314100 5.178508 4.312569 3.828294 3.513840 3.291012 3.123757 2.992981 2.887560
50 7.170577 5.056611 4.199343 3.719545 3.407680 3.186434 3.020168 2.890008 2.784956
60 7.077106 4.977432 4.125892 3.649047 3.338884 3.118674 2.953049 2.823280 2.718454
70 7.011399 4.921872 4.074397 3.599647 3.290689 3.071209 2.906032 2.776533 2.671859
90 6.925135 4.849058 4.006968 3.534992 3.227626 3.009106 2.844515 2.715364 2.610879
100 6.895301 4.823910 3.983695 3.512684 3.205872 2.987684 2.823295 2.694263 2.589841
0.99
Tabla K
Puntos críticos de la distribución F−Snedecor, 𝐹𝑛𝑢𝑚,𝑑𝑒𝑛,𝛼 , con 𝛼 = 0.99

den/num 10 12 15 24 30 40 60 80 100
1 6055.84671 6106.32071 6157.28462 6234.63089 6260.64858 6286.78205 6313.03005 6326.19659 6334.11004
2 99.399196 99.415852 99.432511 99.457502 99.465833 99.474165 99.482497 99.486663 99.489163
3 27.228734 27.051819 26.872195 26.597523 26.504534 26.410813 26.316351 26.268839 26.240242
4 14.545901 14.373587 14.198202 13.929064 13.837660 13.745379 13.652198 13.605264 13.576992
5 10.051017 9.888275 9.722219 9.466471 9.379329 9.291189 9.202015 9.157029 9.129907
6 7.874119 7.718333 7.558994 7.312721 7.228533 7.143222 7.056737 7.013037 6.986667
7 6.620063 6.469091 6.314331 6.074319 5.992010 5.908449 5.823566 5.780605 5.754657
8 5.814294 5.666719 5.515125 5.279264 5.198130 5.115610 5.031618 4.989038 4.963296
9 5.256542 5.111431 4.962078 4.728998 4.648582 4.566649 4.483087 4.440656 4.414980
10 4.849147 4.705870 4.558140 4.326929 4.246933 4.165287 4.081855 4.039422 4.013719
11 4.539282 4.397401 4.250867 4.020910 3.941132 3.859573 3.776071 3.733533 3.707744
12 4.296054 4.155258 4.009619 3.780485 3.700789 3.619181 3.535473 3.492763 3.466845
13 4.100267 3.960326 3.815365 3.586753 3.507042 3.425293 3.341287 3.298357 3.272282
14 3.939396 3.800141 3.655697 3.427387 3.347596 3.265641 3.181274 3.138094 3.111842
15 3.804940 3.666240 3.522194 3.294029 3.214110 3.131906 3.047135 3.003683 2.977242
16 3.690931 3.552687 3.408947 3.180811 3.100733 3.018248 2.933046 2.889308 2.862669
17 3.593066 3.455198 3.311694 3.083502 3.003241 2.920458 2.834806 2.790774 2.763932
18 3.508162 3.370608 3.227286 2.998974 2.918516 2.835420 2.749309 2.704978 2.677930
19 3.433817 3.296527 3.153343 2.924866 2.844201 2.760786 2.674211 2.629578 2.602323
20 3.368186 3.231120 3.088041 2.859363 2.778485 2.694749 2.607708 2.562774 2.535313
21 3.309830 3.172953 3.029951 2.801050 2.719955 2.635896 2.548393 2.503160 2.475492
22 3.257606 3.120891 2.977946 2.748802 2.667490 2.583111 2.495149 2.449619 2.421747
23 3.210599 3.074025 2.931118 2.701720 2.620191 2.535496 2.447081 2.401258 2.373184
24 3.168069 3.031615 2.888732 2.659072 2.577329 2.492321 2.403461 2.357349 2.329076
25 3.129406 2.993056 2.850186 2.620260 2.538305 2.452990 2.363691 2.317296 2.288826
26 3.094108 2.957848 2.814982 2.584787 2.502624 2.417007 2.327279 2.280604 2.251941
27 3.061754 2.925573 2.782703 2.552239 2.469872 2.383960 2.293812 2.246863 2.218009
28 3.031992 2.895881 2.753000 2.522268 2.439701 2.353501 2.262941 2.215723 2.186682
29 3.004524 2.868472 2.725577 2.494579 2.411817 2.325335 2.234372 2.186890 2.157666
30 2.979094 2.843095 2.700180 2.468921 2.385967 2.299211 2.207854 2.160114 2.130710
40 2.800545 2.664827 2.521616 2.287998 2.203382 2.114232 2.019411 1.969368 1.938341
50 2.698139 2.562497 2.418961 2.183485 2.097593 2.006592 1.909032 1.857122 1.824753
60 2.631751 2.496116 2.352297 2.115364 2.028479 1.936018 1.836259 1.782816 1.749328
70 2.585226 2.449575 2.305517 2.067425 1.979748 1.886115 1.784557 1.729835 1.695398
90 2.524326 2.388623 2.244198 2.004390 1.915536 1.820141 1.715821 1.659088 1.623133
100 2.503311 2.367582 2.223015 1.982556 1.893254 1.797181 1.691780 1.634242 1.597669
0.99
Tabla L

También podría gustarte