Autora: Ana María Lara Porras
Capítulo 11
Contrastes de hipótesis basados en
la Chi-cuadrado
En el Capítulo 10 se han tratado los contrastes de hipótesis acerca de parámetros pobla-
cionales tales como μ, σ 2 y p, de ahí el nombre de Contrastes Paramétricos. En el presente
capítulo se estudian los contrates de hipótesis en los que la característica que se desconoce
es alguna propiedad de la distribución que se muestrea. Además se discutirán los contrastes
de dependencia o independencia entre caracteres cualitativos. Estos contrastes reciben el
nombre de Contrastes No-Paramétricos
Así, uno de los objetivos del presente capítulo es el estudio de contrates de hipótesis
para determinar si una población tiene una distribución teórica específica. La técnica que
nos introduce a estudiar esas cuestiones se llama Contraste de la Chi-cuadrado para la
Bondad de Ajuste. Una variación de este contraste se emplea para resolver los Contrastes
de Independencia. Tales contrastes se utilizan para determinar si dos características están
relacionadas o son independientes es decir, si existe o no asociación entre dos variables. Así,
mediante los contrastes de independencia responderemos a preguntas del siguiente tipo:
¿Hay asociación entre la preferencia política y los ingresos? ¿entre el hábito de fumar y el
cáncer de pulmón? ¿entre la drogadicción por vía parental y el SIDA? ¿entre la obesidad
y la hipertensión? Y, por último estudiaremos otra variación del contraste de la bondad
de ajuste llamado Contraste de Homogeneidad, este contraste se utiliza para estudiar si
diferentes poblaciones, son similares (u homogéneas) con respecto a alguna característica.
Por ejemplo, queremos saber si las proporciones de votantes que favorecen al candidato
A, al candidato B o los que se abstuvieron son las mismas en dos ciudades. En esencia los
aspectos nuevos que se van abordar son:
Conformidad de una distribución experimental y una distribución teórica mediante
contrastes de hipótesis en los que se confrontan los resultados de un experimento con
329
330 Contrastes de hipótesis basados en la Chi-cuadrado
una teoría. Son contrastes para examinar si los datos experimentales, los resultados
proporcionados por una muestra aleatoria, son conformes con una determinada dis-
tribución teórica dada de antemano. Como, mediante estos contrastes se trata de
comprobar si los datos experimentales se ajustan bien a una cierta distribución,
dichos contrastes reciben el nombre de Contrastes para la Bondad de Ajuste a Dis-
tribuciones.
Dependencia o independencia entre dos caracteres cualitativos mediante con-
trastes de hipótesis en los que se comprueban si dos características cualitativas están
relacionadas entre sí, estos contrastes son los Contrastes para la Independencia de
dos Caracteres Cualitativos.
Comprobar si varias muestras de una carácter cualitativo se pueden considerar
procedentes de una misma población. Dicha comprobación se realiza mediante los
Contrastes de Homogeneidad de Varias Muestras Cualitativas.
En los contrastes de Independencia y en los contrates de homogeneidad el tipo de datos
está caracterizado por el hecho de que cada una de las observaciones está incluida en
una de varias categorías mutuamente excluyentes. El interés se centra en el número de
observaciones que hay dentro de cada categoría. El objetivo es determinar si las frecuencias
de la categoría observada tiende a apoyar o rechazar una hipótesis planteada.
Hemos agrupado estos temas en este capítulo porque el denominador común a todos
ellos es que su tratamiento estadístico se aborda mediante la distribución Chi-cuadrado.
11.1. Contrastes para la bondad de ajuste
El objetivo de los Contrastes de Bondad de Ajuste a Distribuciones consiste en determinar
a partir de un conunto de datos muestrales si estos son consistentes con una distribución
de probabilidad teórica.
Los datos observados (o experimentales) y los datos obtenidos mediante una cierta
distribución de probabilidad, datos teóricos, difieren unos de otros, ya que raramente el
ajuste de entre ambos tipos de datos es perfecto. Mediante los Contrastes de Bondad
de Ajuste se determina si las diferencias existentes entre las frecuencias observadas y las
teóricas son únicamente debidas al azar al tomar la muestra.
Consideramos una variable aleatoria X discreta o continua y una muestra aleatoria
de tamaño n de la distribución de dicha variable agrupada en k clases exhaustivas y
mutuamente excluyentes y sea ni , i = 1, 2, · · · , k, la frecuencia absoluta de la i−ésima
clase (el número de observaciones de la i−ésima clase).
Supongamos una cierta distribución teórica para X cuyos parámetros poblacionales
los estimamos a partir de los datos muestrales. Si denotamos por pi la probabilidad teórica
11.1 Contrastes para la bondad de ajuste 331
asociada a la clase i entonces npi será la frecuencia absoluta teórica asociada a la clase i.
En forma tabular se puede poner de la siguiente forma:
Fre. absolutas
Fre. absolutas Probabilidades
Clases Marca de clase teóricas
empíricas ni teóricas pi
(Valores Esperados)
1 x1 n1 p1 np1
2 x2 n2 p2 np2
.. .. .. .. ..
. . . . .
i xi ni pi npi
.. .. .. .. ..
. . . . .
k xk nk pk npk
n 1 n
Partiendo de una muestra de n valores observados x1 , x2 , · · · , xn de una v.a. X con dis-
tribución supuesta F (x), se plantea el siguiente contraste de hipótesis:
H0 ≡ X Ã F (x) (La distribución teórica está conforme con la distribución empírica)
H1 ≡ X sigue otra distribución
que se resuelve mediante el siguiente estadístico de contraste propuesto por Pearson
k
(n1 − np1 )2 (n2 − np2 )2 (nk − npk )2 X (ni − npi )2
χ2exp = + + ··· + =
np1 np2 npk npi
i=1
dicho estadístico, bajo la hipótesis nula, se distribuye aproximadamente según una χ2 con
k − r − 1 grados de libertad
∗ r : es el número de parámetros estimados de los que depende la distribución teórica.
Así, el número de grados de libertad está relacionado con el número de parámetros
desconocidos de los que depende la distribución teórica, por ejemplo si la ley de
probabilidad es una Normal, N(μ, σ), ambos parámetros desconocidos, el número
de grados de libertad es k − 2 − 1 = k − 3, si es una Poisson, P (λ), el número de
grados de libertad es k − 1 − 1 = k − 2.
∗ k : es el número de clases
Si las frecuencias observadas se acercan a las correspondientes frecuencias esperadas,
el valor χ2exp será pequeño, lo que indica un buen ajuste.
332 Contrastes de hipótesis basados en la Chi-cuadrado
Si las frecuencias observadas difieren considerablemente de las frecuencias esperadas,
el valor χ2exp será grande y el ajuste será malo.
Un buen ajuste conduce a la aceptación de H0 mientras que un mal ajuste conduce a
su rechazo. La región crítica, por lo tanto, caerá en la cola derecha de la distribución
Chi-cuadrada.
Para un nivel de significación α, la regla de decisión apropiada es:
Si χ2exp < χ2α;k−r−1 ⇒ No se rechaza H0 ⇒ la diferencia
entre la distr. experimental y la teórica no es significativa
Si χ2exp ≥ χ2α;k−r−1 ⇒Se rechaza H0 ⇒ la diferencia entre
la distr. experimental y la teórica es significativa y cuanto
mayor sea dicha diferencia mayor es la significación.
El criterio de decisión que acabamos de describir se utiliza si cada una de las frecuencias
esperadas es al menos igual que 5. Si la frecuencia teórica en alguna clase es menor que
5, npi < 5, entonces dicha clase se agrupará con otras clases contiguas de manera que en
todas ellas dichas frecuencias sean mayores o iguales a 5 reduciéndose el número de clases
y como consecuencia el número de grados de libertad.
Ejemplo 11.1: Se realizan uno estudios para medir el número de partículas, procedentes
de una sustancia radiactiva, que llegan a una determinada zona en un corto espacio de
tiempo siempre igual. Los resultados se muestran en la siguiente tabla
N o de partículas 0 1 2 3 4 5 6
N o de periodos de tiempo 269 325 207 82 28 7 2
Se pide:
a) Ajustar una distribución de Poisson
b) Calcular la probabilidad de que lleguen a dicha superficie: 0 partículas; 3 partículas;
por lo menos 3 partículas; más de 3 partículas; menos de 3 partículas
c) Verificar la bondad de ajuste mediante un contraste de la χ2 .
Respuesta: Sea X :“Número de partículas radiactivas”
a) La distribución de Poisson está caracterizada por el parámetro λ, dicho parámetro
es desconocido por ello lo estimamos a partir de la muestra
11.1 Contrastes para la bondad de ajuste 333
7
1X 0 × 269 + 1 × 325 + · · · + 6 × 2
λ=x= ni xi = = 1,24 ⇒ X Ã P (λ = 1,24)
n 269 + 325 + · · · + 2
i=1
λs
b) P [X = s] = e−λ
s!
λ0 λ3
P (X = 0) = e−1,24 = 0,2894; P (X = 3) = e−1,24 = 0,0919;
0! 3!
P (X ≥ 3) = 1 − P (X < 3) = 1 − P (X = 0) − P (X = 1) − P (X = 2) =
= 1 − 0,2898 − 0,3588 − 0,2224 = 0,129
P (X > 3) = 1 − P (X ≤ 3) = 1 − P (X = 0) − P (X = 1) − P (X = 2) − P (X = 3) =
= 1 − 0,2898 − 0,3588 − 0,2224 − 0,0919 = 0,0371
P (X < 3) = P (X = 0) + P (X = 1) + P (X = 2) = 0,871
c) Contraste de bondad de ajuste
⎧ k
⎪
⎪ ⎫ X (ni − npi )2
H0 ≡ X Ã P (λ = 1,24) ⎪ χ
⎬2
⎨ exp =
npi
→ i=1
⎭ ⎪
⎪
H1 ≡ X sigue otra distribución ⎪
⎩
Si χ2exp ≥ χ2α;k−r−1 ⇒ Se rechaza H0
Fre. absolutas Probabilidades Valores esperados
No de partículas
empíricas ni teóricas pi npi
0 269 0,2894 266,248
1 325 0,3588 330,096
2 207 0,2224 204,608
3 82 0,0919 84,548
4 28 0,0285 26,22
5 7 0,0070 6,44
6 2 0,0014 1,288
n = 920 1 919,448
Al ser el último valor esperado menor que 5 unimos las dos clases contiguas
334 Contrastes de hipótesis basados en la Chi-cuadrado
(ni − npi )2
No de partículas ni pi npi
npi
0 269 0,2894 266,248 0,0284
1 325 0,3588 330,096 0,0786
2 207 0,2224 204,608 0,0280
3 82 0,0919 84,548 0,0767
4 28 0,0285 26,22 0,1208
5 9 0,0084 7,728 0,2093
n = 920 1 919,448 0,5418
k
X (ni − npi )2
à χ2k−r−1
npi
i=1
k : Número de clases; k = 6
r : Número de parámetros estimados; r = 1
k
X (ni − npi )2
χ2exp = = 0,5418
npi
i=1
χ2α;k−r−1 = χ20,05;6−1−1 = χ20,05;4 = 9,49 > χ2exp ⇒ No se rechaza H0
Los datos provienen de una distribución de Poisson
Ejemplo 11.2: Se ha observado el número de hijos varones en 1000 familias, cada una de
ellas con 5 hijos, obteniéndose los siguientes resultados:
N o de hijos varones 0 1 2 3 4 5
N o de familias 31 168 319 308 150 24
Ajustar una distribución binomial y estudiar la bondad del ajuste.
Respuesta:
Sea la variable aleatoria X que representa el número de hijos varones en una familia,
X Ã B(5, p). El parámtero p es desconocido y tenemos que estimarlo con base en la
información suministrada por la muestra, así determinamos la probabilidad p a partir de
la media muestral: x = 5p
31 × 0 + 168 × 1 + · · · 24 × 5 2,455
x= = 2,455 ⇒ p = = 0,49
1000 5
11.1 Contrastes para la bondad de ajuste 335
Hallamos las probabilidades teóricas o esperadas a partir de la función de probabilidad de
la distribución binomial
µ ¶
5
P [X = r] = (0,49)r (0,51)5−r
r
y obtenemos la siguiente tabla
de hijos Fre. absolutas Probabilidades Fre. absolutas
varones empíricas ni teóricas pi teóricas: npi
0 31 0,0345 34,5
1 168 0,1657 165,7
2 319 0,3185 318,5
3 308 0,3060 306,0
4 150 0,1470 147,0
5 24 0,0283 28,3
y el siguiente valor para el estadístico de contraste
6
X (ni − npi )2 (31 − 34,5)2 (168 − 165,7)2 (24 − 28,3)2
χ2exp = = + +··· + = 1,115 ,
npi 34,5 165,7 28,3
i=1
el número de grados de libertad es: 6 − 1 − 1 = 4. Para un nivel de significación del 5 %
χ20,05;4 = 9,49 > χ2exp ⇒ No se rechaza H0 ⇒ se puede afirmar que el ajuste es bueno.
Ejemplo 11.3. En una factoría de automóviles se ha observado la duración de las baterías
de 40 coches, obteniéndose la siguiente tabla
Límites de clase Fre. absolutas
1,45 − 1,95 2
1,95 − 2,45 1
2,45 − 2,95 4
2,95 − 3,45 15
3,45 − 3,95 10
3,95 − 4,45 5
4,45 − 4,95 3
Comprobar la hipótesis de que la distribución de frecuencias de las duraciones de la
baterías, dadas en la tabla anterior, se puede aproximar mediante una distribución Normal
de media μ = 3,5 y desviación típica σ = 0,7.
Respuesta:
336 Contrastes de hipótesis basados en la Chi-cuadrado
Fre. absolutas Probabilidades Fre. absolutas
Clases
empíricas ni teóricas pi teóricas: npi
⎫ ⎫
1,45 − 1,95 2 ⎬ 0,012 0,5 ⎬
1,95 − 2,45 1 7 0,0525 2,1 8,5
⎭ ⎭
2,45 − 2,95 4 0,1475 5,9
2,95 − 3,45 15 0,2573 10,3
3,45 − 3,95 10¾ 0,2674 10,7
¾
3,95 − 4,45 5 0,175 7,0
8 10,5
4,45 − 4,95 3 0,0874 3,5
Las probabilidades teóricas se obtienen de la siguiente forma:
∙ ¸
1,45 − 3,5 1,95 − 3,5
P [1,45 ≤ x ≤ 1,95] = P ≤z≤ = P [−2,93 ≤ z ≤ −2,21] =
0,7 0,7
= P [z ≥ 2,21] − P [z ≥ 2,93] = 0,0136 − 0,00169 = 0,012
Nótese que, en la tabla anterior, hemos agrupado clases contiguas donde las frecuencias
teóricas son menores que 5, npi < 5, de manera que en todas las clases dichas frecuencias
sean mayores o iguales a 5. En consecuencia, el número total de intervalos se reduce de 7
a 4 y por lo tanto el número de grados de libertad es 4-1=3. El valor del estadístico de
contraste es:
4
X (ni − npi )2 (7 − 8,5)2 (15 − 10,3)2 (10 − 10,7)2 (8 − 10,5)2
χ2exp = = + + + = 3,05
npi 8,5 10,3 10,7 10,5
i=1
Para un nivel de significación del 5 %; χ20,05;3 = 7,815 > χ2exp ⇒ No hay razón para
rechazar H0 y se concluye que la distribución N (3,5; 0,7) proporciona un buen el ajuste
de las duraciones de las baterías.
11.2. Contrastes para la independencia de dos caracteres
En este capítulo y capítulos anteriores hemos considerado el estudio de un único carácter
en una o dos poblaciones, sin embargo un problema muy interesante, en las ciencias ex-
perimentales, es estudiar conjuntamente dos caracteres en una misma población, en donde
cada carácter puede presentar dos o más modalidades diferentes y preguntarse si existe
o no algún tipo de relación entre ambos caracteres. El procedimiento estadístico que se
utiliza en tal situación está, en parte, determinado por la naturaleza de las variables que
intervienen. Si las dos variables son cualitativas, el modo de determinar si están rela-
cionadas es mediante los Contrastes de Independencia de dos Caracteres que estudiamos
en esta sección y el procedimiento de la prueba de la χ2 que se presentó en la sección
anterior también puede utilizarse para resolver estos contrastes.
11.2 Contrastes para la independencia de dos caracteres 337
Por ejemplo, ¿existe relación entre el color de la piel y el color del pelo? o ¿existe
relación entre fumar cigarrillos y la predisposición a desarrollar cáncer de pulmón? En
ambos ejemplos, se ha clasificado a la población en dos caracteres y se supone que cada
uno de estos caracteres presentan por lo menos dos modalidades exhaustivas y mutuamente
excluyentes. Así,
En el primer ejemplo los dos caracteres son el color de la piel y el color del pelo y
las modalidades de estos dos caracteres podrían ser oscura y clara, para el primer
carácter, y negro, rubio y pelirrojo para el segundo.
En el segundo ejemplo los dos caracteres son si es fumador, y si desarrolla cáncer de
pulmón y las modalidades de estos dos caracteres podrían ser: no-fumador, moderado
y crónico, para el primer carácter, y si desarrolla o no cáncer de pulmón para el
segundo.
En una prueba de independencia el único número que el investigador controla directamente
es el tamaño total de la muestra. Se extrae una muestra de tamaño n de la población y
cada dato se clasifica según las dos variables que se estudian. Ni las frecuencias de cada
celda ni los totales de fila y columna se conocen de antemano.
Las frecuencias observadas en cada una de las modalidades de los caracteres se presen-
tan en la Tabla 11.1, que se conoce como una Tabla de Contingencia con dos criterios de
clasificación.
De un modo general, los n individuos de una muestra aleatoria se clasifican de acuerdo
con dos caracteres cualitativos A y B, cada uno de los cuales admite r y s modalidades
diferentes, respectivamente, constituyendo una tabla de contingencia con r filas y s colum-
nas, que se le conoce como una tabla r × s y se muestra a continuación
Tabla 11.1: Tabla de contingencia
A\B B1 B2 · · · Bj · · · Bs Totales
A1 n11 n12 · · · n1j · · · n1s n1.
A2 n21 n22 · · · n2j · · · n2s n2.
.. .. .. .. .. .. .. ..
. . . . . . . .
Ai ni1 ni2 · · · nij · · · nis ni.
.. .. .. .. .. .. .. ..
. . . . . . . .
Ar nr1 nr2 ··· nrj ··· nrs nr.
Totales n,1 n,2 ··· n.j ··· n.s n
Donde hemos denotado por:
A1 , A2 , · · · , Ar cada una de las modalidades del carácter A
338 Contrastes de hipótesis basados en la Chi-cuadrado
B1 , B2 , · · · , Bs cada una de las modalidades del carácter B
nij la frecuencia absoluta observada en las modalidades (i, j) de los caracteres A y
B, respectivamente, con i = 1, 2, · · · , r y j = 1, 2, · · · , s
P
r
ni. = nij es el total de la i−ésima fila.
i=1
P
s
n.j = nij es el total de la j−ésima columna
j=1
P
r P
s
n= nij es el total general.
i=1 j=1
La decisión de no rechazar o rechazar la hipótesis nula de independencia de los dos ca-
racteres se basa en el buen o mal ajuste de las frecuencias observadas en cada una de las
celdas de la tabla de contingencia y las frecuencias que se esperarían para cada celda bajo
la suposición de que H0 es cierta, siendo H0
H0 ≡ Los caracteres A y B son independientes .
Las frecuencias esperadas de cualquier celda se obtienen mediante la siguiente fórmula
(Total de la columna) × (Total de la fila)
Frecuencia esperada =
Total general
Si denotamos las frecuencias teóricas por eij , la expresión anterior se puede poner de la
siguiente forma
ni. n.j
eij =
n
Se define el siguiente estadístico de contraste
r X
X s
2 (nij − eij )2
χ =
eij
i=1 j=1
que, bajo la hipótesis nula, se aproxima a una distribución χ2 con (r − 1) × (s − 1) grados
de libertad, si eij > 5.
Si algún valor de las frecuencias teóricas o esperadas, eij , es menor que 5 en lugar de
agrupar filas o columnas contiguas debido al problema que puede presentar, se aplica una
corrección que recibe el nombre de Corrección de Yates para continuidad, que consiste
en restar 0.5 a cada una de las diferencias entre las frecuencias observadas y las teóricas,
dando lugar al siguiente estadístico de contraste.
r X
X s
(|nij − eij | − 0,5)2
χ2 (corregido) =
eij
i=1 j=1
11.3 Contrastes de homogeneidad 339
Si las frecuencias esperadas, eij , son grandes, los valores de los estadísticos de contrastes
corregidos y sin corregir son casi los mismos.
Ejemplo 11.4. Durante un periodo de tiempo se llevó a cabo un estudio médico, para
determinar, si los hábitos de un fumador pueden influir en el desarrollo del cáncer de
pulmón. Los resultados obtenidos se muestran en la siguiente tabla
Enfermedad \ Fumador No-Fumador Moderado Crónico
SI 350 1200 1450
NO 525 900 575
Razonar con una significación del 5 % si el hecho de desarrollar cáncer pulmonar está
relacionado con el hábito de fumar.
Respuesta:
Enfermedad \ Fumador No-Fumador Moderado Crónico
SI 350 1200 1450 3000
NO 525 900 575 2000
875 2100 2025 5000
(nij − eij )2
eij No-Fum. Moder. Crón. No-Fum. Moder. Crón.
eij
SI 525 1260 1215
SI 58.3 2.8571 45.4526
NO 350 840 810
NO 87.5 4.2857 68.1790
2 X
X 3
(nij − eij )2
¾ χ2exp = = 266,6077
H0 ≡ Independencia eij
i=1 j=1
H1 ≡ No-independencia
χ2teórica = χ2α;(r−1)(s−1) = χ20,05;2 = 5,9915
Como χ2exp > χ2teórica ⇒ Se rechaza H0 . Por lo tanto no hay independencia entre los
caracteres.
11.3. Contrastes de homogeneidad
El problema general es determinar si varias muestras cualitativas se pueden considerar
procedentes de una misma población en cuyo caso decimos que las muestras son ho-
mogéneas.
340 Contrastes de hipótesis basados en la Chi-cuadrado
Ejemplos de problemas de homogeneidad se pueden plantear en términos de compro-
bar si varios tratamientos, que curan una misma enfermedad, aplicados a un cierto tipo
de enfermos son homogéneos respecto a los resultados obtenidos. Si únicamente conside-
ramos dos tratamientos A y B y los aplicamos a dos muestras independientes de individuos
anotando cuantos de dichos individuos se curan y cuantos no. El problema consiste en com-
parar dos proporciones de curados una de cada tratamiento que se estudió en el Capítulo
10. Pero si en lugar de clasificar los resultados en números de individuos que se curan o
no, clasificamos dichos resultados en más de dos categorías, por ejemplo “Peor”, “Igual”
y “Mejor”, o si consideramos más de dos tratamientos, el problema que se plantea es con-
trastar que todos los tratamientos son igualmente de efectivos, es decir que la proporción
de individuos que empeoran, permanecen igual o que mejoran es la misma en todos los
tratamientos y este problema el que vamos a resolver en esta sección.
En los contrastes de independencia, considerados en la sección anterior, estábamos in-
teresados en saber si, en los individuos de una misma población, dos caracteres estaban
relacionados, en estos contrastes el único número que el investigador controla directa-
mente es el tamaño de total de la muestra. Un contraste de homogeneidad proporciona
otra aproximación al problema. Ahora en lugar de realizar una prueba de independencia,
se prueba la hipótesis de que las proporciones poblacionales dentro de cada fila son las
mismas. Esto es, en el Ejemplo 11.4 se probaría la hipótesis de que las proporciones de
individuos “No-fumadores”, “moderados” y “crónicos” que tienen la enfermedad son las
mismas que las proporciones de individuos de cada categoría que no tienen la enfermedad.
En esencia interesa probar si las tres categorías de hábitos de fumador son homogéneas
con respecto a tener o no la enfermedad. Por lo tanto, un contraste de homogeneidad
contrasta una hipótesis nula que afirma que diferentes poblaciones son homogéneas con
respecto a alguna característica de interés, contra una hipótesis alternativa que asegura
que no lo son.
En una prueba de homogeneidad un conjunto de marginales totales está fijado por
el investigador, mientras que el otro es aleatorio. Por ejemplo, queremos saber si hay
algún tipo de asociación entre la exposición a radiactividad y el desarrollo de una cierta
enfermedad, para llevar a cabo el experimento se eligen muestras aleatorias de 300 personas
que han estado expuestas a la radiación y 320 que no han estado expuestas. En este caso,
los totales de filas marginales se han fijado en 300 y 320, estos tamaños de muestras son
determinados previamente por el investigador. Los totales de columnas marginales son
libres, son variables aleatorias cuyos valores numéricos se conocen al final del experimento.
Si no hay asociación entre la exposición a radiactividad y el desarrollo de la enfermedad,
la proporción de personas con la enfermedad debería ser la misma en las dos poblaciones.
Si hay asociación, estas proporciones podrían ser distintas.
Los contrastes de homogeneidad conllevan tablas que son similares a las tablas de
contingencia, en efecto, el procedimiento para llevar a cabo tales contrastes es exactamente
11.4 Ejercicios propuestos: Relación XI 341
el mismo que el utilizado en el test de la χ2 en unión con las tablas de contingencia.
Ilustramos este procedimiento en el siguiente ejemplo:
Ejemplo 11.5. Un grupo de personas han estado expuestas a la radiactividad procedente
de un vertedero en el que se almacenan desechos atómicos. Se realiza una investigación
para descubrir si hay alguna asociación entre la exposición y el desarrollo de una cierta
enfermedad en la sangre. Para llevar a cabo el experimento se eligen muestras aleatorias
de 300 personas de la comunidad que han estado expuestas al peligro y 320 no expuestas
¿Qué se puede concluir a la vista de los resultados?
Expuestos/Radiactividad SI NO Total
SI 52 248 300
NO 48 272 320
Total 100 520 620
Respuesta:
H0 : Proporción de personas con la enfermedad de los expuestos a la radiactividad =
= Proporción de personas con la enfermedad (no expuestos a la radiactividad)
:
ni. n.j (nij − eij )2
eij = SI NO SI NO
n eij
SI 48.39 251.61 SI 0.2693 0.0518
NO 51.61 268.39 NO 0.2525 0.0485
3 X
X 2
¾ (nij − eij )2
H0 ≡ Las poblaciones son homogéneas χ2exp = = 0,6221
eij
H1 ≡ Las poblaciones no son homogéneas i=1 j=1
χ2teórica = χ2α;(r−1)(s−1) = χ20,05;1 = 3,48
Como χ2exp < χ2teórica ⇒ Se rechaza H0 . Por lo tanto, no hay evidencia de asociación entre
la exposición a esta fuente de radiactividad y el desarrollo de esta enfermedad en la sangre.
11.4. Ejercicios propuestos: Relación XI
1. A lo largo de 540 días se anota el número de accidentes mortales de tráfico que se
producen en una ciudad, obteniéndose los resultados de la tabla adjunta.
No de accidentes mortales por día 0 1 2 3 4 5
No de días 132 195 120 60 24 9
342 Contrastes de hipótesis basados en la Chi-cuadrado
. Se pide: a) ¿Qué distribución podremos ajustar y por qué?; b) Estudiar la bon-
dad del ajuste; c) ¿Cuántos días se producirán dos accidentes mortales en un año?
(Soluciones: a) Poisson; b) χ2exp = 3,109, NO SIG; c) 88 días).
2. Una central de transformación de productos lácteos produce un preparado para niños
en edad de lactancia. Se analiza el contenido de materia grasa de los mismos. Para
ello se utiliza una muestra de 742 preparados y los resultados agrupados en 8 clases
están expresados en la tabla adjunta. Se pide: a) ¿Se puede admitir que el contenido
de materia grasa se distribuye normalmente? ; b) Contrastar la bondad del ajuste
mediante la χ2 .(Soluciones: a) N (0,39; 0.042); b) χ2exp = 25,8022).
0,255 − 0,285 6
0,285 − 0,315 38
0,315 − 0,345 66
0,345 − 0,375 131
0,375 − 0,405 240
0,405 − 0,435 162
0,435 − 0,465 84
0,465 − 0,495 15
3. Tomamos una muestra de 650 análisis de sangre realizados en un laboratorio clínico
y anotamos el número de eritrocitos por milímetro cúbico de sangre. Los resultados
agrupados en 7 clases son los que figuran en la tabla adjunta. Se pide: a) ¿Se puede
admitir que el no de eritrocitos se distribuyen normalmente?; b) Calcular la proba-
bilidad de que el número de eritrocitos en millones, esté comprendido entre 4.5 y
5.5. (Soluciones: a) Si se puede admitir; b) 0,3208).
No de eritrocitos No de días
en millones
menos de 2.5 8
2,5 − 3,5 52
3,5 − 4,5 140
4,5 − 5,5 210
5,5 − 6,5 160
6,5 − 7,5 70
7,5 y más 10
4. Se realiza una investigación para determinar si hay alguna asociación entre el peso
de un estudiante y un éxito precoz en la escuela. Se selecciona una muestra de 500
estudiantes y se clasifica a cada uno según dos criterios, el peso y el éxito en la escuela.
11.4 Ejercicios propuestos: Relación XI 343
Los datos se muestran en la tabla adjunta. (Solución: χ2exp = 4,18; La obesidad y
precocidad en la escuela no son independientes)
Éxito\Sobrepeso SI NO
SI 162 263
NO 38 37
5. En 5 zonas de la provincia de Granada (Ladihonda y Fazares, zonas muy secas y
Cortijuela, Molinillo y Fardes, zonas húmedas) se hacen una serie de mediciones de
la longitud de las hojas de las encinas a lo largo de 3 años consecutivos: 1995, muy
seco y 1996 y 1997, muy lluviosos. Los datos se muestran a continuación ¿Se puede
admitir que la longitud de las hojas de encina se distribuye normalmente?
Longitud: 26,51; 30,17; 34,24; 31,04; 34,99; 30,48; 25,07; 25,04; 29,16; 35,12; 25,41;
27,02; 23,04; 27,69; 34,71 (Solución: La longitud de las hojas sigue una distribución
Normal).
6. Tiramos un dado 720 veces y obtenemos los siguientes resultados. Contrástese la
hipótesis de que el dado está bien construido al nivel de significación α = 0,01. (Sol:
χ2exp = 0,683; Si está bien construido)
xi 1 2 3 4 5 6
ni 116 120 115 120 125 124
7. Para comprobar las leyes de Mendel, cruzamos guisantes obteniendo los siguientes
resultados
amarillos amarillos verdes verdes
lisos rugosos lisos rugosos
No de guisantes 262 91 86 31
Las proporciones esperadas son: 9, 3, 3, 1.
¿Contradicen estos resultados obtenidos las proporciones esperadas? Estúdiese al
nivel de significación del 1 %. (Sol: χ2exp = 0,498. No los contradice).
8. Se realiza un estudio para investigar el efecto de la presencia de una gran planta
industrial sobre la población de invertebrados en un río que atraviesa la planta. Se
tomaron muestras de siete especies de invertebrados en dos zonas del río: antes de la
planta “Aguas arriba” y después de la planta “Aguas abajo”. Los datos se muestran
en la siguiente tabla
344 Contrastes de hipótesis basados en la Chi-cuadrado
Zonas A B C D E F G
Aguas arriba 37 12 10 18 11 16 59
Aguas abajo 19 10 7 20 8 12 24
. Se pide: a) ¿Se puede admitir que el tipo de especies de vertebrados está relacionado
con la situación respecto de la planta de “Aguas arriba del río”?; b) ¿Se puede
admitir relación entre la situación respecto a la planta de la zona del río y el tipo
de especies halladas en ella? (Soluciones: a) el tipo de especies de vertebrados está
relacionado con la situación respecto de la planta de “Aguas arriba del río”; b) la
situación respecto a la planta de las dos zonas del río es independiente del tipo de
especies halladas en ellas).
9. Ante una epidemia se desea contrastar si padecer la enfermedad es independiente
de una vacunación previa. Para ello, se toma una muestra de 300 personas y se
obtuvieron los siguientes resultados. (Sol: χ2exp = 2,257 < χ2α = 3,84. Si son inde-
pendientes)
Vacunados\Enfermos SI NO Total
SI 40 110 150
NO 52 98 150
Total 92 208 300
10. Los resultados de una encuesta realizada con el fin de determinar, si la edad de
los individuos influye a la hora de contraer una determinada enfermedad, fueron
los dados en la tabla adjunta. ¿Se puede admitir la hipótesis de que el número de
individuos que contraen la enfermedad, es independiente de la edad? (Sol: χ2exp =
29,316 > χ2α = 9,4. No).
Contraen la enfermedad
EDAD SI NO
menos de 15 años 38 44
15 − 30 45 28
30 − 45 30 54
45 − 60 22 62
más de 60 años 20 57
Total 155 245
11. A la mitad de los 160 enfermos de un hospital se les somete a un determinado
tratamiento adicional T, contabilizándose al cabo de un cierto tiempo que entre
estos se han recuperado 63, mientras que de los no tratados solamente se han re-
cuperado 57. Contrástese la hipótesis de que la curación es independiente de la
11.4 Ejercicios propuestos: Relación XI 345
aplicación del tratamiento T, al nivel de significación α = 0,05. (Sol: χ2exp = 1,2. Si
son independientes.)
12. Contrástese la hipótesis H0 de que la proporción de estudiantes suspendidos en
Bioestadística por los 4 profesores de dicha asignatura fue la misma, para un nivel
de significación del 5 %, si una vez entregadas las actas los resultados fueron los
dados en la tabla adjunta. (Sol: χ2exp = 2,928, No se rechaza H0 ).
Prof. A Prof. B Prof. C Prof. D Total
APROBADOS 150 141 168 152 611
SUSPENSOS 30 40 32 37 139
Total 180 181 200 189 750
13. La observación de 302 individuos procedentes de la segunda generación de pares de
raza pura diferenciados por dos pares de caracteres alelomorfos AALL, VVRR, en
los que los caracteres A y L son dominantes, han dado los resultados que figuran
en la tabla adjunta. ¿Se puede considerar que el crecimiento ha seguido las leyes de
Mendel con un nivel de confianza del 95 %? (Sol: χ2exp = 1,50. Si se puede considerar).
FENOTIPO FENOTIPO FENOTIPO FENOTIPO
AL VL AR VR
No individuos 161 61 63 17
14. El rendimiento de la cosecha de un cereal se considera: muy bueno, si la producción
es superior a 25 Kgrs. por área de cultivo, bueno si es superior a 15 Kgrs. y malo
si no llega a 15 Kgrs. Se hacen 30 determinaciones del rendimiento en otras tantas
parcelas donde se ha sembrado cereal de tipo A, y 30 determinaciones en parcelas
donde se sembró un cereal de tipo B. Los resultados son los dados en la tabla adjunta.
¿Son igualmente efectivos para el cultivo los dos tipos de cereales A y B? (Sol:
χ2exp = 1,134. Si son igualmente de efectivos)
Rendimiento\Tipo cereal A B
MUY BUENO 10 12
BUENO 14 10
MALO 6 8
15. En la tabla adjunta se reflejan las notas de Bioestadística y Fisiología de una mues-
tra de 100 alumnos. Para un nivel de significación α = 0,01, ¿Son independientes las
346 Contrastes de hipótesis basados en la Chi-cuadrado
calificaciones obtenidas en ambas asignaturas? (Sol: χ2exp = 26,915. Si son indepen-
dientes).
Bioestadística
Sobres. Notable Aprobad. Suspenso
Sobres. 10 6 4 4
Fisiología Notable 6 4 8 6
Aprobado 4 18 3 4
Suspenso 6 2 6 9
16. Para curar una cierta enfermedad, se sabe que existen 5 tratamientos diferentes. Apli-
cados por separado, cada uno, a un grupo de enfermos que padecen esa enfermedad,
se han observado los resultados dados en la tabla adjunta. ¿Se puede considerar que
la eficacia de los 5 tratamientos es la misma, con un nivel de confianza del 95 %?
(Sol: χ2exp = 5,156. Si se puede considerar).
CURADOS NO CURADOS TOTAL
TRATAMIENTO A 61 15 76
TRATAMIENTO B 50 14 64
TRATAMIENTO C 63 18 81
TRATAMIENTO D 66 23 89
TRATAMIENTO E 60 30 90
TOTAL 300 100 400
17. Se realizó una encuesta a 300 antiguos pacientes de tres hospitales sobre si esta-
ban satisfechos con los cuidados que recibieron cuando estaban hospitalizados. Los
resultados fueron los siguientes:
Satisfechos No-satisfechos Total fila
Hospital A 47 53 100
Hospital B 40 60 100
Hospital C 27 73 100
total columna 114 186 300
Contrastar la hipótesis que las tres poblaciones son homogéneas con respecto a la
satisfacción con los cuidados hospitalarios.(Sol: χ2exp = 8,74; Se rechaza H0 ; por lo
tanto, las tres poblaciones no parecen ser homogéneas con respecto a la característica
que se investiga).
11.5 Comentarios bibliográficos 347
11.5. Comentarios bibliográficos
Pierre de Fermat
Nacido el 17 de agosto de 1601 en Beaumont-de-Lomagne, Francia
Muere el 12 de enero de 1665 en Castres, Francia
Pierre de Fermat nacido el 17 de agosto de 1601 en Beaumont-de-Lomagne, una ciudad
situada a 58 kilómetros al noroeste de Toulouse (Francia), fue un destacado jurista y
matemático francés. La mansión del siglo XV donde nació es en la actualidad un museo.
La escuela más antigua y prestigiosa de Toulouse se llama Pierre de Fermat y en ella se
imparten clases de ingeniería y comercio. Está situada entre las diez mejores de Francia
para clases preparatorias.
Fermat era un matemático que trabajaba la mayor parte del tiempo en soledad. Su
único contacto con el resto de la comunidad matemática fue gracias a Marin Mersenne.
Cabe destacar también un breve intercambio de cartas con Blaise Pascal. Los resultados
de Fermat fueron conocidos por otros pensadores europeos gracias a Mersenne, que los
reenvió e hizo una amplia distribución.
Fermat es mejor conocido por su Enigma, una abstracción del teorema de Pitágoras,
también conocido como último Teorema de Fermat, que torturó a los matemáticos
durante aproximadamente 350 años, hasta que fue resuelto en 1995. Junto con René
Descartes, Fermat fue uno de los líderes matemáticos de la primera mitad del siglo XVII.
Independientemente de Descartes, descubrió el principio fundamental de la geometría
analítica. A través de su correspondencia con Blaise Pascal, fue co-fundador de la teoría
de probabilidades.
Fermat es uno de los pocos matemáticos que cuentan con un asteroide con su
nombre, (12007) Fermat. También se le ha dado la denominación de Fermat a un
cráter lunar de 39 km de diámetro.
348 Contrastes de hipótesis basados en la Chi-cuadrado
Asistió a la Universidad de Toulouse antes de mudarse a Burdeos durante la segunda
mitad de la década de 1620. En Burdeos comenzó sus primeras investigaciones científicas
serias y en 1629 realizó la restauración del Plane loci de Apolonio. Sin duda estuvo en
contacto con Beaugrand en Burdeos y durante esa época produjo importantes trabajos
sobre máximos y mínimos que le entregó a Étienne d’Espagnet quien compartía con Fermat
sus intereses matemáticos.
Desde Burdeos, Fermat fue a Orleáns donde estudió leyes en la Universidad, obtuvo
el grado en ley civil. En 1631, Fermat era abogado y oficial gubernamental en Toulouse y
gracias al puesto que ocupaba tuvo el derecho de cambiar su nombre de Pierre Fermat a
Pierre de Fermat.
Desde su nombramiento el 14 de mayo de 1631, Fermat trabajó en la cámara baja
del parlamento pero el 16 de enero de 1638 fue nombrado a la cámara alta; en 1652 fue
promovido al nivel más alto de la corte criminal.
Fermat sufrió la peste y en 1653 su muerte fue erróneamente anunciada y después
corregida: “Le informé antes de la muerte de Fermat. Él está vivo y ya no tememos por
su salud, aunque lo habíamos contado entre los muertos no hace mucho.”
Fermat mantuvo su amistad matemática con Beaugrand después de mudarse a Toulouse
pero allí encontró un nuevo amigo matemático, Carcavi. Fermat lo conoció profesional-
mente ya que ambos eran consejeros en Toulouse.
En 1636 Carcavi fue a Paris como bibliotecario real y contactó con Mersenne y su
grupo. Las descripciones que Carcavi hizo de los descubrimientos de Fermat sobre "la
caida libre", despertaron el interés de Mersenne, quien le escribió a Fermat. Éste contestó
el 26 de abril de 1636 y, además de hablarle a Mersenne sobre errores que él creía que
había hecho Galileo en su descripción de la caída libre, también se refirió a su trabajo
sobre espirales y a su restauración del Plane loci de Apolonio.
Su reputación como uno de los principales matemáticos del mundo creció rápidamente
pero los intentos de publicar su obra fracasaron, sobre todo porque Fermat nunca quiso
realmente pulir sus trabajos. Sin embargo, algunos de sus métodos sí fueron publicados;
por ejemplo, Hérigone añadió un suplemento con los métodos de Fermat para máximos y
mínimos a su obra más importante, Cursus mathematicus. La amplísima correspondencia
entre Fermat y otros matemáticos no encontró elogios generalizados. Frenicle de Bessy se
molestó con los problemas de Fermat que él encontraba imposibles. Le escribió enojado
pero, aunque Fermat le dio más detalles en su contestación, Frenicle de Bessy creía que
Fermat se estaba casi burlando de él.
A pesar de esto, Fermat pronto se vio involucrado en una controversia con un matemáti-
co mucho más importante que Frenicle de Bessy. Beaugrand le había enviado una copia
de La Dioptrique de Descartes a la cual Fermat le puso poca atención ya que estaba
ocupado con su correspondencia con Roberval y Étienne Pascal sobre los métodos de in-
tegración y usándolos para encontrar centros de gravedad. Mersenne le pidió que le diera
11.5 Comentarios bibliográficos 349
su opinión sobre La Dioptrique, obra que Fermat describió diciendo que: “anda a tientas
en la obscuridad ”.
Fermat afirmó que Descartes no había deducido correctamente su ley de la refracción
ya que era inherente a sus supuestos. Descartes atacó el método de Fermat para máxi-
mos, mínimos y tangentes. Roberval y Étienne Pascal se involucraron en la discusión y
finalmente también lo hizo Desargues, a quien Descartes pidió que actuara como árbitro.
Se demostró que Fermat estaba en lo correcto y al final Descartes lo admitió, escribiendo
que:
“al ver el último método que usted usa para encontrar tangentes a líneas curvas, no
puedo contestar más que es muy bueno y que, si lo hubiera explicado de este modo desde
el principio, nunca lo hubiera contradicho”.
¿Fue esto el fin del asunto y aumentó la fama de Fermat? En absoluto ya que Descartes
trató de dañar la reputación de Fermat. Aunque le escribió a Fermat alabando su trabajo
para determinar la tangente de una cicloide y añadiendo que era correcto. Descartes le
escribió a Mersenne afirmando que era erróneo y diciendo que Fermat era pobre como
matemático y pensador. Descartes era importante y respetado y por ello logró dañar
severamente la reputación de Fermat.
Fermat dejó muchas proposiciones sin demostrar, pero nunca se demostró que Fermat
se equivocara. Los matemáticos han logrado demostrar casi todas las proposiciones que
dejó sin demostrar. Solo quedaba pendiente el teorema conocido como el Último teorema
de Fermat, que establece que para n > 2 no es posible la siguiente ecuación: an +bn = cn .
Ejemplos fáciles para n=2 son: 62 + 82 = 102; 32 + 42 = 52.
El enunciado de este teorema quedó anotado en un margen de su ejemplar de la Arit-
mética de Diofanto de Alejandría. La nota de Fermat fue descubierta póstumamente por
su hijo Clemente Samuel, quien en 1670 publica este Libro con las numerosas notas en
los márgenes que había hecho Fermat.
Concretamente Fermat escribió en el margen de la edición de La Aritmética de Bachet
lo siguiente:
«Es imposible descomponer un cubo en dos cubos, un bicuadrado en dos bicuadrados,
y en general, una potencia cualquiera, aparte del cuadrado, en dos potencias del mismo
exponente. He encontrado una demostración realmente admirable, pero el margen del libro
es muy pequeña para ponerla.
Recientemente, en 1994, Andrew John Wiles demostró este teorema. Por dicha
demostración se ofrecieron cifras millonarias durantes años.
350 Contrastes de hipótesis basados en la Chi-cuadrado
Wiles nació el 11 de abril de 1953 en Cambridge, Inglaterra. Según afirma el propio
Wiles, su interés por este teorema surgió cuando era muy pequeño. Tenía 10 años y un
día encontré un libro de Matemática en la biblioteca pública que contaba la historia de
un problema que yo a esa edad pude entender. Desde ese momento traté de resolverlo, era
un desafío, un problema hermoso, este problema era el Último teorema de Fermat.
En 1971 Wiles ingresó en el Merton College, Oxford y se graduó en 1974. Posteri-
ormente ingresó en el Clare College de Cambrige para hacer su doctorado. Para explicar
su demostración sobre el enunciado de Fermat, estuvo dos días dando una conferencia a
los mas grandes matemáticos de la época. Era tan larga que debió partir su explicación
en dos conferencias.
Fermat, tenía razón.
Autora: Ana María Lara Porras