Tema 9
INTRODUCCIÓN A LA
INFERENCIA NO
PARAMÉTRICA
Hasta ahora se suponı́a conocida la distribución de la variable bajo estudio salvo algún
parámetro y, por tanto, se aplicaban conceptos de inferencia paramétrica. No obstante,
en la práctica, no se suele conocer la forma funcional de la distribución y, en dicho caso,
no se puede hacer inferencia paramétrica.
Por ello es necesario poder obtener conclusiones sobre la distribución de la variable
aleatoria a partir de las observaciones sin conocer la forma funcional, lo cual es uno de los
problemas que se estudian dentro de la inferencia no paramétrica. Aunque no se conozca
la forma funcional si se suele tener información de tipo general sobre la variable: si es
discreta o continua, simetrı́a, curtosis, etc.
Aunque existen procesos de estimación no paramétricos, en este tema se van a estudiar
solamente cuestiones de contrastes de hipótesis.
9.1. Problemas de bondad de ajuste
El problema de bondad de ajuste trata de decidir, en base a la información que pro-
porciona una m.a.s. de una variable aleatoria, si se puede admitir que la distribución de
la variable es una concreta (ejemplo: N (0, 1), exp(3)) o bien si pertenece aun cierto tipo
de distribuciones (ejemplo: normal, exponencial). Es decir, es un problema de bondad de
ajuste de los datos observados a una distribución especificada.
En particular se va a contrastar si una muestra proviene de una población con una fun-
ción de distribución especı́fica, F0 , frente a que dicha función de distribución sea diferente
(F (x) 6= F0 (x) para algún x ∈ R).
Las dos soluciones más frecuentes para resolver este contraste son:
1
9.1 Problemas de bondad de ajuste
Test χ2 de Pearson (1900). Es el primero que surge históricamente y se puede aplicar
a variables de tipo discreto, continuo y cualitativo. Este test lo único que tiene en
cuenta es una clasificación de las observaciones muestrales en distintas categorı́as.
Test de Kolmogorov-Smirnov. Este test se basa en el teorema de Glivenko-Cantelli.
9.1.1. Test χ2 de Pearson
Sea (X1 , . . . , Xn ) una m.a.s. de una variable aleatoria X que se distribuye según una
función de distribución F que es completamente desconocida.
H0 : F = F0
A) Hipótesis nula simple:
H1 : F 6= F0
Para resolver este problema se parte el recorrido de la función teórica correspon-
diente a F0 en k subconjuntos A1 , . . . , Ak de probabilidad no nula y se consideran
las siguientes probabilidades Pi0 = PF0 [X ∈ Ai ] > 0, i = 1, . . . , k. Sea Ni el número
de observaciones muestrales en cada Ai , i = 1, . . . , k. Entonces el estadı́stico para el
contraste es
k k
!
0 2 2
X (Ni − np i ) X N i
χ2 (N1 , . . . , Nn ) = 0
= −n + 0
i=1
np i i=1
np i
donde np0i es el número de observaciones muestrales que cabrı́a esperar en Ai si H0
es cierta.
Este estadı́stico es una medida de la discrepancia entre las observaciones reales en
cada clase y el número que deberı́a de haber si H0 fuera cierta.
Pearson demostró que bajo H0 este estadı́stico tiene distribución asintótica,
χ2 (X1 , . . . , Xn ) n→∞ χ2 (k − 1).
El Test asintótico para H0 : F = F0 , de tamaño α, es:
1 χ2 (N1 , . . . , Nk ) ≥ χ2k−1;α
ϕ(X1 , . . . , Xn ) =
0 χ2 (N1 , . . . , Nk ) < χ2k−1;α
con
p − valor = PH0 [χ2 (N1 , . . . , Nk ) ≥ χ2exp ] ≈n→∞ P [χ2 (k − 1) ≥ χ2exp ]
siendo χ2exp el valor de estadı́stico en la muestra observada. Entonces, se rechaza H0
si el p − valor es menor o igual que α.
2
9. Introducción a la inferencia no paramétrica.
Notas:
• Este test, como ya se ha especificado, es un test asintótico, por lo tanto, habrá
que especificar cómo tiene que ser n para poder usar el test. Usualmente se
considera como restricción para la aplicación del test que np0i ≥ 5, i = 1, . . . , k.
• Si se plantean como hipótesis nula H0 : F = F0 ó H00 : F = F00 , y tanto F0
como F00 asignan la misma probabilidad a todos los Ai , i = 1, . . . , k, este test
no distingue entre F0 y F00 . Para solucionar este problema se considerarán al
menos 5 clases. En tal caso ∃i : p0i ≤ 1/5 ⇒ n ≥ 25. (Para hacer particiones
“buenas” se pueden usar los percentiles).
• Este test es aplicable a cualquier tipo de variable cuyos valores puedan clasifi-
carse en un número finito de categorı́as pero es más apropiado para variables
cualitativas ya que ellas son propiamente categóricas.
B) Hipótesis nula compuesta:
En muchos casos, la hipótesis nula H0 no especifica una única distribución F0 , sino
una familia de distribuciones posibles (p.e., una normal con parámetros descono-
cidos, etc), dependientes de uno o varios parámetros. En dicho caso no se puede
aplicar directamente el test χ2 . Será necesario tener una estimación previa de los
parámetros. Por tanto:
i) Primero se estiman los parámetros de la familia especificada en H0 , usualmente
por máxima verosimilitud.
ii) Después se aplica el test con los parámetros ya estimados.
La distribución del estadı́stico del contraste depende de cómo se hayan obtenido las
estimaciones. En particular, si los parámetros se estiman partiendo de observaciones
independientes de las que se van a usar para el problema de contraste, se usa χ2
igual que antes. Sin embargo, si se usan para el contraste los mismos datos que para
la estimación, los pbi dependen de las observaciones, y la distribución del estadı́stico
bajo H0 varı́a:
k
X pi )2
(Ni − nb
b2 (N1 , . . . , Nn ) =
χ −→ χ2 (k − q − 1)
i=1
nb
pi
donde q es el número de parámetros estimados.
Este test tiene una serie de inconvenientes:
Es un test asintótico y, por tanto, aproximado.
3
9.1 Problemas de bondad de ajuste
No trata los datos individualmente, sino por categorı́as. Por tanto, no usa toda la
información contenida en la muestra. Por ello no es un buen test para variables
aleatorias continuas.
El siguiente test es un test exacto, no asintótico, válido para variables aleatorias con-
tinuas y trata todos los datos de forma individual.
Ejemplo: Se recoge una muestra aleatoria simple de 30 tornillos producidos por cierta
máquina y se mide su longitud, obteniéndose:
10.39 10.66 10.12 10.32 10.25 10.52 10.83 10.72 10.28 10.35
10.46 10.54 10.23 10.18 10.62 10.49 10.61 10.64 10.29 10.78
10.81 10.34 10.75 10.41 10.53 10.31 10.47 10.43 10.57 10.74
Contrastar si estos datos avalan que la distribución de la longitud de los tornillos es
normal.
9.1.2. Test de Kolmogorov-Smirnov
El test de Kolmogorov-Smirnov se basa en el teorema de Glivenko-Cantelli que, como
ya se estudió, proporciona la convergencia casi segura uniformemente de la función de
distribución muestral o empı́rica (FX∗ 1 ,...,Xn ) a la función de distribución de la variable
aleatoria (F ).
Para resolver el problema planteado se considera (X1 , . . . , Xn ) una m.a.s. de una va-
riable aleatoria X continua que se distribuye según una función de distribución F que es
completamente desconocida. El contraste a resolver es
H0 : F = F0
H1 : F 6= F0
Para resolver este problema se usa el estadı́stico de Kolmogorov-Smirnov
D(X1 , . . . , Xn ) = sup |FX∗ 1 ,...,Xn (x) − F0 (x)|
x∈R
el cual proporciona una medida de la discrepancia entre FX∗ 1 ,...,Xn y F0 . Por tanto, teniendo
en cuenta que la distribución muestral converge uniformemente a la distribución teórica,
se rechazará la hipótesis nula, si el valor de D(X1 , . . . , Xn ) es grande. Es decir, el test de
Kolmogorov-Smirnov serı́a:
1 D(X1 , . . . , Xn ) ≥ dα
ϕ(X1 , . . . , Xn ) =
0 D(X1 , . . . , Xn ) < dα
donde dα verifica:
PH0 (D(X1 , . . . , Xn ) ≥ dα ) = α
4
9. Introducción a la inferencia no paramétrica.
y
p − valor = PH0 [D(X1 , . . . , Xn ) ≥ Dexp ]
siendo Dexp el valor de estadı́stico en la muestra observada.
Teorema: Si F0 es continua:
(a) La distribución de D(X1 , . . . , Xn ) es independientes de F0 .
(b) D(X1 , . . . , Xn ) H0 Z de Kolmogorov.
(c) Si las n observaciones son distintas, entonces
Dexp = máx{máx[FX∗ 1 ...,Xn (xi ) − F0 (xi )], máx[F0 (xi ) − FX∗ 1 ,...,Xn (xi− )]}
xi xi
Notas:
1. Existe otra expresión de D(X1 , . . . , Xn ) para observaciones iguales, aunque esto
es poco probable por ser la distribución continua. Si ocurriera, por redondeos, se
eliminan del estudio los elementos iguales para asegurarse que las observaciones sean
distintas.
2. Si la distribución con la que se quiere comparar no está totalmente determinada, al
igual que en el test χ2 , se pueden estimar los parámetros de la distribución, lo cual
varı́a la distribución de D(X1 , . . . , Xn ). Hay modificaciones del test de Kolmogorov-
Smirnov, como el test de Lilliefors, para estos casos. Sin embargo, otra opción acep-
table es usar el test de la χ2 para dichos casos.
Ejemplo: Se supone que el tiempo de reacción a un determinado compuesto se distribuye
según una N (10.5; 0.152 ). Contrastar si los siguientes datos, obtenidos en un muestreo
aleatorio simple de 10 individuos a los que se ha administrado el compuesto, proporcionan
evidencia para rechazar esta hipótesis:
10.39 10.66 10.12 10.32 10.25 10.52 10.83 10.72 10.28 10.35.
9.2. Problema de localización
Se van a usar tests de localización para resolver problemas de contrastes de hipótesis
relativos a medidas de posición (mediana o cuantiles en general). En concreto, los posibles
contrastes sobre la mediana son:
H0 : MX = m H0 : MX = m H0 : MX = m
H1 : MX 6= m H1 : MX > m H1 : MX < m
y se van a utilizar dos tests para resolverlos:
5
9.2 Problema de localización
Test de los signos de Fisher: se aplica sólo a variables aleatorias de tipo continuo y
se generaliza fácilmente a contraste de hipótesis sobre cuantiles.
Test de rangos signados de Wilcoxon: usa más información muestral que el de Fisher
pero exige, además de continuidad, simetrı́a en la distribución.
9.2.1. Test de los signos de Fisher
Sea X1 , . . . , Xn m.a.s. de X ∼ F continua (desconocida).
Idea intuitiva: Es de esperar que, si H0 es cierta, aproximadamente la mitad de los valores
muestrales queda por encima de m y la otra mitad por debajo (concuerda con la idea de
convergencia de cuantiles muestrales a cuantiles poblacionales), también con el hecho de
que F (MX ) = 1/2.
Se puede definir el estadı́stico del test de los signos:
T (X1 , . . . , Xn ) =número de observaciones muestrales mayores que m
=nº de signos positivos en (Xi − m) H0 B(n, 1/2)
Las regiones crı́tica del test, según el contraste plateado son:
Para H1 : MX > m, se rechaza H0 para
Texp (= T (x1 , . . . , xn )) ≥ k : PH0 [T (X1 , . . . , Xn ) ≥ k] ≤ α.
Otra opción es calcular el p − valor = PH0 [T (X1 , . . . , Xn ) ≥ Texp ].
Para H1 : MX < m, se rechaza H0 para
Texp ≤ k : PH0 [T (X1 , . . . , Xn ) ≤ k] ≤ α.
Otra opción es calcular el p − valor = PH0 [T (X1 , . . . , Xn ) ≤ Texp ].
Para H1 : MX 6= m, se rechaza H0 para
Texp ≤ k ó Texp ≥ n − k : PH0 [T (X1 , . . . , Xn ) ≤ k] ≤ α/2.
Otra opción es calcular el
2PH0 [T (X1 , . . . , Xn ) ≤ Texp ] si Texp ≤ n/2
p − valor =
2PH0 [T (X1 , . . . , Xn ) ≥ Texp ] si Texp ≥ n/2
6
9. Introducción a la inferencia no paramétrica.
Notas:
1. Este test se puede aleatorizar.
2. Si algún valor de la muestra coincide con m, (Xi − m = 0), dicho dato se elimina y
se reajusta el tamaño de la muestra, n.
3. Para n grande (n ≥ 20) se puede emplear la aproximación normal a la distribución
binomial para determinar los puntos crı́ticos (k), pero serı́a un test asintótico:
2T (X1 , . . . , Xn ) − n
B(n, p) ≈ N (np, npq) ⇒ √ ∼ N (0, 1)
n
4. El test se puede generaliza a tests sobre cuantiles de cualquier orden.
Ejemplo: Una empresa que tradicionalmente comenzaba su actividad diaria a las 9 h. ha
cambiado su horario para abrir a las 8 h. y se pregunta si ello ha afectado significativamente
al retraso de sus empleados. Es aceptable pensar que la forma de la distribución de los
retrasos no ha variado con el cambio de horario, pero se teme que se haya desplazado
hacia la derecha, lo cual supondrá un incremento del tiempo perdido. Se sabe, además,
que la mediana de los retrasos de los empleados era inicialmente de 5 minutos. Con el
cambio de horario se selecciona a 12 empleados y se observa, en determinados dı́as, los
siguientes retrasos (en minutos):
2.5, 1.2, 7, 1.8, 8.3, 6.8, 5.2, 3.4, 4.7, 6.2, 9.1, 5.2
A partir de estos datos, contrastar la hipótesis de que la distribución de los retrasos no
ha variado con el cambio de horario.
9.2.2. Test de los rangos signados de Wilcoxon
Este test sólo se puede aplicar en el caso en que se conoce que la distribución, además
de continua, es simétrica. Wilcoxon propuso un test para contrastar H0 : MX = m, que
además de tener en cuenta la diferencia, tiene en cuenta la magnitud de la misma, por lo
que es un test muy potente. El problema de este test es que necesita que la distribución
sea simétrica y que los datos sean exactos.
Sea X1 , . . . , Xn una m.a.s. de X, v.a. con distribución continua y simétrica (alrededor
de la mediana) y sea Di = Xi − m, i = 1, . . . , n. Si algún Di es 0, se elimina ese dato y se
reajusta el número de datos n.
El método propuesto por Wilcoxon consiste en ordenar de forma creciente los valores
absolutos de estas diferencias (|Di |) y anotar el rango o lugar que ocupan (r(|Di |)), de ahı́
7
9.2 Problema de localización
el nombre del test. Si hubiera empates, es decir si hubiera datos repetidos, se le asigna a
cada uno el promedio de los rangos.
Basándose en esta idea, se define el estadı́stico del test de Wilcoxon como:
n
X
T + (X1 , . . . , Xn ) = suma de los rangos de los Di positivos = r(|Di |)I{Di > 0}
i=1
n(n + 1)
La distribución de T + (X1 , . . . , Xn ) bajo H0 es simétrica en torno a la media y
4
viene dada por:
+ + n(n + 1)
P [T (X1 , . . . , Xn ) = t] = P T (X1 , . . . , Xn ) = −t
2
Si n ≤ 15, la distribución bajo H0 está tabulada para ambas colas. Si n > 15, se puede
aproximar asintóticamente la distribución de T + (X1 , . . . , Xn ), bajo H0 , por
+ n(n + 1) n(n + 1)(2n + 1)
T (X1 , . . . , Xn ) ≈ N , .
4 24
Las regiones crı́ticas del test según el contraste planteado son:
Si H1 : MX > m es cierta, cabe esperar que haya más diferencias mayores que 0 que
menores que 0 y que la magnitud de las que son mayores que 0 sea mayor que la
magnitud de las que son menores que 0. Por tanto se rechaza H0 si T + (X1 , . . . , Xn )
es grande: Para un nivel de significación α se rechaza H0 si
+
Texp (= T + (x1 , . . . , xn )) ≥ k
con P [T + (X1 , . . . , Xn ) ≥ k] ≤ α.
En general se calcula el p − valor = PH0 [T + (X1 , . . . , Xn ) ≥ Texp
+
].
Si H1 : MX < m es cierta, cabe esperar lo contrario que antes. Por tanto se rechaza
H0 si T + (X1 , . . . , Xn ) es pequeño: Para un nivel de significación α se rechaza H0 si
+
Texp ≤k
con P [T + (X1 , . . . , Xn ) ≤ k] ≤ α.
En general se calcula el p − valor = PH0 [T + (X1 , . . . , Xn ) ≤ Texp
+
].
Si H1 : MX 6= m es cierta, se rechaza H0 para valores pequeños o grandes de
T + (X1 , . . . , Xn ): Para un nivel de significación α se rechaza H0 si
+ + n(n + 1)
Texp ≤ k o Texp ≥ −k
2
8
9. Introducción a la inferencia no paramétrica.
con P [T + (X1 , . . . , Xn ) ≤ k] ≤ α/2.
En general se calcula el p − valor:
2PH0 [T + (X1 , . . . , Xn ) ≥ Texp
+ + n(n + 1)
] si Texp ≥
p − valor = 4
2PH0 [T + (X1 , . . . , Xn ) ≤ Texp
+ + n(n + 1)
] si Texp ≤
4
Ejemplo: A partir de los datos del ejemplo anterior, y suponiendo que la distribución
de los retrasos es simétrica, contrastar la hipótesis de que ésta no varı́a con el cambio de
horario.
Nota: Los tests de localización se usan también para contrastar la hipótesis de homo-
geneidad de las distribuciones correspondientes a dos muestras apareadas o relacionadas
cuando se tiene constancia de que las distribuciones tienen la misma forma funcional pero
una está desplazada respecto de la otra. En dicho caso se toma la variable diferencia y
H0 : MX−Y = 0. Para aplicar cada test deberá comprobarse primeramente que se está
bajo las condiciones necesarias.
9.3. Problema de independencia: test χ2
El problema de independencia relativo a dos muestras trata, como su nombre indica,
de ver si dos variables, referidas a una misma población son independientes o no. Sean X
e Y dos caracterı́sticas poblacionales distintas. Se va a contrastar:
H0 : X e Y son independientes
H1 : X e Y no son independientes
Para resolver este contraste se va a utilizar el test χ2 de independencia.
Test χ2 de independencia
Sean X e Y dos variables cualitativas, teniendo X las categorı́as A1 , . . . , Am , e Y
las B1 , . . . , Bk . Para resolver el problema de contraste H0 : X e Y son independientes, se
toma una m.a.s. de individuos y se clasifican los individuos según las categorı́as de X e
Y . Sea Nij el número de individuos de la muestra que presentan las categorı́as Ai y Bj ,
∀i = 1, . . . , m, ∀j = 1, . . . , k.
Con dichos datos muestrales se construye la tabla de contingencia muestral (reparto
de la muestra por categorı́as bidimensionales, totales, marginales y total global).
9
9.3 Problema de independencia: χ2
X\Y B1 B2 ... Bk Totales
A1 N11 N12 ... N1k N1·
A2 N21 N22 ... N2k N2·
.. .. .. .. ..
. . . . .
Am Nm1 Nm2 . . . Nmk Nm·
Totales N·1 N·2 . . . N·k n
donde Ni· = kj=1 Nij y N·j = m
P P
i=1 Nij .
Sean Pij = P [X ∈ Ai , Y ∈ Bj ], Pi· = P [X ∈ Ai ] y P·j = P [Y ∈ Bj ], ∀i = 1, . . . , m,
∀j = 1, . . . , k. El estadı́stico del contraste es:
m X k
X (Oij − Eij )2
i=1 j=1
Eij
siendo Oij la frecuencia observada y Eij la frecuencia esperada.
Una forma de plantear la hipótesis nula, basada en las frecuencias, es H0 : Pij = Pi· P·j ,
ya que la independencia de dos variables se caracteriza porque su frecuencia conjunta
sea igual al producto de sus frecuencias marginales. Por lo tanto, bajo H0 la frecuencia
esperada Eij = nPij quedarı́a Eij = nPi· P·j .
Por otro lado, ya que las frecuencias teóricas Pij , Pi· y P·j , en general, no son cono-
cidas, se trabajará con sus estimaciones máximo verosı́miles: Pbij = Nij /n, Pbi· = Ni· /n y
Pb·j = N·j /n. Finalmente, la frecuencia observada Oij = Nij . Teniendo en cuenta todo esto
se llega a que el estadı́stico del contraste es:
m X
k Ni· N·j 2
2
X (Nij − n
)
χ (Nij ) = Ni· N·j
i=1 j=1 n
que bajo H0 tiene la distribución asintótica χ2(m−1)(k−1) .
Al nivel de significación α se rechaza H0 si
χ2exp ≥ χ2(m−1)(k−1);α ,
siendo χ2exp = χ2 (x1 , . . . , xn ) y PH0 [χ2 (Nij ) ≥ χ2(m−1)(k−1);α ] = α.
El p-valor es PH0 [χ2 (Nij ) ≥ χ2exp ].
Notas
Los requisitos mı́nimos para poder usar la distribución asintótica indicada son:
• Las frecuencias esperadas deben ser mayores o iguales que 2.
ni. n.j
≥2
n
10
9. Introducción a la inferencia no paramétrica.
• Hay que asegurarse que al menos el 80 % de las frecuencias esperadas sea ma-
yores o iguales a 5.
Si no es ası́, se debe aumentar el tamaño de la muestra.
Para aplicar el test de χ2 de independencia a dos v.a. cualesquiera, no cualitativas, se
agrupan los valores de cada variable en un número finito de categorı́as que respeten
las condiciones necesarias para poder aplicar el test.
Ejemplo: Para estudiar si el grupo sanguı́neo de los individuos tiene relación con la
predisposición a la diabetes, se han seleccionado al azar 400 sujetos a los que se ha
determinado el grupo sanguı́neo y el nivel de glucosa en sangre en idénticas condiciones
experimentales. Clasificando la segunda medida en tres niveles, los resultados han sido:
Grupo\ Nivel Bajo Medio Alto
O 137 86 35
A 42 23 11
B 19 17 7
AB 14 7 2
Contrastar, al nivel de significación 0.05, si ambas variables son independientes.
9.4. Problema de homogeneidad: test χ2
El problema de homogeneidad consiste en estudiar si una serie de poblaciones se com-
portan de la misma forma frente a una determinada caracterı́stica. Para ello se toman
m.a.s. de cada población, se mide la caracterı́stica de interés en ellas y se trata de con-
trastar si todas las muestras proceden de variables con la misma distribución teórica. Se
va a contrastar:
H0 : F1 = . . . = Fm
H1 : Alguna distribución es distinta
Para resolver dicho contraste se va a utilizar el test χ2 de homogeneidad.
Test χ2 de homogeneidad
Este test se debe aplicar, en un principio, a caracterı́sticas de tipo cualitativo. Se van
a suponer m poblaciones, m muestras aleatorias simples, de tamaños n1 , . . . , nm y que,
en todos los casos, las variables pueden tomar valores en k categorı́as A1 , . . . , Ak . Sean
Nij el número de observaciones de la muestra i−ésima que presenta la modalidad Aj ,
i = 1, . . . , m, j = 1, . . . , k, N·j = m
P Pk Pm
i=1 Nij , ni = j=1 Nij y n = i=1 ni .
Con dichos datos muestrales se construye la tabla de contingencia muestral
11
9.4 Problema de homogeneidad: χ2
Muestras\Categorı́as A1 A2 ... Ak
1 N11 N12 ... N1k n1
2 N21 N22 ... N2k n2
.. .. .. .. ..
. . . . .
m Nm1 Nm2 ... Nmk nm
N·1 N·2 ... N·k n
Si se denota por Pij a la probabilidad de que un individuo de la muestra i−ési-
ma presente la modalidad Aj , la hipótesis nula del contraste se puede escribir como:
H0 : P1j = P2j = . . . = Pmj (= P·j ), j = 1, . . . , k. Desde el punto de vista paramétrico, este
contraste se puede ver como contrastar la igualdad de los parámetros p de m multinomia-
les de dimensión k − 1, que se puede resolver mediante el test de la razón de verosimilitud.
Como se está estudiando el caso no paramétrico, se va a resolver el contraste con el test
χ2 , pero ambos test son asintóticamente equivalentes.
Al igual que antes, el estadı́stico del contraste es:
m X k
X (Oij − Eij )2
i=1 j=1
Eij
siendo Oij la frecuencia observada y Eij la frecuencia esperada.
En este caso, bajo H0 la frecuencia esperada es Eij = ni P·j , pero como no son cono-
cidas, se trabajará con sus estimaciones máximo verosı́miles: Pb·j = N·j /n. Finalmente,
al igual que antes, la frecuencia observada es Oij = Nij , con lo que el estadı́stico del
contraste queda:
m X k nN
2
X (Nij − in ·j )2
χ = ni N·j
i=1 j=1 n
que, bajo H0 tiene la distribución asintótica χ2(m−1)(k−1) .
Al nivel de significación α se rechaza H0 si
χ2exp ≥ χ2(m−1)(k−1);α ,
siendo χ2exp = χ2 (x1 , . . . , xn ) y PH0 [χ2 (Nij ) ≥ χ2(m−1)(k−1);α ] = α.
El p-valor es PH0 [χ2 (Nij ) ≥ χ2exp ].
Notas:
Los requisitos mı́nimos para poder usar la distribución asintótica indicada son:
• Los tamaños muestrales en cada población deben ser como mı́nimo de 20.
ni ≥ 20, ∀i = 1, . . . , m.
12
9. Introducción a la inferencia no paramétrica.
• Las frecuencias esperadas deben ser mayores o iguales que 2.
ni n.j
≥2
n
• Hay que asegurarse que no más del 20 % de las frecuencias esperadas sea me-
nores a 5.
Si no es ası́, se debe aumentar el tamaño de las muestras.
A pesar de que existe una gran analogı́a con el test de independencia, el problema
que resuelve este otro test es totalmente distinto.
Para aplicar el test χ2 de homogeneidad a m variables aleatorias cualesquiera, es
decir, si se tienen X1 , . . . , Xm variables aleatorias cualesquiera y se desea contrastar
H0 : F1 = . . . = Fm , se particiona el rango de valores comunes a todas las variables
en k subconjuntos o modalidades (Aj ) de probabilidad no nula bajo todas las distri-
buciones. Se considera Pij =probabilidad de que la variable Xi ∈ Aj , ∀i = 1, . . . , m,
∀j = 1, . . . , k y se toma una m.a.s. de cada variable. Como las muestras son in-
dependientes se puede aplicar el test χ2 de homogeneidad a ellas para resolver el
contraste planteado.
Para variables no cualitativas hay tests mucho mejores, ya que el test χ2 no utiliza
los datos, sino la pertenencia a algunos intervalos.
Ejemplo: Contrastar, a partir de los resultados de la siguiente tabla, si los distintos
grupos sanguı́neos se presentan con la misma frecuencia en tres grupos étnicos diferentes:
Raza\ Grupo O A B AB
1 32 11 7 2
2 47 13 17 9
3 23 7 9 6
13