0% encontró este documento útil (0 votos)

6 vistas13 páginas

Tema 9

La inferencia no paramétrica se utiliza cuando no se conoce la distribución de la variable bajo estudio, permitiendo obtener conclusiones basadas en observaciones. Se abordan problemas de bondad de ajuste mediante tests como el χ2 de Pearson y el Kolmogorov-Smirnov, que evalúan si una muestra proviene de una distribución específica. Además, se presentan tests de localización para contrastar hipótesis sobre medidas de posición, como la mediana, utilizando métodos como el test de los signos de Fisher y el test de rangos signados de Wilcoxon.

Cargado por

Gabriel Moral Moral

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

6 vistas13 páginas

Tema 9

Cargado por

Gabriel Moral Moral

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

Tema 9

INTRODUCCIÓN A LA
INFERENCIA NO
PARAMÉTRICA

Hasta ahora se suponı́a conocida la distribución de la variable bajo estudio salvo algún
parámetro y, por tanto, se aplicaban conceptos de inferencia paramétrica. No obstante,
en la práctica, no se suele conocer la forma funcional de la distribución y, en dicho caso,
no se puede hacer inferencia paramétrica.
Por ello es necesario poder obtener conclusiones sobre la distribución de la variable
aleatoria a partir de las observaciones sin conocer la forma funcional, lo cual es uno de los
problemas que se estudian dentro de la inferencia no paramétrica. Aunque no se conozca
la forma funcional si se suele tener información de tipo general sobre la variable: si es
discreta o continua, simetrı́a, curtosis, etc.
Aunque existen procesos de estimación no paramétricos, en este tema se van a estudiar
solamente cuestiones de contrastes de hipótesis.

9.1. Problemas de bondad de ajuste

El problema de bondad de ajuste trata de decidir, en base a la información que pro-
porciona una m.a.s. de una variable aleatoria, si se puede admitir que la distribución de
la variable es una concreta (ejemplo: N (0, 1), exp(3)) o bien si pertenece aun cierto tipo
de distribuciones (ejemplo: normal, exponencial). Es decir, es un problema de bondad de
ajuste de los datos observados a una distribución especificada.
En particular se va a contrastar si una muestra proviene de una población con una fun-
ción de distribución especı́fica, F0 , frente a que dicha función de distribución sea diferente
(F (x) 6= F0 (x) para algún x ∈ R).
Las dos soluciones más frecuentes para resolver este contraste son:

1
9.1 Problemas de bondad de ajuste

Test χ2 de Pearson (1900). Es el primero que surge históricamente y se puede aplicar

a variables de tipo discreto, continuo y cualitativo. Este test lo único que tiene en
cuenta es una clasificación de las observaciones muestrales en distintas categorı́as.

Test de Kolmogorov-Smirnov. Este test se basa en el teorema de Glivenko-Cantelli.

9.1.1. Test χ2 de Pearson

Sea (X1 , . . . , Xn ) una m.a.s. de una variable aleatoria X que se distribuye según una
función de distribución F que es completamente desconocida.

H0 : F = F0
A) Hipótesis nula simple:
H1 : F 6= F0
Para resolver este problema se parte el recorrido de la función teórica correspon-
diente a F0 en k subconjuntos A1 , . . . , Ak de probabilidad no nula y se consideran
las siguientes probabilidades Pi0 = PF0 [X ∈ Ai ] > 0, i = 1, . . . , k. Sea Ni el número
de observaciones muestrales en cada Ai , i = 1, . . . , k. Entonces el estadı́stico para el
contraste es
k k
!
0 2 2
X (Ni − np i ) X N i
χ2 (N1 , . . . , Nn ) = 0
= −n + 0
i=1
np i i=1
np i

donde np0i es el número de observaciones muestrales que cabrı́a esperar en Ai si H0

es cierta.

Este estadı́stico es una medida de la discrepancia entre las observaciones reales en

cada clase y el número que deberı́a de haber si H0 fuera cierta.

Pearson demostró que bajo H0 este estadı́stico tiene distribución asintótica,

χ2 (X1 , . . . , Xn ) n→∞ χ2 (k − 1).

El Test asintótico para H0 : F = F0 , de tamaño α, es:

1 χ2 (N1 , . . . , Nk ) ≥ χ2k−1;α

ϕ(X1 , . . . , Xn ) =
0 χ2 (N1 , . . . , Nk ) < χ2k−1;α

con
p − valor = PH0 [χ2 (N1 , . . . , Nk ) ≥ χ2exp ] ≈n→∞ P [χ2 (k − 1) ≥ χ2exp ]
siendo χ2exp el valor de estadı́stico en la muestra observada. Entonces, se rechaza H0
si el p − valor es menor o igual que α.

2
9. Introducción a la inferencia no paramétrica.

Notas:

• Este test, como ya se ha especificado, es un test asintótico, por lo tanto, habrá

que especificar cómo tiene que ser n para poder usar el test. Usualmente se
considera como restricción para la aplicación del test que np0i ≥ 5, i = 1, . . . , k.
• Si se plantean como hipótesis nula H0 : F = F0 ó H00 : F = F00 , y tanto F0
como F00 asignan la misma probabilidad a todos los Ai , i = 1, . . . , k, este test
no distingue entre F0 y F00 . Para solucionar este problema se considerarán al
menos 5 clases. En tal caso ∃i : p0i ≤ 1/5 ⇒ n ≥ 25. (Para hacer particiones
“buenas” se pueden usar los percentiles).
• Este test es aplicable a cualquier tipo de variable cuyos valores puedan clasifi-
carse en un número finito de categorı́as pero es más apropiado para variables
cualitativas ya que ellas son propiamente categóricas.

B) Hipótesis nula compuesta:

En muchos casos, la hipótesis nula H0 no especifica una única distribución F0 , sino
una familia de distribuciones posibles (p.e., una normal con parámetros descono-
cidos, etc), dependientes de uno o varios parámetros. En dicho caso no se puede
aplicar directamente el test χ2 . Será necesario tener una estimación previa de los
parámetros. Por tanto:

i) Primero se estiman los parámetros de la familia especificada en H0 , usualmente

por máxima verosimilitud.
ii) Después se aplica el test con los parámetros ya estimados.

La distribución del estadı́stico del contraste depende de cómo se hayan obtenido las
estimaciones. En particular, si los parámetros se estiman partiendo de observaciones
independientes de las que se van a usar para el problema de contraste, se usa χ2
igual que antes. Sin embargo, si se usan para el contraste los mismos datos que para
la estimación, los pbi dependen de las observaciones, y la distribución del estadı́stico
bajo H0 varı́a:
k
X pi )2
(Ni − nb
b2 (N1 , . . . , Nn ) =
χ −→ χ2 (k − q − 1)
i=1
nb
pi

donde q es el número de parámetros estimados.

Este test tiene una serie de inconvenientes:

Es un test asintótico y, por tanto, aproximado.

3
9.1 Problemas de bondad de ajuste

No trata los datos individualmente, sino por categorı́as. Por tanto, no usa toda la
información contenida en la muestra. Por ello no es un buen test para variables
aleatorias continuas.

El siguiente test es un test exacto, no asintótico, válido para variables aleatorias con-
tinuas y trata todos los datos de forma individual.
Ejemplo: Se recoge una muestra aleatoria simple de 30 tornillos producidos por cierta
máquina y se mide su longitud, obteniéndose:
10.39 10.66 10.12 10.32 10.25 10.52 10.83 10.72 10.28 10.35
10.46 10.54 10.23 10.18 10.62 10.49 10.61 10.64 10.29 10.78
10.81 10.34 10.75 10.41 10.53 10.31 10.47 10.43 10.57 10.74
Contrastar si estos datos avalan que la distribución de la longitud de los tornillos es
normal.

9.1.2. Test de Kolmogorov-Smirnov

El test de Kolmogorov-Smirnov se basa en el teorema de Glivenko-Cantelli que, como
ya se estudió, proporciona la convergencia casi segura uniformemente de la función de
distribución muestral o empı́rica (FX∗ 1 ,...,Xn ) a la función de distribución de la variable
aleatoria (F ).
Para resolver el problema planteado se considera (X1 , . . . , Xn ) una m.a.s. de una va-
riable aleatoria X continua que se distribuye según una función de distribución F que es
completamente desconocida. El contraste a resolver es

H0 : F = F0
H1 : F 6= F0
Para resolver este problema se usa el estadı́stico de Kolmogorov-Smirnov

D(X1 , . . . , Xn ) = sup |FX∗ 1 ,...,Xn (x) − F0 (x)|

x∈R

el cual proporciona una medida de la discrepancia entre FX∗ 1 ,...,Xn y F0 . Por tanto, teniendo
en cuenta que la distribución muestral converge uniformemente a la distribución teórica,
se rechazará la hipótesis nula, si el valor de D(X1 , . . . , Xn ) es grande. Es decir, el test de
Kolmogorov-Smirnov serı́a:

1 D(X1 , . . . , Xn ) ≥ dα
ϕ(X1 , . . . , Xn ) =
0 D(X1 , . . . , Xn ) < dα

donde dα verifica:
PH0 (D(X1 , . . . , Xn ) ≥ dα ) = α

4
9. Introducción a la inferencia no paramétrica.

y
p − valor = PH0 [D(X1 , . . . , Xn ) ≥ Dexp ]
siendo Dexp el valor de estadı́stico en la muestra observada.
Teorema: Si F0 es continua:
(a) La distribución de D(X1 , . . . , Xn ) es independientes de F0 .
(b) D(X1 , . . . , Xn ) H0 Z de Kolmogorov.
(c) Si las n observaciones son distintas, entonces

Dexp = máx{máx[FX∗ 1 ...,Xn (xi ) − F0 (xi )], máx[F0 (xi ) − FX∗ 1 ,...,Xn (xi− )]}
xi xi

Notas:
1. Existe otra expresión de D(X1 , . . . , Xn ) para observaciones iguales, aunque esto
es poco probable por ser la distribución continua. Si ocurriera, por redondeos, se
eliminan del estudio los elementos iguales para asegurarse que las observaciones sean
distintas.
2. Si la distribución con la que se quiere comparar no está totalmente determinada, al
igual que en el test χ2 , se pueden estimar los parámetros de la distribución, lo cual
varı́a la distribución de D(X1 , . . . , Xn ). Hay modificaciones del test de Kolmogorov-
Smirnov, como el test de Lilliefors, para estos casos. Sin embargo, otra opción acep-
table es usar el test de la χ2 para dichos casos.

Ejemplo: Se supone que el tiempo de reacción a un determinado compuesto se distribuye

según una N (10.5; 0.152 ). Contrastar si los siguientes datos, obtenidos en un muestreo
aleatorio simple de 10 individuos a los que se ha administrado el compuesto, proporcionan
evidencia para rechazar esta hipótesis:
10.39 10.66 10.12 10.32 10.25 10.52 10.83 10.72 10.28 10.35.

9.2. Problema de localización

Se van a usar tests de localización para resolver problemas de contrastes de hipótesis
relativos a medidas de posición (mediana o cuantiles en general). En concreto, los posibles
contrastes sobre la mediana son:

H0 : MX = m H0 : MX = m H0 : MX = m
H1 : MX 6= m H1 : MX > m H1 : MX < m
y se van a utilizar dos tests para resolverlos:

5
9.2 Problema de localización

Test de los signos de Fisher: se aplica sólo a variables aleatorias de tipo continuo y
se generaliza fácilmente a contraste de hipótesis sobre cuantiles.

Test de rangos signados de Wilcoxon: usa más información muestral que el de Fisher
pero exige, además de continuidad, simetrı́a en la distribución.

9.2.1. Test de los signos de Fisher

Sea X1 , . . . , Xn m.a.s. de X ∼ F continua (desconocida).
Idea intuitiva: Es de esperar que, si H0 es cierta, aproximadamente la mitad de los valores
muestrales queda por encima de m y la otra mitad por debajo (concuerda con la idea de
convergencia de cuantiles muestrales a cuantiles poblacionales), también con el hecho de
que F (MX ) = 1/2.
Se puede definir el estadı́stico del test de los signos:

T (X1 , . . . , Xn ) =número de observaciones muestrales mayores que m

=nº de signos positivos en (Xi − m) H0 B(n, 1/2)

Las regiones crı́tica del test, según el contraste plateado son:

Para H1 : MX > m, se rechaza H0 para

Texp (= T (x1 , . . . , xn )) ≥ k : PH0 [T (X1 , . . . , Xn ) ≥ k] ≤ α.

Otra opción es calcular el p − valor = PH0 [T (X1 , . . . , Xn ) ≥ Texp ].

Para H1 : MX < m, se rechaza H0 para

Texp ≤ k : PH0 [T (X1 , . . . , Xn ) ≤ k] ≤ α.

Otra opción es calcular el p − valor = PH0 [T (X1 , . . . , Xn ) ≤ Texp ].

Para H1 : MX 6= m, se rechaza H0 para

Texp ≤ k ó Texp ≥ n − k : PH0 [T (X1 , . . . , Xn ) ≤ k] ≤ α/2.

Otra opción es calcular el

2PH0 [T (X1 , . . . , Xn ) ≤ Texp ] si Texp ≤ n/2
p − valor =
2PH0 [T (X1 , . . . , Xn ) ≥ Texp ] si Texp ≥ n/2

6
9. Introducción a la inferencia no paramétrica.

Notas:

1. Este test se puede aleatorizar.

2. Si algún valor de la muestra coincide con m, (Xi − m = 0), dicho dato se elimina y
se reajusta el tamaño de la muestra, n.

3. Para n grande (n ≥ 20) se puede emplear la aproximación normal a la distribución

binomial para determinar los puntos crı́ticos (k), pero serı́a un test asintótico:

2T (X1 , . . . , Xn ) − n
B(n, p) ≈ N (np, npq) ⇒ √ ∼ N (0, 1)
n

4. El test se puede generaliza a tests sobre cuantiles de cualquier orden.

Ejemplo: Una empresa que tradicionalmente comenzaba su actividad diaria a las 9 h. ha

cambiado su horario para abrir a las 8 h. y se pregunta si ello ha afectado significativamente
al retraso de sus empleados. Es aceptable pensar que la forma de la distribución de los
retrasos no ha variado con el cambio de horario, pero se teme que se haya desplazado
hacia la derecha, lo cual supondrá un incremento del tiempo perdido. Se sabe, además,
que la mediana de los retrasos de los empleados era inicialmente de 5 minutos. Con el
cambio de horario se selecciona a 12 empleados y se observa, en determinados dı́as, los
siguientes retrasos (en minutos):
2.5, 1.2, 7, 1.8, 8.3, 6.8, 5.2, 3.4, 4.7, 6.2, 9.1, 5.2
A partir de estos datos, contrastar la hipótesis de que la distribución de los retrasos no
ha variado con el cambio de horario.

9.2.2. Test de los rangos signados de Wilcoxon

Este test sólo se puede aplicar en el caso en que se conoce que la distribución, además
de continua, es simétrica. Wilcoxon propuso un test para contrastar H0 : MX = m, que
además de tener en cuenta la diferencia, tiene en cuenta la magnitud de la misma, por lo
que es un test muy potente. El problema de este test es que necesita que la distribución
sea simétrica y que los datos sean exactos.
Sea X1 , . . . , Xn una m.a.s. de X, v.a. con distribución continua y simétrica (alrededor
de la mediana) y sea Di = Xi − m, i = 1, . . . , n. Si algún Di es 0, se elimina ese dato y se
reajusta el número de datos n.
El método propuesto por Wilcoxon consiste en ordenar de forma creciente los valores
absolutos de estas diferencias (|Di |) y anotar el rango o lugar que ocupan (r(|Di |)), de ahı́

7
9.2 Problema de localización

el nombre del test. Si hubiera empates, es decir si hubiera datos repetidos, se le asigna a
cada uno el promedio de los rangos.
Basándose en esta idea, se define el estadı́stico del test de Wilcoxon como:
n
X
T + (X1 , . . . , Xn ) = suma de los rangos de los Di positivos = r(|Di |)I{Di > 0}
i=1

n(n + 1)
La distribución de T + (X1 , . . . , Xn ) bajo H0 es simétrica en torno a la media y
4
viene dada por:

+ + n(n + 1)
P [T (X1 , . . . , Xn ) = t] = P T (X1 , . . . , Xn ) = −t
2
Si n ≤ 15, la distribución bajo H0 está tabulada para ambas colas. Si n > 15, se puede
aproximar asintóticamente la distribución de T + (X1 , . . . , Xn ), bajo H0 , por

+ n(n + 1) n(n + 1)(2n + 1)
T (X1 , . . . , Xn ) ≈ N , .
4 24

Las regiones crı́ticas del test según el contraste planteado son:

Si H1 : MX > m es cierta, cabe esperar que haya más diferencias mayores que 0 que
menores que 0 y que la magnitud de las que son mayores que 0 sea mayor que la
magnitud de las que son menores que 0. Por tanto se rechaza H0 si T + (X1 , . . . , Xn )
es grande: Para un nivel de significación α se rechaza H0 si
+
Texp (= T + (x1 , . . . , xn )) ≥ k

con P [T + (X1 , . . . , Xn ) ≥ k] ≤ α.
En general se calcula el p − valor = PH0 [T + (X1 , . . . , Xn ) ≥ Texp
+
].
Si H1 : MX < m es cierta, cabe esperar lo contrario que antes. Por tanto se rechaza
H0 si T + (X1 , . . . , Xn ) es pequeño: Para un nivel de significación α se rechaza H0 si
+
Texp ≤k

con P [T + (X1 , . . . , Xn ) ≤ k] ≤ α.
En general se calcula el p − valor = PH0 [T + (X1 , . . . , Xn ) ≤ Texp
+
].
Si H1 : MX 6= m es cierta, se rechaza H0 para valores pequeños o grandes de
T + (X1 , . . . , Xn ): Para un nivel de significación α se rechaza H0 si

+ + n(n + 1)
Texp ≤ k o Texp ≥ −k
2

8
9. Introducción a la inferencia no paramétrica.

con P [T + (X1 , . . . , Xn ) ≤ k] ≤ α/2.

En general se calcula el p − valor:

 2PH0 [T + (X1 , . . . , Xn ) ≥ Texp
+ + n(n + 1)
] si Texp ≥

p − valor = 4
 2PH0 [T + (X1 , . . . , Xn ) ≤ Texp
+ + n(n + 1)
] si Texp ≤

4

Ejemplo: A partir de los datos del ejemplo anterior, y suponiendo que la distribución
de los retrasos es simétrica, contrastar la hipótesis de que ésta no varı́a con el cambio de
horario.

Nota: Los tests de localización se usan también para contrastar la hipótesis de homo-
geneidad de las distribuciones correspondientes a dos muestras apareadas o relacionadas
cuando se tiene constancia de que las distribuciones tienen la misma forma funcional pero
una está desplazada respecto de la otra. En dicho caso se toma la variable diferencia y
H0 : MX−Y = 0. Para aplicar cada test deberá comprobarse primeramente que se está
bajo las condiciones necesarias.

9.3. Problema de independencia: test χ2

El problema de independencia relativo a dos muestras trata, como su nombre indica,
de ver si dos variables, referidas a una misma población son independientes o no. Sean X
e Y dos caracterı́sticas poblacionales distintas. Se va a contrastar:

H0 : X e Y son independientes
H1 : X e Y no son independientes

Para resolver este contraste se va a utilizar el test χ2 de independencia.

Test χ2 de independencia

Sean X e Y dos variables cualitativas, teniendo X las categorı́as A1 , . . . , Am , e Y

las B1 , . . . , Bk . Para resolver el problema de contraste H0 : X e Y son independientes, se
toma una m.a.s. de individuos y se clasifican los individuos según las categorı́as de X e
Y . Sea Nij el número de individuos de la muestra que presentan las categorı́as Ai y Bj ,
∀i = 1, . . . , m, ∀j = 1, . . . , k.
Con dichos datos muestrales se construye la tabla de contingencia muestral (reparto
de la muestra por categorı́as bidimensionales, totales, marginales y total global).

9
9.3 Problema de independencia: χ2

X\Y B1 B2 ... Bk Totales

A1 N11 N12 ... N1k N1·
A2 N21 N22 ... N2k N2·
.. .. .. .. ..
. . . . .
Am Nm1 Nm2 . . . Nmk Nm·
Totales N·1 N·2 . . . N·k n

donde Ni· = kj=1 Nij y N·j = m

P P
i=1 Nij .
Sean Pij = P [X ∈ Ai , Y ∈ Bj ], Pi· = P [X ∈ Ai ] y P·j = P [Y ∈ Bj ], ∀i = 1, . . . , m,
∀j = 1, . . . , k. El estadı́stico del contraste es:
m X k
X (Oij − Eij )2
i=1 j=1
Eij

siendo Oij la frecuencia observada y Eij la frecuencia esperada.

Una forma de plantear la hipótesis nula, basada en las frecuencias, es H0 : Pij = Pi· P·j ,
ya que la independencia de dos variables se caracteriza porque su frecuencia conjunta
sea igual al producto de sus frecuencias marginales. Por lo tanto, bajo H0 la frecuencia
esperada Eij = nPij quedarı́a Eij = nPi· P·j .
Por otro lado, ya que las frecuencias teóricas Pij , Pi· y P·j , en general, no son cono-
cidas, se trabajará con sus estimaciones máximo verosı́miles: Pbij = Nij /n, Pbi· = Ni· /n y
Pb·j = N·j /n. Finalmente, la frecuencia observada Oij = Nij . Teniendo en cuenta todo esto
se llega a que el estadı́stico del contraste es:
m X
k Ni· N·j 2
2
X (Nij − n
)
χ (Nij ) = Ni· N·j
i=1 j=1 n

que bajo H0 tiene la distribución asintótica χ2(m−1)(k−1) .

Al nivel de significación α se rechaza H0 si

χ2exp ≥ χ2(m−1)(k−1);α ,

siendo χ2exp = χ2 (x1 , . . . , xn ) y PH0 [χ2 (Nij ) ≥ χ2(m−1)(k−1);α ] = α.

El p-valor es PH0 [χ2 (Nij ) ≥ χ2exp ].
Notas
Los requisitos mı́nimos para poder usar la distribución asintótica indicada son:

• Las frecuencias esperadas deben ser mayores o iguales que 2.

ni. n.j
≥2
n

10
9. Introducción a la inferencia no paramétrica.

• Hay que asegurarse que al menos el 80 % de las frecuencias esperadas sea ma-
yores o iguales a 5.

Si no es ası́, se debe aumentar el tamaño de la muestra.

Para aplicar el test de χ2 de independencia a dos v.a. cualesquiera, no cualitativas, se

agrupan los valores de cada variable en un número finito de categorı́as que respeten
las condiciones necesarias para poder aplicar el test.

Ejemplo: Para estudiar si el grupo sanguı́neo de los individuos tiene relación con la
predisposición a la diabetes, se han seleccionado al azar 400 sujetos a los que se ha
determinado el grupo sanguı́neo y el nivel de glucosa en sangre en idénticas condiciones
experimentales. Clasificando la segunda medida en tres niveles, los resultados han sido:

Grupo\ Nivel Bajo Medio Alto

O 137 86 35
A 42 23 11
B 19 17 7
AB 14 7 2

Contrastar, al nivel de significación 0.05, si ambas variables son independientes.

9.4. Problema de homogeneidad: test χ2

El problema de homogeneidad consiste en estudiar si una serie de poblaciones se com-
portan de la misma forma frente a una determinada caracterı́stica. Para ello se toman
m.a.s. de cada población, se mide la caracterı́stica de interés en ellas y se trata de con-
trastar si todas las muestras proceden de variables con la misma distribución teórica. Se
va a contrastar:
H0 : F1 = . . . = Fm
H1 : Alguna distribución es distinta
Para resolver dicho contraste se va a utilizar el test χ2 de homogeneidad.

Test χ2 de homogeneidad
Este test se debe aplicar, en un principio, a caracterı́sticas de tipo cualitativo. Se van
a suponer m poblaciones, m muestras aleatorias simples, de tamaños n1 , . . . , nm y que,
en todos los casos, las variables pueden tomar valores en k categorı́as A1 , . . . , Ak . Sean
Nij el número de observaciones de la muestra i−ésima que presenta la modalidad Aj ,
i = 1, . . . , m, j = 1, . . . , k, N·j = m
P Pk Pm
i=1 Nij , ni = j=1 Nij y n = i=1 ni .

Con dichos datos muestrales se construye la tabla de contingencia muestral

11
9.4 Problema de homogeneidad: χ2

Muestras\Categorı́as A1 A2 ... Ak
1 N11 N12 ... N1k n1
2 N21 N22 ... N2k n2
.. .. .. .. ..
. . . . .
m Nm1 Nm2 ... Nmk nm
N·1 N·2 ... N·k n
Si se denota por Pij a la probabilidad de que un individuo de la muestra i−ési-
ma presente la modalidad Aj , la hipótesis nula del contraste se puede escribir como:
H0 : P1j = P2j = . . . = Pmj (= P·j ), j = 1, . . . , k. Desde el punto de vista paramétrico, este
contraste se puede ver como contrastar la igualdad de los parámetros p de m multinomia-
les de dimensión k − 1, que se puede resolver mediante el test de la razón de verosimilitud.
Como se está estudiando el caso no paramétrico, se va a resolver el contraste con el test
χ2 , pero ambos test son asintóticamente equivalentes.
Al igual que antes, el estadı́stico del contraste es:
m X k
X (Oij − Eij )2
i=1 j=1
Eij

siendo Oij la frecuencia observada y Eij la frecuencia esperada.

En este caso, bajo H0 la frecuencia esperada es Eij = ni P·j , pero como no son cono-
cidas, se trabajará con sus estimaciones máximo verosı́miles: Pb·j = N·j /n. Finalmente,
al igual que antes, la frecuencia observada es Oij = Nij , con lo que el estadı́stico del
contraste queda:
m X k nN
2
X (Nij − in ·j )2
χ = ni N·j
i=1 j=1 n

que, bajo H0 tiene la distribución asintótica χ2(m−1)(k−1) .

Al nivel de significación α se rechaza H0 si

χ2exp ≥ χ2(m−1)(k−1);α ,

siendo χ2exp = χ2 (x1 , . . . , xn ) y PH0 [χ2 (Nij ) ≥ χ2(m−1)(k−1);α ] = α.

El p-valor es PH0 [χ2 (Nij ) ≥ χ2exp ].
Notas:

Los requisitos mı́nimos para poder usar la distribución asintótica indicada son:

• Los tamaños muestrales en cada población deben ser como mı́nimo de 20.

ni ≥ 20, ∀i = 1, . . . , m.

12
9. Introducción a la inferencia no paramétrica.

• Las frecuencias esperadas deben ser mayores o iguales que 2.

ni n.j
≥2
n

• Hay que asegurarse que no más del 20 % de las frecuencias esperadas sea me-
nores a 5.

Si no es ası́, se debe aumentar el tamaño de las muestras.

A pesar de que existe una gran analogı́a con el test de independencia, el problema
que resuelve este otro test es totalmente distinto.

Para aplicar el test χ2 de homogeneidad a m variables aleatorias cualesquiera, es

decir, si se tienen X1 , . . . , Xm variables aleatorias cualesquiera y se desea contrastar
H0 : F1 = . . . = Fm , se particiona el rango de valores comunes a todas las variables
en k subconjuntos o modalidades (Aj ) de probabilidad no nula bajo todas las distri-
buciones. Se considera Pij =probabilidad de que la variable Xi ∈ Aj , ∀i = 1, . . . , m,
∀j = 1, . . . , k y se toma una m.a.s. de cada variable. Como las muestras son in-
dependientes se puede aplicar el test χ2 de homogeneidad a ellas para resolver el
contraste planteado.

Para variables no cualitativas hay tests mucho mejores, ya que el test χ2 no utiliza
los datos, sino la pertenencia a algunos intervalos.

Ejemplo: Contrastar, a partir de los resultados de la siguiente tabla, si los distintos

grupos sanguı́neos se presentan con la misma frecuencia en tres grupos étnicos diferentes:

Raza\ Grupo O A B AB
1 32 11 7 2
2 47 13 17 9
3 23 7 9 6

También podría gustarte

Tema 9 - Contrastes No Paramétricos y de Bondad de Ajuste
Aún no hay calificaciones
Tema 9 - Contrastes No Paramétricos y de Bondad de Ajuste
20 páginas
Pruebas Estadísticas No Paramétricas
Aún no hay calificaciones
Pruebas Estadísticas No Paramétricas
144 páginas
Introducción a la Estadística No Paramétrica
Aún no hay calificaciones
Introducción a la Estadística No Paramétrica
3 páginas
Pruebas de Bondad de Ajuste en Estadística
Aún no hay calificaciones
Pruebas de Bondad de Ajuste en Estadística
14 páginas
Contrastes de Bondad de Ajuste: χ2 y Kolmogorov-Smirnov
Aún no hay calificaciones
Contrastes de Bondad de Ajuste: χ2 y Kolmogorov-Smirnov
16 páginas
UNIDAD TEMATICA Nro IX Nociones de Inferencia Estadística No Paramétrica y de Inferencia Bayesiana
Aún no hay calificaciones
UNIDAD TEMATICA Nro IX Nociones de Inferencia Estadística No Paramétrica y de Inferencia Bayesiana
12 páginas
Tema 4
Aún no hay calificaciones
Tema 4
6 páginas
Estadistica 2
Aún no hay calificaciones
Estadistica 2
6 páginas
Clase 5. Pruebas No Parametricas
Aún no hay calificaciones
Clase 5. Pruebas No Parametricas
32 páginas
Trabajo Estadisticas Modi
Aún no hay calificaciones
Trabajo Estadisticas Modi
14 páginas
Curso Avanzado de Analisis de Datos Con STATISTICA
100% (4)
Curso Avanzado de Analisis de Datos Con STATISTICA
99 páginas
Pruebas de Hipótesis en Estadística Industrial
Aún no hay calificaciones
Pruebas de Hipótesis en Estadística Industrial
153 páginas
Control de Calidad
Aún no hay calificaciones
Control de Calidad
10 páginas
Pruebas No Parametricas
Aún no hay calificaciones
Pruebas No Parametricas
27 páginas
Preguntas Inferencia No Parametrica
Aún no hay calificaciones
Preguntas Inferencia No Parametrica
21 páginas
Prueba X Cuadrada
Aún no hay calificaciones
Prueba X Cuadrada
8 páginas
Pruebas No Paramétricas en Estadística
Aún no hay calificaciones
Pruebas No Paramétricas en Estadística
19 páginas
Control TAREA1
Aún no hay calificaciones
Control TAREA1
10 páginas
Contenido S16-2
Aún no hay calificaciones
Contenido S16-2
13 páginas
Unidad 4 Canul
Aún no hay calificaciones
Unidad 4 Canul
10 páginas
Trabajo Final Kruskal-Wallis
100% (2)
Trabajo Final Kruskal-Wallis
9 páginas
Berlanga Rubio 2012 Pruebas No Paramétricas
Aún no hay calificaciones
Berlanga Rubio 2012 Pruebas No Paramétricas
13 páginas
Inferencia No Paramétrica
Aún no hay calificaciones
Inferencia No Paramétrica
9 páginas
Mes 11
Aún no hay calificaciones
Mes 11
20 páginas
Prueba F de Friedman
100% (1)
Prueba F de Friedman
24 páginas
Pruebas Estadísticas No Paramétricas
Aún no hay calificaciones
Pruebas Estadísticas No Paramétricas
8 páginas
12 NoParametricaCivilC 2024-2025 ESPE
Aún no hay calificaciones
12 NoParametricaCivilC 2024-2025 ESPE
55 páginas
Tema 5
Aún no hay calificaciones
Tema 5
13 páginas
Unidad 4 Pruebas de Bondad de Ajuste y Pruebas No Paramétricas.
43% (7)
Unidad 4 Pruebas de Bondad de Ajuste y Pruebas No Paramétricas.
30 páginas
Se Denominan Pruebas No Paramétricas Aquellas Que No Presuponen Una Distribución de Probabilidad para Los Datos
Aún no hay calificaciones
Se Denominan Pruebas No Paramétricas Aquellas Que No Presuponen Una Distribución de Probabilidad para Los Datos
20 páginas
Estadistica Inferencial
Aún no hay calificaciones
Estadistica Inferencial
10 páginas
Características de los Datos Categóricos
Aún no hay calificaciones
Características de los Datos Categóricos
12 páginas
B. Tests-No-Paramétricos
Aún no hay calificaciones
B. Tests-No-Paramétricos
13 páginas
Unidad 4
Aún no hay calificaciones
Unidad 4
46 páginas
Tema 5 BondadAjuste
Aún no hay calificaciones
Tema 5 BondadAjuste
34 páginas
Pruebas Parametricas y No Parametricas
100% (3)
Pruebas Parametricas y No Parametricas
17 páginas
Prueba de tendencia Cox-Stuart
Aún no hay calificaciones
Prueba de tendencia Cox-Stuart
9 páginas
No Parametrica
Aún no hay calificaciones
No Parametrica
33 páginas
Métodos No Paramétricos en Estadística
Aún no hay calificaciones
Métodos No Paramétricos en Estadística
13 páginas
PortafolioDeEvidenciasU4 MayCanJoseLuis AlejandroAchachCastro
Aún no hay calificaciones
PortafolioDeEvidenciasU4 MayCanJoseLuis AlejandroAchachCastro
24 páginas
Actividad 4.1 Cuestionario de La Unidad IV
Aún no hay calificaciones
Actividad 4.1 Cuestionario de La Unidad IV
23 páginas
Inferencia No Paramétrica: Introducción
Aún no hay calificaciones
Inferencia No Paramétrica: Introducción
18 páginas
Introducción a la Distribución Chi-Cuadrado
Aún no hay calificaciones
Introducción a la Distribución Chi-Cuadrado
22 páginas
Clase - Pruebas No Paramétricas
Aún no hay calificaciones
Clase - Pruebas No Paramétricas
12 páginas
Pruebas de Normalidad y Ajuste
Aún no hay calificaciones
Pruebas de Normalidad y Ajuste
4 páginas
Prueba de Bondad de Ajuste de Chi-Cuadrada
Aún no hay calificaciones
Prueba de Bondad de Ajuste de Chi-Cuadrada
5 páginas
Métodos Estadísticos No Paramétricos
Aún no hay calificaciones
Métodos Estadísticos No Paramétricos
10 páginas
Supuestos en Diseño Experimental Estadístico
Aún no hay calificaciones
Supuestos en Diseño Experimental Estadístico
16 páginas
Tema 5. Contrastes de Hipótesis No Paramétricas.
Aún no hay calificaciones
Tema 5. Contrastes de Hipótesis No Paramétricas.
11 páginas
En Estadística
Aún no hay calificaciones
En Estadística
5 páginas
Expocision de Estadistica Inferencial
Aún no hay calificaciones
Expocision de Estadistica Inferencial
17 páginas
Hoja 7
Aún no hay calificaciones
Hoja 7
3 páginas
Pruebas Kolmogorov-Smirnov y Anderson-Darling
Aún no hay calificaciones
Pruebas Kolmogorov-Smirnov y Anderson-Darling
7 páginas
Estadistica Ok
Aún no hay calificaciones
Estadistica Ok
53 páginas
Actividad-4 B
Aún no hay calificaciones
Actividad-4 B
10 páginas
Tests No Paramétricos en Economía
Aún no hay calificaciones
Tests No Paramétricos en Economía
13 páginas
Resinas
Aún no hay calificaciones
Resinas
60 páginas
Test de Competencia Moral Evidencia de Validez Basada en El Proceso de Respuesta
Aún no hay calificaciones
Test de Competencia Moral Evidencia de Validez Basada en El Proceso de Respuesta
80 páginas
Despiece y Elementos de Motocicleta
Aún no hay calificaciones
Despiece y Elementos de Motocicleta
4 páginas
Rubrica para Evaluar El Trabajo Del Periodico Escolar en Equipo12 13
Aún no hay calificaciones
Rubrica para Evaluar El Trabajo Del Periodico Escolar en Equipo12 13
1 página
Tarea 1 - Teorias de Planifacion
Aún no hay calificaciones
Tarea 1 - Teorias de Planifacion
9 páginas
Guia Rapida para Manejar Un Archivo KMZ
Aún no hay calificaciones
Guia Rapida para Manejar Un Archivo KMZ
6 páginas
Documento Mapas Parlantes
Aún no hay calificaciones
Documento Mapas Parlantes
6 páginas
Comedor
Aún no hay calificaciones
Comedor
23 páginas
La transformación de Gregorio Samsa
Aún no hay calificaciones
La transformación de Gregorio Samsa
33 páginas
Filosofía, Contemplación o Construcción. Francisco Ochoa
Aún no hay calificaciones
Filosofía, Contemplación o Construcción. Francisco Ochoa
8 páginas
Boletín 6120 Inventarios y Costo de Ventas. Vanesa Lòpez Medina
Aún no hay calificaciones
Boletín 6120 Inventarios y Costo de Ventas. Vanesa Lòpez Medina
5 páginas
Investigación Docente Siglo XXI
Aún no hay calificaciones
Investigación Docente Siglo XXI
11 páginas
Evaluación de Illustrator CS4
Aún no hay calificaciones
Evaluación de Illustrator CS4
16 páginas
Homogeneizadores Bertoli: Alta Presión
Aún no hay calificaciones
Homogeneizadores Bertoli: Alta Presión
50 páginas
Tarea 3 y 4, Ética Profesional Del Psicólogo
Aún no hay calificaciones
Tarea 3 y 4, Ética Profesional Del Psicólogo
5 páginas
Fuentes y Servicios de Información I. Programa 2018
Aún no hay calificaciones
Fuentes y Servicios de Información I. Programa 2018
12 páginas
Sílabo Historia Del Perú Prehispánico y Virreinal - Rafael Segura - Sofía Chacaltana - Rafael Vega
Aún no hay calificaciones
Sílabo Historia Del Perú Prehispánico y Virreinal - Rafael Segura - Sofía Chacaltana - Rafael Vega
8 páginas
Evaluación del Niño en Odontopediatría
Aún no hay calificaciones
Evaluación del Niño en Odontopediatría
16 páginas
Plantas Vasculares de Bolivia
Aún no hay calificaciones
Plantas Vasculares de Bolivia
26 páginas
Diapositivas Semana 1
Aún no hay calificaciones
Diapositivas Semana 1
24 páginas
Relación Masa-Volumen en Química
Aún no hay calificaciones
Relación Masa-Volumen en Química
6 páginas
Elementos de la Norma ISO 9000
Aún no hay calificaciones
Elementos de la Norma ISO 9000
20 páginas
Inboard Diesel: Volvo Penta
Aún no hay calificaciones
Inboard Diesel: Volvo Penta
2 páginas
Modo de Autenticacion
Aún no hay calificaciones
Modo de Autenticacion
5 páginas
Plan de Prevención de Violencia Escolar
Aún no hay calificaciones
Plan de Prevención de Violencia Escolar
5 páginas
Cytyy
Aún no hay calificaciones
Cytyy
4 páginas
Propiedades y Fenómenos de la Luz
Aún no hay calificaciones
Propiedades y Fenómenos de la Luz
3 páginas
Tipos y Usos del Hierro Fundido
Aún no hay calificaciones
Tipos y Usos del Hierro Fundido
24 páginas
TA - 5 (1) (Taller de Evaluacion)
0% (1)
TA - 5 (1) (Taller de Evaluacion)
5 páginas
Procedimiento para Crear Muros en Revit
Aún no hay calificaciones
Procedimiento para Crear Muros en Revit
3 páginas