CHI CUADRADO
2
• OBJETIVOS
– Describir situaciones donde es adecuado la
utilización de la prueba de Chi Cuadrado (2)
– Formular Hipótesis para diferentes situaciones.
– Calcular la Prueba de Chi Cuadrado e
interpretar los resultados.
– Evaluación de muestras Independientes.
CARACTERÍSTICAS
DE LA DISTRIBUCIÓN DE 2
2 es siempre positivo porque es una suma de
cuadrados.
• Varia desde 0 a (no tiene valores negativos)
• Familia de distribuciones que dependen de 1
parámetro (gl=grados de libertad)
• Media de la Distribución = gl
• Varianza de la Distribución=2gl
• La distribución tiene sesgo positivo y cuando los gl
aumentan se aproxima a la distribución normal
• Moda = gl-2 para gl2 y 0 para gl=1
gl=2
gl=3
gl=4
gl=5
0 2 Chi2 6 8
PRUEBAS DE 2
• BONDAD DE AJUSTE
– Se utiliza para la comparación de la distribución de una muestra
con alguna distribución teórica que se supone describe a la
población de la cual se extrajo.
• INDEPENDENCIA
– La Ho indica que 2 variables o criterios de clasificación son
independientes cuando se aplican a un conjunto de individuos
(unidades de observación)
– Totales Marginales Aleatorios
• HOMOGENEIDAD
– Se extraen Muestras Independientes de varias poblaciones y se
prueban para ver si son homogéneas con respecto a algún criterio
de clasificación.
– Un conjunto de Totales Marginales Son Fijos mientras que los otros
marginales son Aleatorios.
PRUEBAS DE 2
Bondad de Ajuste
• Uni-Dimesional
– Se basa en la Distribución de Probabilidad
Multinomial.
Propiedades de la Distribución de
Probabilidad Multinomial
• El experimento consiste en n ensayos idénticos.
• Hay k posibles resultados de cada ensayo.
• La probabilidad de k resultados son p1, p2, ...... pk y
se mantienen constantes de ensayo en ensayo
donde p1 + p2 + ...... + pk = 1
• Los ensayos son independientes.
• La variable aleatoria de interés son los conteos n1,
n2, ...... nk en cada una de la k categorías.
Prueba de Bondad de Ajuste
Se trata de probar si los datos de una muestra tomada difieren de
cierta distribución predeterminada.
Los n datos tomados deben estar divididos en categorías
Categoría 1 2 3 … K
Frecuencia Obs1 Obs2 Obs3 Obsk n
observada
Las probabilidades pi, de caer en la categoría i están dadas
por la H0 , son constantes entre ensayos y suman 1.
La hipótesis nula es H0: pi = valores dados, es decir los
datos siguen una distribución determinada con la cual se
calcularán las frecuencias esperadas.
La hipótesis alternativa H1: al menos una de las pi es
distinta de la probabilidad dada en la H0.
SUPUESTOS PARA LA PRUEBA DE 2
– Experimento multinomial. Lo que se satisface
tomando una muestra aleatoria de la población
de interés.
– El tamaño de muestra es lo suficientemente
grande para que el número esperado en las
categorías sea 5, para asegurar que 2 se
aproxime a la distribución real (multinomial).
– Se puede recurrir a colapsar categorías
contiguas (celdas) con valores esperados
menores de 5.
k
(Obsi npio ) 2
La prueba estadística es:
i 1 npio
Donde pio representa la proporción deseada en la i-ésima categoría, Obsi
la frecuencia observada en la categoría i y n es el tamaño de la
muestra.
La prueba estadística se distribuye como una Ji-Cuadrado con k-1 grados
de libertad donde, k es el número de categorías.
Si el valor de la prueba estadística (2 calculado) es mayor que el valor
crítico (2 de la tabla) se rechaza la hipótesis nula
Oij2 Ei: frec. Esperada de la i-ésima clase
c2
E ij
n Oi: frec. Observada de la i-ésima clase
N: número de clases
gl N k 1
k: número de parámetros estimados a partir de la muestra
Tabla 1. Distribución de frecuencias del peso de 35 novillos.
Bondad de Ajuste con la Distribución Normal
Clases fo Xi z Pz P fe
330-344 3 337 -1,61 0,055 0,055 1,9 0,610
345-359 3 352 -0,97 0,166 0,111 3,9 0,204
360-374 4 367 -0,33 0,371 0,205 7,2 1,398
375-389 12 382 0,30 0,618 0,247 8,7 1,296
390-404 7 397 0,94 0,826 0,209 7,3 0,012
405-419 4 412 1,58 0,943 0,117 4,1 0,001
420-434 2 427 2,21 0,986 0,043 1,5 0,158
35 2 3,679
X 382.86; S 23.56 k=2
gl k 1 N º parametros _ estimados gl=2
Tabla 1. Distribución de frecuencias del peso de 35 novillos.
Bondad de Ajuste con la Distribución Uniforme
Clases fo Xi P fe
330-344 3 337 1/7 5,0 0,800
345-359 3 352 1/7 5,0 0,800
360-374 4 367 1/7 5,0 0,200
375-389 12 382 1/7 5,0 9,800
390-404 7 397 1/7 5,0 0,800
405-419 4 412 1/7 5,0 0,200
420-434 2 427 1/7 5,0 1,800
35 2 14,400
gl k 1 N º parametros _ estimados
gl=6
Tablas de Contingencia
• INDEPENDENCIA
– Experimento multinomial con clasificación con 2 criterios (2
factores). Los datos se pueden resumir en una tabla de 2 vías
(dimensiones). (Ejemplo número de animales enfermos por
condición corporal).
– La Ho indica que 2 variables o criterios de clasificación son
independientes cuando se aplican a un conjunto de individuos
(unidades de observación)
– Totales Marginales Aleatorios
• HOMOGENEIDAD
– Se extraen Muestras Independientes de varias poblaciones y se
prueban para ver si son homogéneas con respecto a algún criterio
de clasificación. (Ejemplo prevalencia de enfermos por región)
– Un conjunto de Totales Marginales Son Fijos mientras que los
otros marginales son Aleatorios.
La prueba de Independencia se efectúa para
probar si hay asociación entre las variables
categóricas A y B
La prueba de Homogeneidad es una
generalización de la prueba de igualdad de dos
proporciones.
Se trata de probar si para cada nivel de la
variable B, la proporción con respecto a cada
nivel de la variable A es la misma.
Hipótesis
Las hipótesis de Independencia:
Ho: Las variables A y B son independientes
P(AB)=P(A) P(B)
H1: Las variables A y B están asociadas
Las hipótesis de Homogeneidad:
Ho: Las proporciones de cada valor de la variable A son iguales en
cada categoría de la variable B. i Pi=P
Ha: Al menos una de las proporciones es diferente.
Ambas hipótesis se prueban usando una prueba de Chi-Cuadrado
Pruebas de Independencia y
Homogeneidad
Ambas hipótesis se prueban usando una prueba de Ji-Cuadrado:
r c (Oij Eij ) 2
2
i 1 j de
donde Oij es la frecuencia observada
E
1 la celda ijque está en la fila i,
columna j, es la frecuencia esperada de la celda (i, j).
c j ri
E
La frecuencia esperada
ij es aquella que sería esperable encontrar si la hipótesis nula es
verdadera. n
El estadístico de la prueba se distribuye como una Ji-Cuadrado con
(r-1)(c-1) grados de libertad.
La hipótesis Nula se rechaza si , donde es el nivel de
gl (r es1)
significancia o equivalentemente si el “p-value”
(cque 1)
menor 0.05.
2 2
cal 1
Tablas de Contingencia
VARIABLE DE CLASIFICACIÓN COLUMNAS
1 2 3 .......... c Total
C
L
1 O11 O12 O13 .......... O1c r1
V
A
S
2 O21 O22 O23 .......... O2c r2
A
R
I
F
F
I
3 O31 O32 O33 .......... O3c r3
I
A
I
C
L
A
. . . . . . .
B
L
A S . . . . . . .
C
E
I r Or1 Or2 Or3 .......... Orc rr
Ó
N Total c1 c2 c3 .......... cc n
r c (Oij Eij ) 2 c j ri
2
Eij gl (r 1) (c 1)
i 1 j 1 Eij n
PRUEBA DE INDEPENDENCIA
• Un veterinario sostiene que la castración de las perras es un
factor que está asociado a la incontinencia urinaria (IU) de
las mismas. A los efectos de probar sus dichos realizó un
estudio en un hospital donde a las hembras que ingresaban
las clasificó como castradas (C) y enteras (NC) y con
incontinencia (IU) y sin incontinencias (NIU) urinarias
obteniendo los siguientes resultados.
IU NIU Total
C 34 757 791
NC 7 2427 2434
Total 41 3184 3225
• ¿Pruebe a un nivel de significación de 0.05 si estas variables
están asociadas?
2
c2 ij
O
n
Eij
gl ( filas 1)(columnas 1)
Prueba de Homogeneidad
• A los efectos de probar la protección de 2 vacunas
contra los abortos producidos por una enfermedad
X se seleccionaron 3 lotes de 150 vacas cada uno
de un establecimiento con la enfermedad. Esto
lotes fueron vacunados con: Lote 1 = Placebo,
Lote 2 = Vacuna 1 y Lote 3 = Vacuna 2. En el
primer lote hubo 20 abortos en el "lote 2" 10
abortos y en el "lote 3" 5 abortos.
• Pruebe a un nivel de significación de 0,01 si la
respuesta a la vacunación fue homogénea.
nivel de confianza
gl = n-1
Ejemplo: Intervalo de Confianza 90% n=7