UNIVERSIDAD DE CUENCA
Facultad de Ciencias Qupimicas
ESTADISTICA II.
Distribución Chi Cuadrado
Ing. Lourdes Granda C.
Definición
Chi cuadrado - Pearson
Distribución de Probabilidad Continua para inferencias estadísticas,
sirve para someter a prueba de hipótesis referidas
a distribuciones de frecuencias, contrasta frecuencias observadas
versus las esperadas de acuerdo con la hipótesis nula.
Utilizada como prueba de independencia y como prueba de bondad
de ajuste y en estimación de varianzas. Pero también está
involucrada en el problema de estimar la media de una población
normalmente distribuida y en el problema de estimar la pendiente
de una recta de regresión lineal, a través de su papel en
la distribución t de Student.
Problemas
Prueba de Bondad de Ajuste.
Sirve para determinar si los datos de una muestra
corresponden a cierta distribución poblacional. Se debe
dividir en clases de ocurrencia los valores de la variable en
la muestra sobre la cual queremos inferir.
Prueba de Homogeneidad. (muestras cualitativas)
Comprueba si varias muestras cualitativas proceden de la
misma población. Es necesario que las dos variables
medibles estén representadas mediante categorías para
realizar tabla de contingencia.
Problemas
Prueba de Independencia.
Comprueba si dos características cualitativas están
relacionadas entre sí. Conceptualmente difiere de la prueba
de homogeneidad, operativamente proporciona los mismos
resultados.
Bondad de Ajuste
Características χ2
Tamaño muestral n sea grande (n> 30)
Todas las frecuencias esperadas sean iguales o
mayores a 5 (agrupar categorías si es necesario).
Las observaciones son obtenidas mediante
muestreo aleatorio a partir de una población
particionada en categorías.
Bondad de Ajuste
Experimento multinomial – generalización binomial:
1. Consiste en n pruebas idénticas e independientes.
2. Para c/prueba, un número k de resultados posibles.
3. Cada uno de los k posibles resultados tiene una
probabilidad de ocurrencia pi asociada (p1+p2+...+pk= 1),
la cual permanece constante durante el experimento.
4. El experimento dará lugar a un conjunto de
frecuencias observadas (O1, O2, ..., Ok) para cada
resultado, O1+O2+...+Ok = n.
En cierta máquina Expendedora de Refrescos existen 4 canales que
expiden el mismo tipo de bebida. Estamos interesados en averiguar si
la elección de cualquiera de estos canales se hace de forma aleatoria
o por el contrario existe algún tipo de preferencia en la selección de
alguno de ellos por los consumidores. La siguiente tabla muestra el
número de bebidas vendidas en cada uno de los 4 canales durante
una semana. Contrastar la hipótesis de que los canales son
seleccionados al azar a un nivel de significación del 5%
Canal #Bebidas por
expendedor
1 13
2 22
3 18
4 17
Estamos interesados en comprobar la perfección de un dado
cúbico (un dado normal de 6 caras). Para esto realizamos
100 lanzamientos del dado anotando los puntos obtenidos
en cada lanzamiento. A la vista de los resultados obtenidos,
¿podemos concluir que el dado no es perfecto?. Nivel de
significación (5%)
Cara del dado # de veces que se
obtiene
1 14
2 22
3 18
4 17
5 20
6 9
PRUEBA DE HOMOGENEIDAD
Datos correspondientes a dos o más muestras
aleatorias provienen de la misma población.
Observaciones se divide en k conjuntos disjuntos:
A1, A2, ..., Ak.; (clasificando observaciones de cada
muestra).
nij - número de observaciones de la muestra i que
pertenecen al conjunto Aj (tabla de contingencia).
Cuanto menor sean el valor del estadístico χ2, más
coherentes serán las observaciones obtenidas con
los valores esperados y si son mayores indicarán
falta de concordancia entre las observaciones y lo
esperado.
En la prueba de Homogeneidad se suele rechazar
la hipótesis nula (los valores observados son
coherentes con los esperados) cuando el
estadístico es mayor que un determinado valor
crítico.
Se requiere estudiar la fiabilidad de un componente
informático con relación al distribuidor que lo suministra.
Para realizar esto, tomamos una muestra de 100
componentes de cada uno de los 3 distribuidores
comprobando el número de defectuosos en cada lote. La
siguiente tabla muestra el número de defectuosos en para
cada uno de los distribuidores
Al estudiar la relación entre cierta enfermedad y la
adicción al tabaco. Para realizar esto seleccionamos una
muestra de 150 individuos, 100 individuos no fumadores
y 50 fumadores. La siguiente tabla muestra las
frecuencias de enfermedad en cada grupo (Completar la
tabla).
PRUEBA DE INDEPENDENCIA
Se determina si dos cualidades o variables referidas a
individuos de una población están relacionadas.
Ve la relación existente entre dos variables de una misma
población, no queremos contrastar la distribución teórica de
una variable (prueba de bondad de ajuste) ni en comparar la
distribución de una única variable en dos poblaciones (prueba
de homogeneidad).
En una población (X e Y), obteniéndose una muestra aleatoria
simple bidimensional (X1,Y1),(X2,Y2),...,(Xn,Yn).
Si deseamos contrastar las características poblacionales X e Y
son independientes o no.
- Conjunto de posibles valores de X en k conjuntos disjuntos
A1,A2,...,Ak; y de Y en r conjuntos disjuntos: B1,B2,...,Br.
- Clasificando tengo nij , en cada una de las k × r clases así
constituidas, dando lugar a una tabla de contingencia de la
forma:
Para estudiar la dependencia entre la práctica de algún
deporte y la depresión, se seleccionó una muestra aleatoria
simple de 100 jóvenes, con los siguientes resultados:
Determinar si existe independencia entre la actividad del
sujeto y su estado de ánimo. Nivel de significación (5%)
Un estudio que se realizó con 81 personas referente a la
relación entre la cantidad de violencia vista en la televisión y
la edad del televidente produjo los siguientes resultados.
¿Indican los datos que ver violencia en la televisión depende
de la edad del televidente, a un nivel de significación del 5%?