PRACTICA DE ANÁLISIS DE DATOS DE NIVEL NOMINAL.
YANIBEL MARTE ANGULO
100403973
La distribución Chi-cuadrada
La distribución de chi-cuadrada es una distribución continua que se especifica por los
grados de libertad y el parámetro de no centralidad. La distribución es positivamente
asimétrica, pero la asimetría disminuye al aumentar los grados de libertad.
Minita utiliza la distribución de chi-cuadrada (χ 2) en pruebas de significancia estadística
para:
Comprobar qué tan bien se ajusta una muestra a una distribución teórica. Por ejemplo,
puede utilizar una prueba de bondad de ajuste de chi-cuadrada para determinar si los datos
de la muestra se ajustan a una distribución de Polisón.
Comprobar la independencia de las variables categóricas. Por ejemplo, un fabricante desea
saber si la ocurrencia de cuatro tipos de defectos (espárrago faltante, abrazadera rota,
sujetador flojo y sello con fugas) está relacionada con los turnos (diurno, vespertino,
nocturno).
Cuando los grados de libertad son 30 o más, la distribución de chi-cuadrada puede
aproximarse razonablemente con una distribución normal, como se ilustra en las siguientes
gráficas:
Distribución de chi-cuadrada con 20 grados de libertad
Distribución de chi-cuadrada con 40 grados de libertad
Características y objetivos de esta distribución
Prueba de bondad de ajuste de Chi-cuadrada: frecuencias esperadas iguales
La Prueba de Bondad de Ajuste Chi Cuadrado es el test de bondad de ajuste más
utilizado. En general un test de bondad de ajuste se utiliza para discriminar si una
colección de datos o muestra se ajusta a una distribución teórica de una determinada
población. En otras palabras, nos dice si la muestra disponible representa
(ajusta) razonablemente los datos que uno esperaría encontrar en la población.
El test de bondad de ajuste chi cuadrado puede ser utilizado para trabajar tanto
con distribuciones discretas como, por ejemplo, la Distribución de Polisón o
la Distribución Binomial como así también con distribuciones continuas (por
ejemplo, Distribución Normal, Distribución Exponencial, etc.).
Esto a diferencia de las pruebas de bondad de ajuste Kolmogorov Smirnov y Anderson
Darling que sólo pueden ser utilizados para trabajar con distribuciones continuas.
La aplicación de la prueba de bondad de ajuste chi cuadrado requiere:
Que los datos estén agrupados en categorías o clases. Si los datos originalmente no se
encuentran agrupados será necesario agruparlos antes de aplicar el test de chi cuadrado para
lo cual será necesario construir una tabla de frecuencia o histograma.
Al respecto, existen varios programas computacionales que permiten construir de forma
sencilla un histograma. Uno de ellos es Easyfit que puede ser descargado en su versión de
prueba y que permite automatizar el proceso de ajuste de distribuciones tal cual se observa
en la siguiente imagen:
Otra alternativa consiste en hacer un histograma con el software Geogebra.
Una desventaja potencial del test de chi cuadrado es que requiere una
muestra suficientemente grande de modo que la aproximación de chi cuadrado sea válida.
Cabe destacar que existe otro test chi cuadrado llamado test chi cuadrado para
independencia. Frecuentemente los 2 test chi cuadrado son confundidos, pero en realidad
son diferentes:
El test de bondad de ajuste chi cuadrado ajusta una variable categórica a una
distribución.
El test chi cuadrado para independencia compara dos conjuntos de datos para ver si
existe relación entre ellas.
Básicamente, el test de bondad de ajuste chi cuadrado se basa en qué tan buen ajuste se
alcanza entre la frecuencia de ocurrencia de las observaciones en una muestra observada y
las frecuencias esperadas que se obtienen a partir de la distribución hipotética (teórica).
Estadístico de Chi Cuadrado
La fórmula de cálculo del estadístico chi cuadrado utilizado en el test de bondad de ajuste
chi cuadrado corresponde a:
El subíndice c corresponde a los grados de libertad, corresponde al valor
observado para la clase i-pésima y el valor esperado de la clase i-ésima. Si bien
podemos proceder al cálculo del estadístico de forma manual, esto resulta ser tedioso en la
mayoría de los casos, de modo que a continuación mostraremos algunas alternativas de
cálculo apoyadas en la tecnología.
Hipótesis Nula y Alternativa (Test de Chi Cuadrado)
En el caso del test de bondad de ajuste chi cuadrado las hipótesis nula e hipótesis
alternativa son:
: Los datos se ajustan a una distribución dada.
: Los datos no se ajustan a una distribución dada.
Donde la “distribución dada” corresponde a una distribución teórica específica (y con una
estimación de parámetros específicos) a la cual queremos ajustar nuestros datos
categorizados. Por ejemplo, consideremos que disponemos de la distribución de frecuencia
de duraciones de baterías dadas en la siguiente tabla:
Para el ejemplo anterior nuestra hipótesis nula podría ser:
: Los datos se ajustan a una distribución normal con media y desviación
estándar .
Donde dicha hipótesis será evaluada para un nivel de significancia (denotado por : alfa)
definido por el evaluador (comúnmente se consideran valores de alfa de 1%, 5% o 10%).
Adicionalmente el test de chi cuadrado permite obtener un valor p (o p-value) el cual
dependerá de los grados de libertad considerados y el nivel de significancia establecido.
Si el valor p es menor al nivel de significancia se puede rechazar la hipótesis nula.
Limitaciones de la prueba Chi-cuadrada.
Limitaciones de la prueba de chi-cuadrado χ2El contraste de independencia tiene muy
pocas limitaciones, aunque es conveniente hacer algunas observaciones:
16. Limitaciones de la prueba de chi-cuadrado χ2Para contrastar la independencia se suele
usar el estadígrafochi-cuadrado. Su cálculo se basa en calcular la diferencia éntrelas
observaciones observadas para cada par de modalidades de las variables, y las que serían de
esperar en caso de que se satisficiese la condición de independencia. Para que se pueda
considerar correcta la significación calculada por la prueba, se debe cumplir que las
frecuencias esperadas no sean muy pequeñas (inferiores a 5) más que en unas pocas celdas.
Si es en muchas celdas donde esto ocurre (más del 20% por ejemplo) se debe usar una
prueba que no incluya aproximaciones, como la prueba exacta de Fisher. Esta la ofrece
cualquier programa como opción cuando se hace este tipo de contrastes.
17. Limitaciones de la prueba de chi-cuadrado χ2Si las muestras son muy grandes, la
prueba de independencia dará resultados significativos incluso donde, posiblemente,
consideremos que las diferencias no sean en realidad clínicamente interesantes.
18. Limitaciones de la prueba de chi-cuadrado χ2Si una de las variables es numérica u
ordinal, posiblemente queramos hacer algo más que contrastar la simple independencia. Lo
aconsejable es usar pruebas de tipo t-suden, andaba u otra prueba estadística.
19. Limitaciones de la prueba de chi-cuadrado χ2El contraste de chi-cuadrado sirve para
contrastar la independencia. No hay que considerarla como una medida de la asociación
entre variables. Si buscamos estudiar la asociación de variables tenemos otros métodos a
nuestra disposición como la regresión lineal o la logística que está incluida en la tabla
resumen de pruebas estadísticas pero que no se verán este curso.
20. Limitaciones de la prueba de chi-cuadrado χ2Ejemplo: Se tienen datos demográficos de
más de130.000 individuos. De ellos se conoce la edad y el nivel de estudios. Se desea
contrastar si el nivel de estudios de la población es similar para los individuos de diferentes
edades. La sospecha es que, en los individuos más jóvenes, el nivel de estudios es superior.
Seguramente una prueba ANDEVA o un modelo de regresión serían más convenientes.
Análisis de tablas de contingencia
Una tabla de contingencia bidimensional es una clasificación de observaciones muéstrales
según dos características cualitativas, cada una con un número determinado de resultados
posibles. Una de las características determina las filas de la tabla y la otra las columnas.
Característica B
B1 B2 ··· Bm Total
A1 n11 n12 ··· n1m n1·
A2 n21 n22 ··· n2m n2·
Característica
A ··· ··· ··· ··· ··· ···
Ak nk1 nk2 ··· nkm nk·
Tot
n·1 n·2 ··· n·m N
al
Si la muestra corresponde a una única población y los individuos se clasifican según dos
variables cualitativas medidas sobre cada uno de ellos con k y m posibles resultados para
cada variable, el objetivo del análisis de la tabla será determinar si existe relación entre las
variables, se tratará de una prueba de independencia.
Si, por el contrario, cada fila corresponde a una muestra de una población diferente y sobre
cada individuo se mide una variable cualitativa, el objetivo será determinar si las diferentes
poblaciones son homogéneas respecto de la característica estudiada, se trata de
una prueba de homogeneidad entre las poblaciones.
La diferencia fundamental entre ambos enfoques es que en la tabla para la prueba de
homogeneidad los totales de las filas no son aleatorios, sino que son valores fijos.
Aplicación de los conceptos
Al analizar en una población un carácter cualitativo o cuantitativo el estudio resulta muy
tedioso por el gran número de elementos del que consta la población. Generalmente, se
examina una muestra tomada de la población, lo que lleva a tener una serie de datos, y ver
hasta qué punto la muestra se pude considerar perteneciente a una distribución teórica
conocida. Siempre existirán desviaciones entre la distribución empírica u observada y la
distribución teórica. Se plantea la cuestión de saber si estas desviaciones son debidas al azar
o al haber tomado una distribución teórica inadecuada.