NORMALIDAD: SHAPIRO.
TEST Y LILLIE.TEST EN PROGRAMA R
¿Mis datos siguen una distribución normal? Si o no
El día de hoy veremos cómo podemos dar a conocer, “de manera formal”, que nuestros
datos siguen una distribución normal.
Cuando digo “de manera formal” hago referencia a una descripción objetiva de la
normalidad de nuestros datos Por ejemplo veamos los valores de la variable las cajas de
cierto tipo de cereal procesado de una fábrica debe tener un contenido promedio de 160
gramos.
Bien, ahora usemos lo que ya conocemos para intentar conocer si los valores se ajustan
a una distribución normal.
Para esto podemos usar histogramas, curvas de densidad (comparada con la teórica) así
como los todopoderosos gráficos Q-Q.
1 qqnorm(data)
2 qqline(data)
¿Qué piensas? ¿Los datos se ajustan o no a una distribución normal?
¿Sí? ¿No? ¿Parece que sí? ¿Parece que no? ¿Lo dejamos a votación?
Bueno, en una situación como esta podemos usar una prueba estadística que nos de una
respuesta menos subjetiva.
Existen varias pruebas para hacer esto posiblemente las más conocidas son la prueba de
Shapiro-Wilk y la prueba de Kolmogorov-Smirnov.
Todavía no he hecho ninguna entrada sobre el contraste de hipótesis pero vale hacer un
comentario aquí porque la decisión para describir la normalidad de nuestro conjunto de
datos estará en función del resultado de un contraste de hipótesis.
La idea es simple, si el valor de probabilidad (p-value) que obtenemos por la prueba
es menor a 0.05 diremos que “nuestros datos no siguen una distribución normal”.
Si el valor de probabilidad es mayor a 0.05, diremos que “nuestros datos sí siguen
una distribución normal”.
OK, todo esto tiene más tela para cortar pero para fines prácticos vale.
shapiro.test
El valor de probabilidad es mayor a 0.05 por lo que podemos decir que nuestros datos
siguen una distribución normal.
Kolmogorov-Smirnov
La prueba de Kolmogorov-Smirnov puede aplicarse con el comando ks.test pero OJO:
esta prueba tiene todo un hilo de críticas importantes entre las que se encuentra el uso de
una corrección llamada “la corrección de Lilliefors”
Para aplicar el comando primero debemos instalar el paquete llamado nortest, así:
1 install.packages("nortest")
Una vez terminado el proceso, cargamos la librería, así:
1 library(nortest)
El comando en cuestión es lillie.test:
El valor de p también es mayor a 0.05 por lo que podemos decir que nuestros datos
siguen una distribución normal.
¿Qué quiere decir el valor de W y de D?
Esos son valores que se obtienen de las ecuaciones que usan estas pruebas y que
permiten calcular la probabilidad. De hecho, el valor de probabilidad es “la probabilidad
de encontrar un valor mayor o igual que W o D” (dependiendo de la prueba).
¿Qué prueba debo usar?
Aunque todo depende del tipo de datos que tengas podemos hacer una reducción simple
a lo siguiente:
Si el número de valores es menor a 30 -> shapiro.test
Si el número de valores es mayor a 30 -> lillie.test
Sin embargo, todo esto es todavía discutible pero es válido.
Bueno, ahora hemos conocido nuestra primera prueba estadística para describir la
normalidad de “manera formal”.
No olvides ejecutar los siguientes comandos:
shapiro.test
lillie.test