Estadística No Paramétrica
Test de Wilcoxon para dos muestras
El test de Wilcoxon es una prueba no paramétrica utilizada para comparar dos muestras
relacionadas o pareadas y determinar si sus medianas son significativamente diferentes.
Este test no requiere el supuesto de normalidad sobre los datos, por lo que es útil en
contextos donde las muestras no tienen esta distribución.
Por ejemplo, si queremos comparar las calificaciones de un mismo grupo de usuarios
antes y después de utilizar una nueva funcionalidad de una aplicación, utilizamos el test
de Wilcoxon.
Las hipótesis de este test son:
o H0: La mediana de las diferencias entre las calificaciones antes y después de
utilizar la nueva funcionalidad es igual a cero.
o H1: La mediana de las diferencias entre las calificaciones antes y después de
utilizar la nueva funcionalidad es distinta de cero.
Al igual que lo anterior, para realizar el test de Wilcoxon, debemos usar la
función [Link] , a la que deberemos entregar dos vectores con cada uno de los grupos,
y un parámetro adicional, paired=True.
Test de Kruskal-Wallis
El test de Kruskal-Wallis es una prueba no paramétrica utilizada para comparar tres o más
muestras independientes y determinar si al menos una de ellas tiene una distribución
diferente. Este test es una generalización del test de Mann-Whitney y no requiere el
supuesto de normalidad sobre los datos. Las hipótesis de este test son:
H0: La mediana de todos los grupos es la misma.
H1: Al menos una mediana de un grupo es distinta a las demás.
Por ejemplo, si queremos comparar las calificaciones de tres grupos de usuarios que han
utilizado diferentes versiones de una aplicación, utilizamos el test de Kruskal-Wallis.
Las hipótesis de este test son:
o H0: Las calificaciones de los tres grupos de usuarios al usar las diferentes
versiones de la aplicación son las mismas.
o H1: Al menos una de las calificaciones de los tres grupos de usuarios al usar
las diferentes versiones de la aplicación es distinta.
Para realizar este test en R utilizaremos la función [Link], a la que deberemos entregar
un vector con la variable a estudio seguido de un vector con que indique a qué grupo
pertenece. Ambos vectores estarán separados por el símbolo ~.
Test de Spearman
El test de correlación de Spearman es una prueba no paramétrica que se utiliza para medir
la fuerza y la dirección de la asociación entre dos variables ordinales. A diferencia del
coeficiente de correlación de Pearson, no requiere que las variables se distribuyan normal.
Las hipóstesis de este test son:
o H0: No hay correlación entre las dos variables (la correlación de Spearman es
igual a cero).
o H1: Hay una correlación entre las dos variables (la correlación de Spearman no
es igual a cero).
Por ejemplo, si queremos analizar la relación entre la satisfacción de los usuarios y la
frecuencia de uso de una aplicación, podemos utilizar el test de correlación de Spearman,
y así saber si existen una correlación entre ambas variables.
Para realizar este test en R utilizaremos la función [Link] con el método de Spearman, a
la que deberemos entregar los vectores de las variables y un parámetro adicional method
= "spearman”, que indicará que debemos usar el test de spearman.
Pruebas Chi-Cuadrado de Bondad de Ajuste,
Independencia y Homogeneidad y otras pruebas
para la distribución normal
Bondad de Ajuste: Multinomial
En estadística, los test de bondad de ajuste se construyeron para poder probar que, un
cierto conjunto de datos, tiene o no una distribución de probabilidad determinada. Las
hipótesis asociadas a este test, por lo general, son:
H0: Los datos distribuyen <distribución> (por ejemplo, normal)
H1: Los datos no distribuyen <distribución> (por ejemplo, normal)
Hay varios test de bondad de ajuste, que varían en el cálculo del estadístico, la distribución
de dicho estadístico, la forma de los datos, etc. Para esta Unidad estudiaremos el test de
chi-cuadrado para bondad de ajuste. En este módulo, estudiaremos la distribución
multinomial. Una distribución multinomial corresponde una variable aleatoria categórica,
es decir, toma una cantidad determinada de categorías con cierta probabilidad.
Veamos un ejemplo de este test, estamos estudiando la preferencia de marcas de autos.
Una agencia de automóviles indica que el 50% de las personas prefieren Mercedez Benz,
30% Audi y 20% BMV. Tomamos un conjunto de 50 personas, y obtenemos que 22
prefieren Mercedez Benz, 15 Audi y 13 BMW. Para este caso las hipótesis son:
H0: Los datos distribuyen multinomial con 50% para Mercedez Benz, 30% para Audi y
20% para BMW.
H1: Los datos no distribuyen multinomial con 50% para Mercedez Benz, 30% para Audi
y 20% para BMW.
El comando para hacer este test es [Link](), donde debemos entregarle un vector que
contiene la cantidad de elementos de la muestra que tomamos c(22,15,13) y un vector con
las probabilidades c(0.5,0.3,0.2). Al hacer esta test en R obtenemos un valor-p de 0.5326,
siendo mayor a un alpha = 0.05, por lo que podemos concluir que los datos tienen una
distribución multinomial con las probabilidades ya mencionadas.
Bondad de Ajuste: Poisson
A diferencia del caso multinomial, para poder realizar este tipo de test debemos asignar
las probabilidades manualmente. Por ejemplo, si estamos estudiando la cantidad de
personas que se atienden en una fila por minuto en una fila en los bancos y obtenemos la
siguiente muestra:
0 personas: 1
1 persona: 5
2 personas: 12
3 personas: 8
4 personas: 4
5 o más personas: 2
Queremos saber si es que estos datos distribuyen poisson con un valor de lambda de 2,
por lo que las hipótesis para este test son:
H0: Los datos distribuyen poisson con lambda = 2
H1: Los datos no distribuyen poisson con lambda = 2
Para asignar las probabilidades debemos usar la distribución de poisson con lambda 2, es
decir, calcular la probabilidad de X sea igual 1, de que X sea igual a 2, y así
sucesivamente. Al realizar el test en R obtenemos un valor-p de 0.2405, y como es mayor
a alpha = 0.05, podemos concluir que los datos tienen una distribución de poisson con
lambda = 2.
Otras pruebas de bondad de ajuste para la distribución
normal
Para el caso de esta distribución, podríamos utilizar el test de chi-cuadrado para probar
que ciertos datos distribuyen normal, sin embargo, hay test particulares para la
distribución normal. Las hipótesis para los test serán las mismas:
H0: Los datos distribuyen normal
H1: Los datos no distribuyen normal
Para dicha distribución consideraremos dos test:
1. El test de Shapiro Wilk, cuando la cantidad de datos sea menor igual a 30.
2. El test de Kolmogorov-Smirnov, cuando la cantidad de datos sea mayor a 30.
Test de Homogeneidad
El test de homogeneidad es usado para probar que la proporción entre grupos de distintas
poblaciones es la misma.
Por ejemplo, si queremos probar que la cantidad de personas que prefieren distintas
marcas de automóviles (Mercedes Benz, Audi, BMW) (grupos), es la misma para
Alemania, Francia e Italia (poblaciones), debemos usar un test de homogeneidad. En este
caso los grupos son las marcas de automóviles y las poblaciones son los distintos países.
Los hipótesis de este test son:
H0: La preferencia de automóviles para Alemania, Francia e Italia es la misma.
H1: La preferencia de automóviles para Alemania, Francia e Italia es distinta.
Es posible plantear este test considerando que los grupos son los países, y que las marcas
corresponden a las poblaciones. Las hipótesis serían:
H0: La nacionalidad de las personas que prefieren Mercedes Benz, Audi y BMW es la
misma.
H1: La nacionalidad de las personas que prefieren Mercedes Benz, Audi y BMW es
distinta.
Test de Independencia
El test de independencia permite probar que dos variables aleatorias (grupos) son
independientes (de las poblaciones). Por ejemplo, tomando el caso del módulo anterior,
queremos probar que las variables “Marca de automóvil” y “País” son independientes.
Las hipótesis de este test son:
H0: Las variables Marcas de automóviles y País son independientes.
Ha: Las variables Marcas de automóviles y País no independientes. (o bien, son
dependientes)
Este test es muy similar que el test de homogeneidad, de hecho, el cálculo del estadístico
es el mismo, sin embargo, la interpretación es distinta.