0% encontró este documento útil (0 votos)
401 vistas26 páginas

Métodos No Paramétricos en Estadística

Este documento describe varios métodos no paramétricos comúnmente usados para analizar datos, incluyendo la prueba chi-cuadrado, la prueba de los signos, la prueba de Wilcoxon y la prueba de Kruskal-Wallis. Explica que los métodos no paramétricos no requieren suposiciones sobre la forma de la distribución de probabilidad de los datos y son útiles cuando las muestras son pequeñas o los datos no siguen una distribución normal. Luego procede a describir cada método en detalle, incl

Cargado por

Minora Rodas
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
401 vistas26 páginas

Métodos No Paramétricos en Estadística

Este documento describe varios métodos no paramétricos comúnmente usados para analizar datos, incluyendo la prueba chi-cuadrado, la prueba de los signos, la prueba de Wilcoxon y la prueba de Kruskal-Wallis. Explica que los métodos no paramétricos no requieren suposiciones sobre la forma de la distribución de probabilidad de los datos y son útiles cuando las muestras son pequeñas o los datos no siguen una distribución normal. Luego procede a describir cada método en detalle, incl

Cargado por

Minora Rodas
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

ÍNDICE

Introducción i

Métodos no Paramétricos 1

Prueba Chi-cuadrado 1

Prueba de los signos 11

Prueba de Wilcoxon 17

Prueba de Kruskal-Wallis 19

Conclusiones 24

Bibliografías 25
INTRODUCCIÓN

Hay situaciones en las que, debido al escaso número de observaciones o por el


nivel de medición de las variables, no es correcto o no es posible hacer supuestos
sobre las distribuciones muestrales. En tales casos se utilizan los “métodos no
paramétricos”; éstos, son la manera más eficaz de solucionar el problema de falta
de normalidad, ya que suelen requerir suposiciones menos restrictivas acerca del
nivel de medición de los datos y menos suposiciones acerca de la forma de las
distribuciones de probabilidad generadas por los datos muestrales; debido a lo
anterior y ya que éste método no requiere que la distribución sea caracterizada por
ciertos parámetros, se considera que tienen una aplicación más general que los
métodos paramétricos.

Existen muchos tipos de pruebas dentro de los métodos no paramétricos, en esta


ocasión, nos centraremos en estudiar: la prueba de chi-cuadrado, la prueba de los
signos, la prueba de rango de signos de Wilcoxon y la prueba de Kruskal-Wallis,
todos ellos diseñados para dos muestras poblacionales con excepción del último,
ya que la prueba de Kruskal-Wallis es la única que se utiliza con 3 muestras
poblacionales o más.

Como parte del entendimiento de nuestro tema de estudio, es necesario indicar que,
la prueba de chi-cuadrado se desarrolla para el análisis de datos con una hipótesis
dentro de su planteamiento, y la prueba de los signos se enfoca en el análisis de
datos de dos grupos que tengan relación o estén emparejados entre sí por la
existencia de un supuesto de igualación de poblaciones; así mismo, es ineludible
comprender que la prueba de Wilcoxon está enfocada para pruebas relacionadas
existiendo dos categorías o variables donde las muestras no son independientes y
como último punto, la prueba de Kruskal-Wallis está enfocada a aquellos grupos de
datos en los cuales las variables no son continuas en todos los grupos o cuando
existe el caso que la varianza no exista en algunos de los grupos.

I
MÉTODOS NO PARAMÉTRICOS

Una prueba no paramétrica es una prueba de hipótesis que no requiere que la


distribución de la población sea caracterizada por ciertos parámetros. Por ejemplo,
muchas pruebas de hipótesis parten del supuesto de que la población sigue una
distribución normal con los parámetros μ y σ. Las pruebas no paramétricas no parten
de este supuesto, de modo que son útiles cuando los datos son considerablemente
no normales y resistentes a transformaciones.

En un método no paramétrico, se presupone que la distribución de la que proviene


la muestra no está especificada y, con frecuencia, se desea hacer inferencias sobre
el centro de la distribución. Por ejemplo, muchas pruebas de la estadística
paramétrica, como la prueba t de 1 muestra, se realizan bajo el supuesto de que los
datos provienen de una población normal con una media desconocida. En un
estudio no paramétrico, se elimina el supuesto de normalidad.

Los métodos no paramétricos son útiles cuando no se cumple el supuesto de


normalidad y el tamaño de la muestra es pequeño. Sin embargo, las pruebas no
paramétricas no están completamente libres de supuestos acerca de los datos. Por
ejemplo, es fundamental presuponer que las observaciones de las muestras son
independientes y provienen de la misma distribución. Además, en los diseños de
dos muestras, se requiere el supuesto de igualdad de forma y dispersión.

A continuación, estudiaremos los principales métodos no paramétricos de uso


común.

PRUEBA CHI-CUADRADO

Según Webster (2001), “Existe una distribución chi-cuadrado para cada grado de
libertad. A medida que se incrementa el número de grados de libertad, la distribución
chi-cuadrado se vuelve menos sesgada. Las dos aplicaciones más comunes de chi-
cuadrado son 1) pruebas de bondad de ajustes y 2) pruebas de independencia. La
2
prueba de bondad de ajuste se utiliza entonces para determinar si la distribución de
los valores en la población se ajusta a una forma en particular planteada como
hipótesis – en este caso, una distribución uniforme. De la misa manera que, con
todas las pruebas estadísticas de esa naturaleza, los datos muestrales se toman de
la población y éstos constituyen la base de los hallazgos, y una prueba de
independencia chi-cuadrado también permitirá la comparación de dos atributos para
determinar si existe una relación entre ellos”. (pág. 82)

Por lo tanto, las pruebas chi-cuadrado son un grupo de contrastes de hipótesis que
sirven para comprobar afirmaciones acerca de las funciones de probabilidad (o
densidad) de una o dos variables aleatorias.

Estas pruebas no pertenecen propiamente a la estadística paramétrica pues no


establecen suposiciones restrictivas en cuanto al tipo de variables que admiten, ni
en lo que refiere a su distribución de probabilidad ni en los valores y/o el
conocimiento de sus parámetros.

La determinación de la distribución chi-cuadrado corresponde al resultado de la


sumatoria de lo que observó menos lo que esperó al cuadrado dividido lo que se
esperó:

Se aplican en dos situaciones básicas:

a) Cuando queremos comprobar si una variable, cuya descripción parece


adecuada, tiene una determinada función de probabilidad. La prueba
correspondiente se llama chi-cuadrado de ajuste.
b) Cuando queremos averiguar si dos variables (o dos vías de clasificación) son
independientes estadísticamente. En este caso la prueba que aplicaremos
ser la chi-cuadrado de independencia o chi-cuadrado de contingencia.

En una prueba de ajuste la hipótesis nula establece que una variable X tiene una
cierta distribución de probabilidad con unos determinados valores de los

3
parámetros. El tipo de distribución se determina, según los casos, en función de: la
propia definición de la variable, consideraciones teóricas al margen de esta y/o
evidencia aportada por datos anteriores al experimento actual.

A menudo, la propia definición del tipo de variable lleva implícitos los valores de sus
parámetros o de parte de ellos; si esto no fuera así dichos parámetros se estimarán
a partir de la muestra de valores de la variable que utilizaremos para realizar la
prueba de ajuste.

Empezaremos definiendo las hipótesis.

Hipótesis nula Ho: X tiene distribución de probabilidad f(x) con parámetros y1,...,
yn

Hipótesis alternativa: X tiene cualquier otra distribución de probabilidad.

Es importante destacar que el rechazo de la hipótesis nula no implica que sean


falsos todos sus aspectos sino únicamente el conjunto de ellos; por ejemplo, podría
ocurrir que el tipo de distribución fuera correcto pero que nos hubiésemos
equivocado en los valores de los parámetros.

Obviamente, necesitaremos una muestra de valores de la variable X. Si la variable


es discreta y tiene pocos valores posibles, estimaremos las probabilidades de
dichos valores mediante sus frecuencias muestrales; si la variable es continua o si
es una discreta con muchos o infinitos valores, estimaremos probabilidades de
grupos de valores o intervalos.

Metodológicamente, la prueba se basa en la comparación entre la serie de


frecuencias absolutas observadas empíricamente para los valores de la variable
(Oi) y las correspondientes frecuencias absolutas teóricas obtenidas en base a la
función de probabilidad supuesta en la hipótesis nula (Ei).

Así pues, una vez calculadas las frecuencias absolutas de cada valor o intervalo de
valores, obtendremos el número total de observaciones de la muestra (T) sumando
las frecuencias observadas:

4
Para calcular las frecuencias esperadas repartiremos este número total de
observaciones (T) en partes proporcionales a la probabilidad de cada suceso o
grupo de sucesos. Para ello calcularemos dichas probabilidades utilizando la
función de probabilidad definida en la hipótesis nula f(x), de modo que, cada valor
Ei tendrá la siguiente expresión:

Por tanto, tendremos los siguientes datos para la prueba:

Valor de la variable X1 X2 X3 … Xi
Frecuencias observadas O1 O2 O3 … Oi
Frecuencias esperadas E1 E2 E3 … Ei

Si la hipótesis nula es cierta, las diferencias entre valores observados y esperados


(que siempre existirán por tratarse de una muestra aleatoria) son atribuibles,
exclusivamente, al efecto del azar. En estas condiciones, se puede calcular un
parámetro que depende de ambos, cuya distribución se ajusta a una chi-cuadrado.

Si, por el contrario, la hipótesis nula fuera falsa los Ei ya no serían, realmente, los
valores esperados de las frecuencias; por tanto, las diferencias entre los valores
"esperados" y los observados reflejarían no sólo el efecto del azar sino también las
diferencias entre los Ei y la auténtica serie de valores esperados (desconocida)
Como consecuencia, las diferencias de los numeradores de la expresión anterior
tienden a ser más grandes y, por estar elevadas al cuadrado, la suma de cocientes
ser positiva y mayor que lo que se esperaría para los valores de una chi-cuadrado.

5
Por tanto, el parámetro anterior será el estadístico de contraste de la prueba de
hipótesis y la región crítica se encontrar siempre en la cola derecha de la distribución
chi-cuadrado. Evidentemente, esta prueba será siempre de una sola cola.

Ejemplo 1:

Un investigador quiere estudiar si hay asociación entre la práctica


deportiva y la sensación de bienestar. Extrae una muestra aleatoria de
100 sujetos. Los datos aparecen a continuación:

Sensación Práctica deportiva


Total
bienestar Sí No
Sí 20 25 45
No 10 45 55
Total 30 70 100

Contraste la hipótesis de indenpendencia entre bienestar práctica de


deporte (alfa = 0.01).

Calculemos las frecuencias esperadas:

Sensación Práctica deportiva


bienestar Sí No
Sí (45*30) /100 = 13.5 (45*70) /100 = 31.5
No (55*30) /100 = 16.5 (55*70) /100 = 38.5

Calculemos chi-cuadrado:

1) Hagamos otra tabla, donde restamos a las frecuencias absolutas las


frecuencias esperadas

6
2) Este valor elevado al cuadrado.

3) Dividido por la frecuencia esperada.

Práctica deportiva
Sensación bienestar
Sí No
Sí 3.1296 1.3413
No 2.5606 1.0974

X^2 = 3.1296 + 1.3413 + 2.5606 + 1.0974 = 8.13

Ahora calculemos el valor de la tabla chi-cuadrado:

1) Grados de libertad, son:


K = (número de fila - 1 ) * (número de columnas - 1)
K = (2 - 1) * (2 - 1)

2) El valor alfa 0.01

3) El valor que buscamos

X^2 tabla= 6.63

Tenemos:
X^2 = 8.13
X^2 tabla= 6.63

Por tanto:
X^2 > X^2 tabla

Conclusión:
La práctica deportiva y la sensación de bienestar están asociadas

Ejemplo 2:

Hipótesis nula Ho: La mayoría prefiere usar televisores marca LG (No hay relación
entre género y sistema).
Hipótesis alternativa Hi: Que los hombres y mujeres prefieren usar más los
televisores marcas Panasonic y Samsun. (Sí hay relación entre género y sistema).

7
El margen de error corresponde al 5%

Tabla de contingencia

Marca Televisores Mujeres Hombres Total


LG 96 54 150
Panasonic 123 27 150
Samsung 81 19 100
Total 300 100 400

Paso No. 2: Determinar el grado de libertad

Para determinar el grado de libertad se debe de considerar:

1. El tamaño de la tabla, como podemos observar la tabla posee tres filas y


dos columnas.
2. Apoyarnos de la fórmula que establece que al total de filas se le resta 1
multiplicado por el total de columnas menos 1. (F-1) * (C-1)

(F-1) * (C-1)
(3-1) * (2-1)
(2) * (1) = 2 = Grado de libertad

Paso No. 3: Cálculo de frecuencia esperada

La frecuencia esperada resulta de todos los datos obtenidos de acuerdo a la


encuesta tal como se muestran en la tabla de contingencias. Para la determinación
se debe de considera la cantidad total de filas por la cantidad total de la columna
dividido el total de encuestados.

e1= 300 * 150 45,000 = 112.5 Frecuencia esperada


400 400

e2= 300 * 150 45,000 = 112.5 Frecuencia esperada


400 400

8
e3= 300 * 100 30,000 = 75 Frecuencia esperada
400 400

e4= 100 * 150 15,000 = 37.5 Frecuencia esperada


400 400

e5= 100 * 150 15,000 = 37.5 Frecuencia esperada


400 400

e6= 100 * 100 10,000 = 25 Frecuencia esperada


400 400

Y se procede a insertar los valores de la frecuencia esperada en la tabla de


contingencias con su respectiva frecuencia observada.

Marca Televisores Mujeres Hombres Total


LG 96 112.5 54 37.5 150
Panasonic 123 112.5 27 37.5 150
Samsung 81 75 19 25 100
Total 300 100 400

Paso No. 4: Cálculo de la distribución de Chi cuadrado.

N = número de categorías o clases

Oi = Frecuencia de eventos observados


N (Oi - Ei)2
Ei Ei = Frecuencia esperada
i=1

A continuación, se prepara otra tabla que consiste en establecer y ubicar la


combinación de las posibles variables resultantes:

9
(Oi-Ei)2
Oi Ei (Oi-Ei) (Oi-Ei)2
Casillas (x,y) Ei
H-LG 96 112.5 -16.5 272.3 2.42
M-LG 54 37.5 16.5 272.3 7.26
H-Panasonic 123 112.5 10.5 110.3 0.98
M-Panasonic 27 37.5 -10.5 110.3 2.94
H- Samsung 81 75 6 36 0.48
M-Samsung 19 25 -6 36 1.44
Chi Cuadrada 15.52

Hipótesis nula Ho: La mayoría prefiere usar televisores marca LG.


Hipótesis alternativa Hi: Que los hombres y mujeres prefieren usar más los
televisores marcas Panasonic y Samsun.

Grado de libertad: 2

Margen de error: 5% = 0.05

Se procede a ubicar dentro de la tabla de Distribución de Chi cuadrado, el grado de


libertad ubicado en la fila v/p y el margen de error o el nivel de confianza.

Extracto de Tabla de Distribución de Chi Cuadrado.

10
De acuerdo a la probabilidad encontrada en tabla se establece que la probabilidad
es menor a la probabilidad determinada en chi cuadrado X2.

Probabilidad tabla = 5.9915

Chi cuadrado =15.52

Conclusión
De acuerdo a los resultados obtenidos se descarta la hipótesis nula, debido a que
indica que no hay relación entre el género y sistema debido a que la mayoría prefiere
usar celulares de marca LG.

PRUEBA DE LOS SIGNOS

Una prueba no paramétrica utilizada comúnmente para tomar decisiones


comerciales es la prueba de los signos. Esta prueba es la más usada con frecuencia
para contrastar la hipótesis comparando dos distribuciones poblacionales y por lo
general implica el uso de pares correspondientes. Se suponen que se tienen datos
antes y después para una muestra y se desean comparar estos conjuntos de datos
correspondientes. Se hace restando las observaciones por pares en un conjunto de
datos de las del segundo. Y se nota el signo algebraico que resulta, no se tiene
interés en la magnitud de la diferencia, sino solo si resulta en un signo más o un
signo menos.

“La prueba del signo se basa en los signos de las diferencias entre las
observaciones por pares de dos variables aleatorias X y Y. Sean (𝑋1 , 𝑌1 ), (𝑋2 , 𝑌2 )…,
(𝑋𝑛 , 𝑌𝑛 ) pares de n observaciones muéstrales de las distribuciones de X y Y, donde
se supone que estas son continuas. En muchas ocasiones existe una relación
natural entre X y Y por lo que X y Y no necesitan ser independientes” (Canavos,
1,998, pág.579)

11
Esta prueba permite comparar dos variables y determinar si la hipótesis nula se
rechaza o no, todo depende de la cantidad de signos negativos que existan en la
muestra.

Cuando ocurren empates al aplicar la prueba del signo, el procedimiento que se


recomienda seguir es el ignorarlos y emplear la prueba solo para aquellos pares en
los que no ocurren empates. Este procedimiento puede representar un problema si
se tiene numerosos empates y el número original de pares es relativamente
pequeño.

“En una aplicación de investigación de mercado de la prueba de los signos se usa


una muestra de n clientes potenciales para que indiquen su preferencia por una de
dos marcas de un producto, por ejemplo, de un café, de un detergente o de un
refresco. Las n expresiones de preferencia son datos nominales, ya que el
consumidor simplemente nombra una preferencia. Dados estos datos, el objetivo es
determinar si existe diferencia en las preferencias entre los dos artículos que se
comparan. Como se verá, la prueba de los signos es un procedimiento estadístico
no paramétrico para responder esta pregunta.” (Anderson, Sweeney, Williams,
2,008, pág. 815)

Ejemplo 1:

Honda probó la resistencia al uso de dos tipos de bandas de rodamiento de los


neumáticos en su motocicleta Nighthawk. Se seleccionaron 10 motos
aleatoriamente. Los mecánicos montaron los neumáticos con un tipo de banda en
el frente, y otra banda en el rodamiento de atrás, después de manejar las
motocicletas un numero de millas especificado bajo las condiciones establecidas,
produjeron un desgaste entre 0 y 40 cada neumático. Una calificación más alta
indico un mejor neumático. Los resultados se muestran en la siguiente tabla. Los
analistas de Honda desean probar la hipótesis de que no hay diferencia en las
calificaciones de desgaste al nivel del 10% las hipótesis son:

12
𝐻0 : 𝑚 = 𝑝

𝐻𝐴 : 𝑚 ≠ 𝑝

Clasificación de desgaste
Neumáticos Tipo de banda 1 Tipo de banda 2 Signo
1 32 37 -
2 27 25 +
3 21 21 0
4 13 17 -
5 25 29 -
6 38 39 -
7 17 23 -
8 29 33 -
9 32 34 -
10 34 37 -

La observación 3 se ignora porque la diferencia es 0, existe un signo más y ocho


signos menos. Honda puede calcular la probabilidad de que uno o menos signos
más puedan ocurrir o la probabilidad de que ocho o más signos menos puedan
ocurrir, concentrándose en el número de signos más se tiene que:

𝑃(𝑝 ≤ 1|𝑛 = 9, 𝜋 = 0.5) = 0.0195

Claro que se obtiene la misma respuesta si se utiliza el número de signos menos en


la prueba:

𝑃(𝑚 ≥ 8|𝑛 = 9, 𝜋 = 0.5) = 1 − 𝑃(𝑚 ≤ 7) = 1 − 0.9805 = 0.0195

Debido a que ∝/2 = 0.10/2 = 0.5 > 0.0195, se rechaza la hipótesis nula.

Ejemplo 2:

En un estudio se pretende conocer si un tratamiento de relación produce efectos


positivos en los niveles de quemaduras en un grupo de trabajadores. Por lo que se
toma a los trabajadores con el nivel más alto de quemaduras y se le traslada a un

13
centro de técnicas de relación, y posterior se vuelve a tomar una muestra del nivel
en el que regresa. Esto para demostrar si al someterse a este tratamiento la persona
mejora.

Hipótesis estadísticas

Ho= El tratamiento no produce efectos en los niveles de quemaduras de los


trabajadores.

H1= El tratamiento disminuye los niveles de quemadura de los trabajadores.

Nivel de confianza: 95%

Fórmula matemática para realizar el caso:

P(x) = (N/X)

Antes Después Signo


5 1 +
5 2 +
5 1 +
2 3 -
4 3 +
5 1 +
2 2 0
4 3 +
5 1 +
4 3 +

N*9
P (x) = = 0.02 Tabla
X*1

Esto nos indica que el tratamiento sí disminuye o tiene un efecto positivo en las
personas con altos niveles de quemaduras, ya que anteriormente tenía un 5% y
ahora bajo a un nivel de 0.020, o sea un 2%.

Nota: para sacare el valor de 0.020 debemos de observar la tabla de probabilidades


asociadas con valores tan pequeños como los valores observados de cero en la

14
prueba binomial. Ya que las hipótesis buscadas son unilaterales, ya que no están
basadas en la desigualdad.

Es también oportuno mencionar que se pueden trabajar con muestras grandes, Las
cuales están constituidas por más de 25 elementos.

Utilizando el ejemplo anterior, el planteamiento es el mismo y las hipótesis de la


estadística se mantienen, sin embargo, trabajaremos con una base de datos
diferentes con un número mayor de casos, ejecutando una tabla de doble entrada
la cual se detalla a continuación:

Pretest Posttest Pretest Posttest


2 1 1 1
2 1 1 1
2 1 1 1
2 1 2 2
2 1 2 2
2 2 1 2
1 2 2 1
1 2 1 1
1 1 2 1
2 1 1 2
2 2 2 1
2 2 2 1
2 2 2 1
1 1 2 1
1 1 2 2

Posttest
- +
Pretest + 12 7
- 7 4

Considerando que el tamaño de la tabla a utilizar es mayor a 25 elementos,


realizamos un cambio de formula a fin de realizar la operatoria y operar los valores.

Prueba de los signos

Fórmula 2:

15
(X ± 0.5) - 1/2 N
Z=
1/2 √N

Donde X hace referencia al Mayor de las frecuencias = 12

Donde N es el número total de casos = 30

Sustituimos los valores de la fórmula y realizamos la operatoria para validar el dato


y obtener los resultados que deseamos.

(12 ± 0.5) - 0.5 (30)


Z=
1/2 √30

(12 ± 0.5) – 15
Z=
1/2 √30

*Como 15 es mayor que 12 utilizamos el signo más (+)

12.5 – 15 = -2.5 = -2.5 -0.91


Z=
1/2 √30 0.5(5.48) 2.74

El valor -0.91 se busca en la tabla áreas y ordenadas de la curva normal en función


de X. 0.1814, considerando que nuestra hipótesis unilateral nuestro valor queda
intacto, si fueran bilaterales duplicamos los valores, como vemos el pre-valor hallado
es mayor que el alfa 0.05 por ende no hay evidencia para rechazar la hipótesis nula,
esto da a conocer que el tratamiento produce efecto en las quemaduras.

16
PRUEBA DE RANGOS DE SIGNOS DE WILCOXON

“La prueba de los rangos con signo de Wilcoxon es la alternativa no paramétrica al


método paramétrico de las muestras por pares (o apareadas). En la situación de las
muestras por pares, cada unidad experimental genera dos observaciones, una
correspondiente a la población 1 y otra correspondiente a la población 2. Las
diferencias entre los pares de observaciones permiten apreciar la diferencia entre
las dos poblaciones.” (Anderson, Sweeney, Williams, 2,008, p.820)

La prueba del signo considera las diferencias en el signo entre cada par de
observaciones e ignora sus magnitudes. Si las observaciones se definen sobre una
escala ordinal, las magnitudes de las diferencias tienen poco valor. Pero si las
observaciones son magnitudes físicas, la prueba del signo puede ignorar mucha
información debido a que no se toman en cuenta las magnitudes de las diferencias.
La prueba de rangos y de signos de Wilcoxon, toma en cuenta tanto el signo como
la magnitud de las diferencias entre cada par de observaciones. Por lo tanto, para
tener un buen balance, este es el mejor método no paramétrico por utilizar para
observaciones en parejas.

“La prueba de Wilcoxon se aplica con bastante éxito en las ciencias de la conducta.
Con datos conductuales, es común que el investigador pueda: 1. Determinar cuál
miembro del par es "más grande que" (determinar el signo de la diferencia entre
cualquier par) y 2. Establecer rangos en las diferencias en orden de tamaño
absoluto. Esto es, el investigador puede hacer juicios de "mayor que" entre los
valores de cualquier par, tanto como acerca de las diferencias entre dos pares
cualesquiera.” (Siegel, 1,998, p.113)

En dicha prueba, como mencionan los autores, lo principal es determinar las


muestras por pares para poder realizar un análisis con base a la diferencia entre las
observaciones por medio de su signo.

17
Ejemplo 1:

De una clase de estadística se seleccionan al azar 11 estudiantes y se observan


sus calificaciones en dos exámenes sucesivos. Para las calificaciones dadas en la
tabla utilice la prueba de signos de Wilcoxon para determinar si el segundo examen
fue más difícil que el primero. Use ∝ = 0.1.

En la tabla se encuentran las diferencias (examen 1 – examen 2), rangos y rangos


con signos para los 11 estudiantes. Dado que se desea determinar si el segundo
examen fue más difícil que el primero, la hipótesis alternativa unilateral y la regio
critica se encuentra en el extremo superior de la distribución del muestreo de 𝑇+ es
decir, si el valor observado de la suma de los rangos positivos es grande lo anterior
implicaría tener calificaciones bajas, en forma suficiente, para el examen 2 y debe
rechazarse la hipótesis nula de no diferencia.

Rango con
Estudiante Prueba 1 Prueba 2 Diferencia Rango
signo
1 94 85 9 8 8
2 78 65 13 10 10
3 89 92 -3 4 -4
4 62 56 6 7 7
5 49 52 -3 4 -4
6 78 74 4 6 6
7 80 79 1 1 1
8 82 84 -2 2 -1
9 62 48 14 11 11
10 83 71 12 9 9
11 79 82 -3 4 -4

La suma de los rangos positivos es 8 + 10 + 7 + 6 + 1 + 11 + 9 = 52.

Para n = 11, los valores de la media y la varianza de 𝑇+ son 𝐸(𝑇+ )=33 y 𝑉𝑎𝑟(𝑇+ ) =
126.5 Entonces mediante el empleo de la aproximación normal,

52 − 33
𝑍= = 1.69
√126.5

Para ∝= 0.1, 𝑧0.9 = 1.28, y por lo tanto se rechaza la hipótesis nula.

18
PRUEBA DE KRUSKAL-WALLIS

Si se necesita comparar más de dos poblaciones, la prueba de Kruskal-Wallis se


aplica como extensión lógica de la prueba Mann-Whitney, y se utiliza para probar la
hipótesis respecto a la distribución de tres o más poblaciones, en este sentido, la
prueba funciona como la parte no paramétrica del diseño completamente
aleatorizado utilizado en las pruebas ANOVA, mientras que las pruebas ANOVAS
dependen del supuesto de que todas la poblaciones en comparación están
distribuidas normalmente, la prueba Kruskal-Wallis no coloca esta restricción en la
comparación.

“La prueba de Kruskal-Wallis se basa en el análisis de muestras aleatorias


independientes de cada una de las k poblaciones. La prueba no paramétrica de
Kruskal-Wallis se puede usar tanto con datos ordinales como con datos de intervalo
o de razón. Además, en la prueba de Kruskal-Wallis no es necesario suponer que
las poblaciones tienen una distribución normal. De manera que siempre que los
datos de k ≥ 3 poblaciones sean ordinales o siempre que la suposición de que las
poblaciones tengan una distribución normal sea cuestionable, la prueba de Kruskal-
Wallis proporciona un método estadístico alternativo para probar si las poblaciones
son idénticas. Esta prueba de Kruskal-Wallis se demostrará con un ejemplo de
selección de empleados.” (Anderson, Sweeney, Williams, 2,008, p.833)

Los pasos para calcular la prueba Kruskal-Wallis son los que se detallan a
continuación:

1) Planteamiento de hipótesis.
 Ho: Las k poblaciones tienen todas las mismas poblaciones.
 H: Las k poblaciones no tienen todas las mismas poblaciones.
2) Se ordenan las n observaciones de menor a mayor, y se les asignan rangos
desde 1 hasta n.
3) Se genera la suma de los rangos correspondientes a los elementos de cada
muestra, Rj y se halla el rango promedio.

19
Estadístico de prueba de Kruskal-Wallis

Dónde:

k= número de poblaciones
ni = número de elementos en la muestra i
nT = Sumatoria ni = número total de los elementos en todas las muestras
Ri = suma de los rangos de la muestra i

Esta prueba es un tanto especial y se diferencia dentro de las pruebas no


paramétricas puesto que, en comparación de otras (Chi-Cuadrado, de los signos,
Wilcoxon) es la única que analiza y opera tres muestras poblacionales a la vez y
concluir si la hipótesis nula se rechaza o se acepta.

Ejemplo 1:

Se tomaron muestras aleatorias independientes de casas recientemente vendidas


en cuatro zonas residenciales de una gran ciudad. El problema era determinar si
existían diferencias en las zonas con respecto al valor de la propiedad y el precio
de venta. Los datos que figuran en la tabla son los cocientes entre los precios de
venta y el valor catastral de la propiedad. Para ∝=0.05 empléese la estadística de
Kruskal-Wallis para probar si estas muestras provienen de poblaciones con
distribución idénticas.

Zona residencial
1 2 3 4
1.19 (15) 1.08 (4.5) 0.98 (2) 1.12 (7.5)
1.05 (3) 1.23 (17.5) 1.19 (15) 1.14 (10)
1.14 (10) 1.26 (20) 1.08 (4.5) 1.31 (22)
1.25 (19) 1.10 (6) 0.93 (1) 1.12 (7.5)
1.19 (21) 1.18 (12.5) 1.23 (17.5) 1.19 (15)
1.14 (10) 1.18 (12.5)

20
Los valores que se encuentran entre paréntesis en la tabla son los rangos de las
observaciones después de haberlas combinado y ordenado. Nótese que: 𝑛1 = 𝑛4 =
5, 𝑛2 = 𝑛3 = 6 𝑦 𝑁 = 22. Las sumas de los rangos de cada muestra son: 𝑅1 =
68, 𝑅2 = 70.5, 𝑅3 = 52.5, 𝑦 𝑅4 = 62. Entonces el valor de la estadística de Kruskal-
Wallis es

12 (68)2 (70.5)2 (52.5)2 (62)2


𝑊= [ + + + ] − 3(23) = 1.70
(23)(22) 5 6 6 5

Para ∝=0.05 y k-1 = 3 grados de libertad, el valor critico es de 7.82. Dado que 𝑊 =
1.70 < 7.82, no puede rechazarse la hipótesis nula. Por lo tanto, no existe alguna
razón para creer que existen diferencias entre las zonas cuando se comparan el
precio de venta y el valor real de las propiedades.

Ejemplo 2:

Manufacturera Textiles La Preciosa, S.A. recluta y contrata personal para formar un


equipo gerencial en tres escuelas diferentes, se dispone de calificaciones de
desempeño en muestras independientes de cada una de las escuelas.

Dispone calificaciones de 7 empleados de la escuela toallas, 6 de la escuela telas y


7 de la escuela pique, la calificación de cada gerente estará a la escala de 0 a 100,
el límite superior es la máxima nota, a continuación, las notas correspondientes:

Escuela Toallas Escuela Telas Escuela Pique


25 60 50
70 20 70
60 30 60
85 15 80
95 40 90
90 35 70
80 0 75

Se quiere determinar si las tres clases de escuelas son idénticas en cuanto las
evaluaciones de desempeño.

21
Ho: Las poblaciones son idénticas en términos de las evaluaciones de
desempeño.

Ha: Las poblaciones no son idénticas en términos de las evaluaciones de


desempeño.

Se ordenan los datos y se le coloca el rango correspondiente:

Escuela Nota Rango


Escuela Telas 15 1
Escuela Telas 20 2
Escuela Toallas 25 3
Escuela Telas 30 4
Escuela Telas 35 5
Escuela Telas 40 6
Escuela Pique 50 7
Escuela Pique 60 9
Escuela Telas 60 9
Escuela Toallas 60 9
Escuela Pique 70 12
Escuela Pique 70 12
Escuela Toallas 70 12
Escuela Pique 75 14
Escuela Pique 80 15.5
Escuela Toallas 80 15.5
Escuela Toallas 85 17
Escuela Pique 90 18.5
Escuela Toallas 90 18.5
Escuela Toallas 95 20

Luego se ubican los rangos asignados de acuerdo a la clasificación original de las


escuelas:

22
Escuela Nota Rango Escuela Nota Rango Escuela Nota Rango
Escuela Toallas 25 3 Escuela Telas 15 1 Escuela Pique 50 7
Escuela Toallas 60 9 Escuela Telas 20 2 Escuela Pique 60 9
Escuela Toallas 70 12 Escuela Telas 30 4 Escuela Pique 70 12
Escuela Toallas 80 15.5 Escuela Telas 35 5 Escuela Pique 70 12
Escuela Toallas 85 17 Escuela Telas 40 6 Escuela Pique 75 14
Escuela Toallas 90 18.5 Escuela Telas 60 9 Escuela Pique 80 15.5
Escuela Toallas 95 20 Escuela Pique 90 18.5
95 27 88

Se utiliza la siguiente ecuación para el cálculo de W:

Cálculo estadístico

Las reglas de decisión

Si X2c >= X2tab Se rechaza Ho

X2tab Con k-1 grados de libertad (3-1=2)


Valor de la tabla = 5.99147

Conclusión del caso

El desempeño de los gerentes varía según cada escuela correspondiente a que


ellos asistan, considerando que la escuela telas presenta el menor promedio de
calificaciones tendrán que tener precaución con elegir gerentes de este lugar.

23
CONCLUSIONES

1) Las pruebas no paramétricas por lo general son menos potentes que la


prueba paramétrica correspondiente cuando se cumple el supuesto de
normalidad. Por lo tanto, es menos probable que se rechace la hipótesis nula
cuando sea falsa si los datos provienen de la distribución normal.

2) Las pruebas no paramétricas suelen requerir que se modifiquen las hipótesis.


Por ejemplo, la mayoría de las pruebas no paramétricas acerca del centro de
la población son pruebas sobre la mediana y no sobre la media. La prueba
no responde a la misma pregunta que el procedimiento paramétrico
correspondiente si la población no es simétrica.

3) La prueba de los signos es un método no paramétrico para identificar


diferencias entre dos poblaciones, cuando los datos de que se dispone son
datos nominales.

24
BIBLIOGRAFÍA

 Anderson, Sweeney, Williams, (2008). Estadística para administración y


economía, 10ª. Edición.

 Canavos, G. (1998). Probabilidad y estadística aplicaciones y métodos, 1ª.


Edición.

 Siegel, S. (1998). Estadística no paramétrica aplicada a las ciencias de la


conducta, 4ª. Edición.

 Webster, A. (2001). Estadística aplicada a los negocios y la economía, 3ª.


Edición.

WEB-GRAFÍA

 Métodos no paramétricos, Recuperado de:


https://www.ucm.es/data/cont/media/www/pag-
54183/APUNTES%20ESTAD%C3%8DSTICA%203.pdf

 Análisis Estadístico, Recuperado de:


http://www.iuma.ulpgc.es/~nunez/mastertecnologiastelecomunicacion/Recurs
osGenerales/AnalisisEstadisticoClase9.pdf

25

También podría gustarte