0% encontró este documento útil (0 votos)
82 vistas9 páginas

Clase 3

Este documento discute los supuestos del modelo de análisis de varianza (ANAVA) y métodos para probar la normalidad de los datos, incluidas las pruebas de Shapiro-Wilk, D'Agostino y Kolmogorov-Smirnov. Presenta los pasos para aplicar cada prueba y provee ejemplos numéricos. También muestra cómo implementar las pruebas de normalidad en el software R.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
82 vistas9 páginas

Clase 3

Este documento discute los supuestos del modelo de análisis de varianza (ANAVA) y métodos para probar la normalidad de los datos, incluidas las pruebas de Shapiro-Wilk, D'Agostino y Kolmogorov-Smirnov. Presenta los pasos para aplicar cada prueba y provee ejemplos numéricos. También muestra cómo implementar las pruebas de normalidad en el software R.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Clase 3

Jorge Mario Martinez


17/8/2018

Validación de los supuestos del modelo


• El uso de la partición para probar formalmente que no hay diferencias en las medias de los tratamientos
requiere que se satisfagan ciertos supuestos, Específicamente, estos supuestos son:
– Normalidad de los datos (Los datos se ajustan a una distribución normal)
– Homogeneidad de varianzas de los diferentes tratamientos:

¿Qué hacer cuando el modelo no funciona?


• La violación o falta de apego a cualquiera de estas suposiciones indica que los resultados podrían no
tener validez.
– El problema más fuerte con el que ha de luchar el experimentador es el de la falta de homogeneidad
de varianzas, ya que si esto ocurre, no podemos saber si las diferencias entre los tratamientos se
deben a promedios diferentes o varianzas diferentes.
– La falta de normalidad no es tan importante, pues la prueba ANAVA es robusta a este problema
y, en casos extremos, se puede optar por el uso de transformaciones.
• Como último recurso, ante datos dudosos de análisis se puede usar el uso de métodos de estadística no
paramétrica.

Pruebas de Normalidad
• Cuando los datos resultan de un proceso de medición o conteo (variables cuantitativas), es necesario
comprobar antes de cualquier análisis estadístico, si la variable aleatoria estudiada sigue el modelo
normal de distribución de probabilidades.
• De modo que es muy importante poder contar con un método para comprobar la normalidad de un
conjunto de datos originales o transformados.

Hipotesis

H0 := Los datos provienen de una población normal


H1 := Los datos no provienen de una población normal

Entre los numerosos métodos usados para probar la normalidad de un conjunto de datos tenemos:

Test de Normalidad
Test de Shapiro-Wilk
• La prueba de Shapiro-Wilk es una de la más sencilla y potentes. La única condición es que el tamaño
de la muestra debe ser igual o menor a 50.

1
• La prueba de Shapiro-Wilk consta de los siguientes pasos:
– Se ordenan los datos en forma ascendente y1 ≤ y2 ≤, . . . P, ≤ yn
n Pn
– Se calcula la suma de cuadrados de totales SCT = S 2 = i=1 (yi − ȳ)2 = i=1 yi2 − nȳ 2
Pk
– Si n es par n = 2k se calcula b = i=1 an−i+1 (yn−i+1 − yi )
– Si n es impar n = 2k + 1 se omite el valor de la mediana y se calcula el valor de b
2
– Se calcula el valor del estadístico de prueba Wc = Sb 2
– Criterio de decision: Se rechaza la hipótesis nula si (Ho ) si Wc ≤ Wα,n

Test de Shapiro-Wilk
Ejemplo 3
1. Continuando con los datos del ejemplo 2 tenemos
• Se ordenan los datos en forma ascendente:

2. Calculamos la suma de cuadrados del total

3. Como n = 22, número par, calculamos n = 2k → k = 22/2 = 11

Test de Shapiro-Wilk
Ejemplo 3
4. Calculamos el valor del estadístico Wc
17.3772
Wc = = 0.9544
316.3636

5. El valor del Wt con un nivel de significancia α = 5% es:

W0.05; 22 = 0.911

6. Conclusión: Como Wc = 0.9544 > 0.911, No rechazamos la hipótesis nula (Ho ) por lo tanto, los datos
provienen de una población normal

2
Test de Shapiro-Wilk
Tablas
• Coeficientes del estadístico de Shapiro-Wilk (aj,n )

Test de Shapiro-Wilk
Tablas
• Distribución del estadístico de Shapiro-Wilk (w)

3
Test de Normalidad
Test de D´Agostino
• El test de D´Agostino es una prueba de normalidad sencilla de aplicar y con buena potencia en el
caso de alejamiento de normalidad, es aplicable a muestras de tamaño moderado o grande, la tabla
proporciona valores para n ≥ 10.
– Se ordenan los datos en P forma ascendente y1 ≤ y2 ≤, . . . , ≤ yn
n
– Se calcula la suma T = i=1 yi i − n+1 2 Pn Pn
– Se calcula la suma de cuadrados de totales SCT = S 2 = i=1 (yi − ȳ)2 = i=1 yi2 − nȳ 2
– Se calcula el valor del estadístico de prueba DA = √nT3 ∗S 2
– Criterio de decision: Aceptamos la hipótesis nula (Ho ) si D pertenece al intervalo para el
tamaño n y un valor de α dado

Test de D´Agostino
Ejemplo 4
1. Continuando con los datos del ejemplo 2 tenemos
• Se ordenan los datos en forma ascendente:

2. Calculamos la suma del estadístico T

T = (2)(1 − 11.5) + (3)(2 − 11.5) + (3)(3 − 11.5) + . . . + (14)(21 − 11.5) + (16)(22 − 11.5) = 518

3. Calculamos la suma de cuadrados del total

Prueba de D´Agostino
4. Calculamos el valor del estadístico de prueba D
518
DA = p = 0.2822
3
(22) (316.3636)

5. Decisión, si DA esta dentro del intervalo D0.05, 22 , no se rechaza la hipótesis nula Ho

4
6. Como DA = 0.2822 está en intervalo (0.2629 − 0.2864), no rechazamos la hipótesis nula (Ho ), por lo
tanto, los datos provienen de una población normal

Test de Normalidad
Test de Kolmogorov-Smirnov
• La prueba de Kolmogorov-Smirnov es una alternativa para probar que una muestra proviene de una
distribución Normal. Esta prueba se basa en la comparación entre la función de distribución acumulada
de una distribución teórica FT (X) con la función de distribución acumulada de la muestra FM (X).

Hipotesis:

H0 := FM (x) = FT (x) ∀x ∈ R


H1 := FM (x) 6= FT (x) Para algún x ∈ R

• Los pasos a seguir en la prueba de Normalidad o Bondad de Ajuste de Kolmogorov-Smirnov son:


– Calcular todos los valores FM (X) de la muestra x1 , x2 , . . . , xm
– Determinar las desviaciones máximas

Dn = |FM (X) − FT (X)|

Test de Kolmogorov-Smirnov
• Pasos
– Escojer un nivel de significancia α.
– Se acepta Ho si el valor calculado D ≤ Dα, n .
• Supuestos de la prueba de Kolmogorov-Smirnov
– Muestra aleatoria.
– La prueba no es valida si se tiene que estimar uno o más parámetros usando los datos de la muestra

Test de Kolmogorov-Smirnov
Ejemplo 5
1. Continuando con los datos del ejemplo 2 tenemos

5
Test de Kolmogorov-Smirnov
2. Para obtener los valores de FT (X) debemos estandarizar los valores de X.

6
Test de Kolmogorov-Smirnov
• Calculemos la desviación máxima.

Luego tenemos que D = 0.20 y para α = 0.05 y n = 22, el valor de la tabla es D0.05; 22 = 0.281
• Por lo tanto, como Dc = 0.20 < Dt = 0.281, no rechazamos la hipótesis nula (Ho ), por lo tanto, los
datos provienen de una población normal

Test de Kolmogorov-Smirnov
Tablas

Aplicaciones en R
Test Shapiro-Wilk
• Determinar la normalidad de los datos en R, es muy sencillo, veamos.

7
# Ingresamos los datos por tratamiento
rep <- c(2,3,6,9,7, 3,7,7,4, 3,3,10,6, 9,8,12,10,13, 16,8,10,14)
[Link](rep)

##
## Shapiro-Wilk normality test
##
## data: rep
## W = 0.95448, p-value = 0.3863
• Acá realizamos la conclusión con el pvalue , Entonces, como pvalor = 0.3863 > α = 0.05, No rechazamos
la hipótesis nula, por lo tanto, los datos provienen de una distribución normal

Aplicaciones en R
Test D´Agostino
• Para calcular la normalidad con esta prueba, primero debemos instalar un paquete para luego poder
usar determinada prueba, veamos
# [Link]("moments"), envíe este codigo a la consola
library(moments)
rep <- c(2,3,6,9,7, 3,7,7,4, 3,3,10,6, 9,8,12,10,13, 16,8,10,14)
[Link](rep)

##
## D'Agostino skewness test
##
## data: rep
## skew = 0.33616, z = 0.77316, p-value = 0.4394
## alternative hypothesis: data have a skewness
• Como pvalor = 0.4394 > α = 0.05, No rechazamos la hipótesis nula, por lo tanto, los datos provienen de
una distribución normal

Aplicaciones en R
Test de Kolmogorov-Smirnov
rep <- c(2,3,6,9,7, 3,7,7,4, 3,3,10,6, 9,8,12,10,13, 16,8,10,14)
suppressWarnings([Link](rep, "pnorm", mean(rep), sd(rep)))

##
## One-sample Kolmogorov-Smirnov test
##
## data: rep
## D = 0.11565, p-value = 0.9302
## alternative hypothesis: two-sided
# Esta test asume que la media y la vrianza son desconocidas
library("nortest") ; [Link](rep)

##
## Lilliefors (Kolmogorov-Smirnov) normality test

8
##
## data: rep
## D = 0.11565, p-value = 0.6218
• Como pvalor = 0.9302 > α = 0.05, No rechazamos la hipótesis nula, por lo tanto, los datos provienen de
una distribución normal

Aplicaciones en R
Gráfico de Normalidad
rep <- c(2,3,6,9,7, 3,7,7,4, 3,3,10,6, 9,8,12,10,13, 16,8,10,14)
qqnorm(rep) ; qqline(rep)

Normal Q−Q Plot


10 12 14 16
Sample Quantiles

8
6
4
2

−2 −1 0 1 2

Theoretical Quantiles
• De la gráfica observamos que la mayoría de los datos se encuentran al rededor de la recta poblacional,
lo cual indica, cierta noramlidad en la muestra de datos obenidos del número de manzanas podridas en
cada cajón

También podría gustarte