PRUEBAS DE BONDAD DE AJUSTE Y CONTRASTES DE NORMALIDAD
Nombre : yaneth sonia ttito sucari
1) Realizar un ajuste a la distribución normal con los 31 datos siguientes que son tensiones
arteriales sistólicas (TAS), medidas en milímetros de Hg:
TAS: 115 120 125 125 130 132 132 136 139 139 141 142 142 142 142 144 145 146 146 151 152
152 154 155 160 161 162 162 164 165 171.
a) Use: χ2 de Pearson, Kolmogorov-Smirnov, G-test y contrastes de asimetría y curtosis,
pruebas gráficas basadas en los P-P plots y Q-Q plots
2
X DE PEARSON
1. Hipótesis estadística
H 0 : Los datos siguenuna distribución normal
H 1 : Los datosno siguenuna distribución normal
2. Nivel de significancia∝=¿ 0.05
3. Prueba estadística
Hallamos μ y σ .
x<- c(115 ,120 ,125, 125, 130, 132 ,132 ,136 ,139 ,139 ,141 ,142, 142,
142 ,142 ,144,145,146,146,151,152,152,154,155,160,161,162,162,164,165,171
)
mean(x)
## [1] 144.9032
sd(x)
## [1] 14.03176
μ=144.9032 y σ=14.03176 la fórmula para estandarizar es:
(
p ( X ≤ x )= p
X−μ X− X
σ
≤
σ )
Calculamos: para hallar el valor de ∅ (x ), se usa la tabla normal acumulada
p1= p ( X ≤ 115 )= p ( X −μ 115−144.9032
σ
≤
14.032 ) = p ( z ≤−1 )=−2.13
Contrastes de asimetría y Kurtosis
a) Contraste de asimetría.
1) Hipótesis estadística:
Ho: la distribución es simétrica
Ha: la distribución no es simétrica (asimétrica)
2) Nivel de significancia: ∝ = 0.05
3) Prueba estadística:
n n
∑ (x i−x)r ∑ (xi −x)3
i=1 i=1
mr = =
n n
m3 −440.261958
CA= = =−0.15935827
( Sx )
3
2762.71799
CAS=
√ n(
6
CA )=
31 (
6 √−0.1594 )=−0.36222617
4) Si 𝑝 < 𝛼 se rechaza Ho
𝑝𝑣𝑎𝑙𝑜𝑟 = 2(−0.362) = 0.7264
(0.7264) > (0.05)
No se rechaza la hipótesis nula. La distribución es simétrica.
b) El contraste de apuntamiento
Contrastar si su CAp es cero.
1) Hipótesis estadística:
Ho: la curtosis de la distribución es cero
Ha: la curtosis de la distribución no es cero
2) Nivel de significancia: ∝ = 0.05
3) El test estadístico
Se calcula m 4 =2685651.95 De donde,
m4
∑ ( x i−x ) 4 2685651.95
CAp= −3= i=1 −3= −3=−0.76519675
4
( S x) n ( S x )4 31 (38765.7991 )
CApS=
√ n
24 √
(CAp )= 31 (−0.7652 )=−0.8696577
24
4) Pvalor = 2p(-0.8697) = 0.3954
p (0.3954) > (0.05). No se rechaza Ho. Se acepta la hipótesis de que la curtosis de la
distribución es cero.
Los dos últimos contrastes se pueden combinar en un contraste conjunto. Para ello, se
define el estadístico.
d=(CAS )2+(CApS)2
que bajo la hipótesis de normalidad se distribuye asintóticamente como una chi-cuadrado
con dos grados de libertad. Por tanto, si d toma valores positivos grandes (según una 2 con
dos grados de libertad) se rechaza que la distribución es simétrica y/o que tiene curtosis
nula y, en consecuencia, se rechaza la hipótesis de normalidad.
Contrastar la hipótesis de normalidad
En base a los datos obtenidos se deduce
2 2 2 2
d=(CAS ) +(CApS) =(−0.1594) +(−0.7652) =0.61092113
Pvalor = 2p(0.6109) = 1.4844
P(1.4844) > 𝛼(0.05) no se rechaza Ho
Se acepta la hipótesis de que la distribución es simétrica y la curtosis es cero, por tanto, es
razonable aceptar la normalidad de la muestra.
2. Se observó las edades en que se presentaba un tumor (carcinoma espino celular
paladar). ¿Sigue una distribución normal?
Grupo de edad Frecuencia
<39 14
40 – 49 5
50 – 59 6
60 – 69 8
70 – 79 10
80 – 89 16
>90 32
Total 91
Use: χ2 de Pearson, Kolmogorov-Smirnov y G-test
X2 Pearson
1. Hipótesis estadística
H0: Los datos tienden a una distribución normal.
H1: Los datos no tienden a una distribución normal.
2. Nivel de significancia: α = 0.05
3. Prueba estadistica
Variable explicativa: Edades
Variable respuesta: Tumor
Cálculos para hallar el valor de ∅(x), se usa la tabla normal acumulada.
X=
∑ X i f i = 6331.5 =73.2912088
∑ fi 91
k
S =∑ f i . X 2i −¿ ¿ ¿ ¿ ¿
2
i =1
S= √ 640.405128=22.2028609
p ( X ≤ x )= p ( X−μ
σ
≤
σ )
X− X
Cálculos para hallar el valor de ∅(x), se usa la tabla normal acumulada.
p 1= p ( X <39 ) =p ( X−μ
σ
≤
22.203 )
39−73.291
= p ( Z ≤−1.54 ) =∅ (−1.54 )=0.06178
p 2= p ( 40 ≤ X ≤ 49 )= p (
22.203 )
39−73.291 X −μ 49−73.291
≤ ≤ = p (−1.54 ≤ Z ≤−1.09 )=∅ (−1.09 )−∅ (−1.54 )=0.13
22.203 σ
p 3= p ( 50 ≤ X ≤ 59 )= p (
22.203 )
49−73.291 X−μ 59−73.291
≤ ≤ = p (−1.09≤ Z ≤−0.64 ) =∅ (−0.64 )−∅ (−1.09 ) =0.26
22.203 σ
p 4= p ( 60 ≤ X ≤ 69 )= p (
22.203 )
59−73.291 X−μ 69−73.291
≤ ≤ =p (−0.64 ≤ Z ≤−0.19 )=∅ (−0.19 )−∅ (−0.64 ) =0.4
22.203 σ
p 5= p ( 70 ≤ X ≤ 79 )= p (
22.203 )
69−73.291 X−μ 79−73.291
≤ ≤ =p (−0.19 ≤ Z ≤ 0.26 )=∅ ( 0.26 )−∅ (−0.19 )=0.60257
22.203 σ
p 6= p ( 80 ≤ X ≤ 89 )= p (
22.203 )
79−73.291 X −μ 89−73.291
≤ ≤ = p ( 0.26 ≤ Z ≤0.71 ) =∅ ( 0.71 )−∅ ( 0.26 )=0.76115−0
22.203 σ
p 7= p ( X > 90 )= p ( X −μ
σ
>
22.203 )
90−73.291
= p ( Z ≤ 0.75 )=1−∅ ( 0.75 )=1−0.77337=0.22663
Grupo de edad fi = Oi pi Ei = n*Pi
<39 14 0.06178 5.62198
40 – 49 5 0.07608 6.92328
50 – 59 6 0.12323 11.21393
60 – 69 8 0.16356 14.88396
70 – 79 10 0.17792 16.19072
80 – 89 16 0.15858 14.43078
>90 32 0.22663 20.62333
Total 91 91
Usemos la formula ji cuadrado de bondad de ajuste.
7 2
(O i−Ei )
X =∑
2
i=1 Ei
2 2 2
(14−0.06178) (5−0.07608) ( 32−0.22663 )
X2= + +…+ =27.4411127
0.06178 0.07608 0.22663
4. Decisión
k = Número de intervalos
k=7
r = Número de estimadores usados (la media y la desviación estándar).
r=2
X 2t =X 2( k−r−1) ,∝ =X 24,0.05=9.488
2 2
Como X ( 27.4411127 ) > X t (9.488). Se Rechaza H0. Por lo tanto, los datos no tienden a una
distribución Normal.
Teniendo en cuenta las restricciones de la prueba ji cuadrado, estaríamos al límite de violar una
restricción que dice que a lo más el 20% de las frecuencias esperadas deben ser menor que 5. El
intervalo 1, Ei < 5 representa en este caso el 20%. Para efectos de muestra optaremos como si se
estaría violando tal supuesto. Para lo solucionar tal problema podríamos combinar el 1ro, 2do y
3ro intervalo o clase, con lo que quedaría:
Valor esperado para X2
Grupo de edad fi = Oi pi Ei = n*Pi
<59 19 0.13786 12.54526
60 – 69 6 0.12323 11.21393
70 – 79 8 0.16356 14.88396
80 – 89 10 0.17792 16.19072
>90 16 0.15858 14.43078
32 0.22663 20.62333
Total 91 91
Usamos la formula ji cuadrado de bondad de ajuste.
7 2
(O i−Ei )
X =∑
2
i=1 Ei
2 (19−0.13786)2 (6−0.12323)2 ( 32−0.22663 )2
X = + +…+ =17.742754
0.13786 0.12323 0.22663
Con k = 5; r = 2
Busquemos en la tabla ji cuadrado,
2 2 2
X t =X ( k−r−1) ,∝ =X 2,0.05=5.991
2 2
Como X ( 17.742754 ) > X t ( 5.991). Se Rechaza H0. Por lo tanto, los datos no tienden a una
distribución Normal.
Kolmogórov-Smirnov
1. Hipótesis estadística
H0: Los datos tienden a una distribución normal.
H1: Los datos no tienden a una distribución normal.
2. Nivel de significancia: α = 0.05
3. Prueba estadística
Cálculos previos Hallemos la media y la desviación estándar como datos agrupados
(considerando que los datos provienen de una muestra)
X=
∑ X i f i = 6331.5 =73.2912088
∑ fi 91
k
S =∑ f i . X 2i −¿ ¿ ¿ ¿ ¿
2
i =1
S= √ 640.405128=22.2028609
Frec. Relat
Frec. Relat. Esperada D=F0(X)-
Li Ls fi Fi Acum. X acum. Sn(X)
Sn(X)
F0(X)(tabla)
<39 14 15 0.1648352 34.5 -1.747127 0.04093 0.1239052
40 – 49 5 19 0.2087912 44.5 -1.296734 0.09853 0.1102612
50 – 59 6 25 0.2747253 54.5 -0.846342 0.20045 0.0742753
60 – 69 8 33 0.3626374 64.5 -0.395949 0.34827 0.0143674
70 – 79 10 43 0.4725275 74.5 0.054443 0.52392 0.0513925
80 – 89 16 59 0.6483516 84.5 0.5048354 0.69146 0.0431084
>90 32 91 1 94.5 0.9552279 0.82894 0.17106
91
La diferencia máxima absoluta D = 0.17106
4. Decisión
1.63
La tabla de Kolmogórov muestra para n = 91 y α= 0.05; Dc= =0.1708704284 .
√91
Comparando: D(0.17106)> Dc( 0.17087), por lo tanto, se rechaza H0. Los datos no
constituyen una muestra al azar de una población normal.
G - test
1. Hipótesis estadística:
H0: Los datos tienden a una distribución normal.
H1: Los datos no tienden a una distribución normal.
2. Nivel de significancia: α = 0.05
3. Prueba estadística:
Grupo de
Oi = fi Xi fi*Xi
edad
<39 14 34.5 483 16663.5
40 – 49 5 44.5 222.5 9901.25
50 – 59 6 54.5 327 17821.5
60 – 69 8 64.5 516 33282
70 – 79 10 74.5 745 55502.5
80 – 89 16 84.5 1352 114244
>90 32 94.5 3024 285768
Total 91 6669.5 533182.75
X=
∑ X i f i = 6331.5 =73.2912088
∑ fi 91
k
S2=∑ f i . X 2i −¿ ¿ ¿ ¿ ¿
i =1
S= √ 640.405128=22.2028609
p ( X ≤ x )= p ( X−μ
σ
≤
σ )
X− X
Cálculos para hallar el valor de ∅(x), se usa la tabla normal acumulada.
p 1= p ( X <39 ) =p ( X−μ
σ
≤
22.203 )
39−73.291
= p ( Z ≤−1.54 ) =∅ (−1.54 )=0.06178
p 2= p ( 40 ≤ X ≤ 49 )= p (
22.203 )
39−73.291 X −μ 49−73.291
≤ ≤ = p (−1.54 ≤ Z ≤−1.09 )=∅ (−1.09 )−∅ (−1.54 )=0.13
22.203 σ
p 3= p ( 50 ≤ X ≤ 59 )= p (
22.203 )
49−73.291 X−μ 59−73.291
≤ ≤ = p (−1.09≤ Z ≤−0.64 ) =∅ (−0.64 )−∅ (−1.09 ) =0.26
22.203 σ
p 4= p ( 60 ≤ X ≤ 69 )= p ( 59−73.291
22.203
≤
σ
≤
22.203 )
X−μ 69−73.291
=p (−0.64 ≤ Z ≤−0.19 )=∅ (−0.19 )−∅ (−0.64 ) =0.4
p 5= p ( 70 ≤ X ≤ 79 )= p (
22.203 )
69−73.291 X−μ 79−73.291
≤ ≤ =p (−0.19 ≤ Z ≤ 0.26 )=∅ ( 0.26 )−∅ (−0.19 )=0.60257
22.203 σ
p 6= p ( 80 ≤ X ≤ 89 )= p (
22.203 )
79−73.291 X −μ 89−73.291
≤ ≤ = p ( 0.26 ≤ Z ≤0.71 ) =∅ ( 0.71 )−∅ ( 0.26 )=0.76115−0
22.203 σ
p 7= p ( X > 90 )= p (
22.203 )
X −μ 90−73.291
> = p ( Z ≤ 0.75 )=1−∅ ( 0.75 )=1−0.77337=0.22663
σ
Tabla. Para calcular G
Li Ls Oi = fi pi=f(Xi) Ei=n*pi Oi Ei
<39 14 0.06178 5.62198
40 – 49 5 0.07608 6.92328 19 12.54526 15.77365
50 – 59 6 0.12323 11.21393 6 11.21393 -7.50478
60 – 69 8 0.16356 14.88396 8 14.88396 -9.93348
70 – 79 10 0.17792 16.19072 10 16.19072 -9.63706
80 – 89 16 0.15858 14.43078 16 14.43078 3.30321
>90 32 0.22663 20.62333 32 20.62333 28.11603
Total 91 91 91 20.11757
Reagrupando valores esperados menores a 5,
Cálculo de G:
[[ ( )]
'
Oi
G=∑ 2 Oi . ln '
=20.11757
Ei
Si se aplica la corrección de Williams resulta
gl = 6 –r -1 = 6 – 2 – 1 =3
Q=1+ [
k 2−1
6. n . gl ] [
=1+
62−1
6.91 .3 ]
=1.021367521
G 20.11757
Gcorr = = =19.69670034
Q 1.021367521
4. Decisión
El número total de clases útiles es k = 6 y r = 2 (dos parámetros).
2 2
gl=k −r −1=6−2−1=3 , X t =X 3,0.05 =7.815
2
Entones:G corr ( 19.69670034 ) > X t (7.815), por lo tanto, se rechazar la hipótesis nula. Los pesos
tienen una distribución normal.
Código en R
edad <-c(14,5,6,8,10,16,32)
summary(edad)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 5 7 10 13 15 32
par(mfrow=c(1,2))
# histograma y curva normal
hist(edad, main = "Histograma para edad", xlab = "edad",
ylab = "Frecuencia", las=1, col = "sky blue")
boxplot(edad, main = "Grafico de cajas y bigotes de edad",
xlab = "edad",ylab = "Frecuencia", las=1, col = "sky blue")
plot(density(edad),main = "Distribucion empirica de edad",
xlab = "edad",ylab = "Frecuencia", las=1, col = "sKy blue")
require(carData)
require(car)
qqPlot(edad,[Link] = "blue", col ="blue", cex=1.5, xlab="Cuantiles
teoricos",ylab="Cuantiles muestrales",main="Normalidad")
## [1] 7 2
# Pruebas de hipotesis
# test de kolmogorov
[Link](edad,"pnorm", mean(edad), sd(edad))
## One-sample Kolmogorov-Smirnov test
##
## data: edad
## D = 0.23054, p-value = 0.777
## alternative hypothesis: two-sided
require(nortest)
[Link](edad)
## Lilliefors (Kolmogorov-Smirnov) normality test
## data: edad
## D = 0.23054, p-value = 0.3142
###Prueba de Pearson chi-square
[Link](edad)
## Pearson chi-square normality test
##
## data: edad
## P = 2.2857, p-value = 0.3189
# shapiro-Wilk
[Link](edad)
## Shapiro-Wilk normality test
## data: edad
## W = 0.82727, p-value = 0.07538
# Shapiro-Francia test
[Link](edad)
## Shapiro-Francia normality test
##
## data: edad
## W = 0.8163, p-value = 0.05466
library("moments")
## Warning: package 'moments' was built under R version 4.0.3
#Jarque-Bera test
library("normtest")
## Warning: package 'normtest' was built under R version 4.0.3
[Link](edad, nrepl=2000)
## Jarque-Bera test for normality
## data: edad
## JB = 2.1329, p-value = 0.039
###Prueba de Kurtosis
[Link](edad, nrepl=2000)
## Kurtosis test for normality
## data: edad
## T = 3.5898, p-value = 0.707
###Prueba de Skewness
[Link](edad, nrepl=2000)
## Skewness test for normality
##
## data: edad
## T = 1.3196, p-value = 0.0335
###Prueba de Spiegelhalter
[Link](edad, nrepl=2000)
## Spiegelhalter test for normality
##
## data: edad
## T = 1.3995, p-value = 0.2835
###Puerba de Weisberg-Bingham
[Link](edad, nrepl=2000)
## Weisberg-Bingham test for normality
## data: edad
## WB = 0.8163, p-value = 0.061
#Prueba de Frosini
[Link](edad)
## Frosini test for normality
## data: edad
## B = 0.23732, p-value = 0.127
# Prueba de Geary
[Link](edad)
## Geary test for normality
##
## data: edad
## d = 0.76391, p-value = 0.8435
# Prueba de Hegazy-Green
[Link](edad, nrepl=2000)
## Hegazy-Green test for normality
## data: edad
## T = 0.36535, p-value = 0.082
promedio <- mean(edad)
desviacion <-sd(edad)
par(mfrow=c(1,1))
xen <- seq(min(edad), max(edad), by=0.0001)
plot(xen, pnorm(xen, mean=promedio, sd=desviacion), type="l",
col="blue",xlab="Edad de llenado", ylab="pnorm(edad, mean, sd)")
plot(ecdf(edad), add=TRUE)
3 El entrenador de salto de un grupo de atletas, desea conocer con vistas al
procesamiento de los datos si los datos tienden a una distribución normal.
11.60 21.65 31 .55 41.62 51.64 61.70 71.71 81.68 91.66 101.67 111.65 121.68
131.69 141.70
Use: Lilliefors, Jarque-Bera, Shapiro-Wilks, D´Agostino
Lilliefors.
Solución:
1. Hipótesis estadística:
H 0 : Los datos tienden auna discribución normal
H 1 : Los datos no tienden auna discribución normal
2. Nivel de significancia:∝=0.05
3. Estadística de contraste.
(Considerando que provienen de una población)
μ=
∑ X i = 1073.2 =76.66
n 14
σ =41.8617
D=|F(x-1)-
X Fi F S(X) Z f(x) s(x)|
11.6 1 1 0.07142857 -1.5541 0.0601 0.0601
21.65 1 2 0.14285714 -1.3140 0.0944 0.02297143
-
31.55 1 3 0.21428571 -1.0775 0.1406 0.00225714
-
41.62 1 4 0.28571429 -0.8370 0.2013 0.01298571
-
51.64 1 5 0.35714286 -0.5976 0.2751 0.01061429
61.7 1 6 0.42857143 -0.3573 0.3604 0.00325714
71.71 1 7 0.5 -0.1182 0.453 0.02442857
81.68 1 8 0.57142857 0.1200 0.5478 0.0478
91.66 1 9 0.64285714 0.3584 0.64 0.06857143
101.67 1 10 0.71428571 0.5975 0.7249 0.08204286
111.65 1 11 0.78571429 0.8359 0.7984 0.08411429
121.68 1 12 0.85714286 1.0755 0.8589 0.07318571
131.69 1 13 0.92857143 1.3146 0.9057 0.04855714
141.7 1 14 1 1.5538 0.9399 0.01132857
La diferencia máxima absoluta D = MAXIMA |F ( X )−Sn ( X)|=0.08411
4. Decisión: la tabla de kolmogorov muestra para n=14 y ∝=0.05 una D C =0.349
D(0.08411)< D C ( 0.349 ) . La H 0 no puede ser rechazada al 5% de significancia.
Jarque-bera
Shapiro-wilks
1) Hipótesis estadística
H 0 : La muestra procede de una población normal
H 1 : La muestra no procede de una población normal
2) Nivel de confianza α =0.05 .
3) Estadístico de contraste
11.60 21.65 31 .55 41.62 51.64 61.70 71.71 81.68 91.66 101.67 111.65 121.68
131.69 141.70
Calculando la media y la varianza (considerando datos poblacionales).
μ=
∑ x i = 11.60+ 21.65+ 31.55+41.62+…+ 141.70 =76.66
N 14
2 ∑( i
2
x −μ ) (11.60−76.66 ) + ( 21.65−76.66 )2+ ( 31.55−76.66 )2 +…+ (141.70−76.66 )2
2
σ = = =162
N 14
n par q=n/2=14/2=7
En la formula
1
w= 2
¿¿
nS
A2=¿ ¿
Los valores a (1) ,6 ,…… se buscan en la tabla V
A2= {[ 0.5251(141.7−11.6) ] + [ 0.3318(131.69−21.65) ] + [ 0.2495 ( 121.68−31.55 ) ] + [ 0.1802(111.65−41.62) ] + [ 0
A2=¿148.554715
Reemplazando en la formula.
1 2 1
w= A= 148.554715=0.00652093 0.0065
nσ 2
14 (1627.23038)
4) Región critica: W α =w0.05 con n , 14=0.874 , Tabla V-I
w ( 0.0065 )< wα (0.874 ), se acepta H 0. El valor es bajo por lo tanto existe
evidencia sobre la normalidad.
D’agostino
Solución
1. Hipótesis estadística
H 0 : Los datos tienden auna distribución normal
H 1 : Los datosno tienden auna distribución normal
2. Nivel de confianza α =0.05
3. Estadística de contraste.
(Considerando que los datos provienen de una población)
Ordenando datos.
11.60 21.65 31 .55 41.62 51.64 61.70 71.71 81.68 91.66 101.67 111.65 121.68
131.69 141.70
μ=
∑ x i = 1073.2 =76.657
n 14
n
∑ (X i −μ)2
2 i=1
σ = =1627.23038
n
σ =√ 1627.23038=40.3389437
Para el ejercicio
i X i=[ 1 ( 11.60 )+ 2 ( 21.65 )+ …+14(141.70) ]=10325.56
[( ) ]
14
n ( n+ 1 ) 14 ( 15 )
T= ∑ i Xi − 2
( μ ) =10325.56−
2
( 76.657 ) =2276.575
i=1
T 2276.575
D= 2
= 2 =0.007138
n S 14 (1627.23038)
4. Región critica: en la tabla de la distribución del estadístico de D’agostino, D, para un nivel
de significancia α , se busca un intervalo
( D 14,0.05 , D 14,0.95) =(−2.53,0 .399 )
D ( 0.007138 ) ∃ alintervalo (−2.53 , 0.399 ) . Se asume normalidad.