ESTADÍSTICA Y
PROBABILIDADES II
Mg. Erick Reyes Martinez
TEMA: PRUEBA DE BONDAD DE
AJUSTE
VARIABLE CATEGÓRICA.
Una variable categórica es un a variable que clasifica cada
individuo de una población en una de las varias clases
mutuamente excluyentes en que esta se divide.
Esta clasificación en categorías puede establecerse tanto
para variables cuantitativas, discretas y continuas, como
variables cualitativas
Características:
❑Los datos categóricos aparecen cuando una variable se mide en una
escala que solo clasifica a los encuestados en un numero limitado de
grupos.
❑Además de distinguir una variable como categoría(cualitativa), las
variables también se pueden clasificar como independientes o
dependientes:
✓Variable que se puede manipular experimentalmente.
✓Variable que se utiliza para predecir otra variable.
PRUEBAS PARA DATOS CATEGORICOS
Prueba de
Una variable Bondad de
Ajuste
Estadística no Prueba de Chi-
paramétrica Cuadrado
Prueba de
Homogeneidad
Dos Variables
Prueba de
Independencia
En diversas situaciones se requiere conocer si la data muestral proviene o no de una
determinada distribución probabilística.
¿Cómo proceder?
La prueba de bondad de ajuste Chi-cuadrado es una prueba estadística que permite
determinar si una data muestral proviene o no de una hipotética distribución.
¿Los datos de la muestra son coherentes con una distribución supuesta?
BONDAD DE AJUSTE
Prueba de Independencia
Plantear Hipótesis:
Ho: Los datos se ajustan a una distribución específica (Uniforme, Poisson, Binomial, Normal)
H1: Los datos no se ajustan a una distribución específica (Uniforme, Poisson, Binomial,
Normal)
Establecer el nivel de significación: 𝛼 = 1%, 5%, 10%,𝑒𝑡𝑐…
: Estadístico de Prueba:
Donde:
σ 0𝑖 − 𝐸𝑖 2
2 O: frecuencia observada → Generalmente dato del problema
𝜒 = E: frecuencia esperada → Se tiene que estimar y depende del tipo
𝐸𝑖 de la distribución
Region Crítica:
𝑵𝑹𝒉𝟎 𝑹𝒉 𝟎
1-𝛼
Dónde:
𝑔𝑙 = 𝐾 − 𝑚 − 1
𝑋2 1−𝛼;𝑔𝑙
K: Número de categorías o clases
m: número de parámetros estimados
BONDAD DE AJUSTE : LA DISTRIBUCIÓN POISSON
BONDAD DE AJUSTE PARA LA DISTRIBUCIÓN POISSON
Distribución Poisson 𝑒 −𝜆 ∙ 𝜆𝑥
𝑃 𝑋=𝑥 =
𝑥!
Paso: Region Crítica:
Dónde:
𝑹𝒉 𝟎 𝑔𝑙 = 𝐾 − 𝑚 − 1
𝑵𝑹𝒉𝟎
K: Número de categorías o clases
1-𝛼
m: número de parámetros estimados
𝑋2 1−𝛼;𝑔𝑙
EJERCICIO
Para analizar el número de artículos defectuosos en una fábrica en la ciudad de
Medellín, tomamos una muestra aleatoria de n = 60 artículos y se observó el número de
defectuosos y se obtuvieron los siguientes resultados:
Número de artículos defectuosos 0 1 2 3
Frecuencia 32 15 9 4
Se propuso una distribución de poissón, Use un nivel de significación del 5% para
comprobar el supuesto
Plantear Hipótesis:
𝐻 0 : 𝐸𝑙 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 artículos defectuosos 𝑠𝑖𝑔𝑢𝑒𝑛 𝑢𝑛𝑎 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑐𝑖ó𝑛 Poisson
𝐻1 : 𝐸𝑙 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 artículos defectuosos 𝑛𝑜 𝑠𝑖𝑔𝑢𝑒𝑛 𝑢𝑛𝑎 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑐𝑖ó𝑛 Poisson
Establecer el nivel de significación: 𝛼 =0.05
Estadístico de Prueba:
2 Donde:
2
σ 0𝑖 − 𝐸𝑖
𝜒 = O: frecuencia observada →Dato del problema
𝐸𝑖 E: frecuencia esperada → Se tiene que estimar
Calculamos el parámetro de la distribución
σ 𝑥𝑖 𝑂𝑖 0 32 + 1 15 + 2 9 + 3(4)
=𝜆 =𝜆 0,75 = 𝜆
𝑁 60
Calculamos la probabilidad para cada X
𝑒 −𝜆 ∙ 𝜆𝑥
𝑒 −0,75 ∙ 0,750 𝑃 𝑋=𝑥 =
𝑃 𝑋=0 = = 0,4724 𝑥!
0!
𝑒 −0,75 ∙ 0,751
𝑃 𝑋=1 = = 0,3543
1!
𝑒 −0,75 ∙ 0,752
𝑃 𝑋=2 = = 0,1323
2!
𝑒 −0,75 ∙ 0,753
𝑃 𝑋=3 = = 0,0332
3!
𝐸𝒊 = 60 𝒑 𝒊
clase(𝑿𝒊) 𝑶 𝒊 𝑷𝒊 𝑬𝒊
0 32 0,4224 25,34
1 15 0,3543 21,26
𝐸𝒊 = 𝑁𝒑 𝒊
2 9 0,1323 7,94
3 4 0,0332 1,99
Total
NOTA: Tener cuidado con los 𝐸𝑖 ≥ 5
clase(𝑿𝒊) 𝑶 𝒊 𝑷𝒊 𝑬𝒊
0 32 0,4224 25,34 clase(𝑿𝒊) 𝑶 𝒊 𝑬𝒊
1 15 0,3543 21,26 0 32 25,34
2 9 0,1323 7,94 1 15 21,26
3 4 0,0332 1,99 2 13 9,93
Total
NOTA: Tener cuidado con los 𝐸𝑖 ≥ 5
clase(𝑿𝒊) 𝑶 𝒊 𝑬𝒊
0 32 25,34
1 15 21,26
2 13 9,93
σ 0𝑖 − 𝐸𝑖 2
Determinar el valor del Chi-cuadrado Calculado 2
𝜒 =
𝐸𝑖
2 2 2
(32 − 25,34) (15 − 21,26) (13 − 9,93)
𝜒2 = + + = 4,54
25,34 21,26 9,93
4,54 El valor del Chi-cuadrado Calculado
Dónde:
𝛼 = 0.05 𝑔𝑙 = 𝐾 − 𝑚 − 1
𝑔𝑙= 3− 1 − 1 =1
𝑵𝑹𝒉𝟎 𝑹𝒉 𝟎 𝑚 = 1,
1-𝛼 debido a que se haestimado el
parámetro dela
distribución Poisson
𝑋 2 1−𝛼;𝑔𝑙 = 𝑋2 0.95;1 =3,841
Interpretación:
Con un nivel de significancia del 5% se ha encontrado evidencia estadística suficiente para
rechazar la Hipótesis Nula. El número de artículos defectuosos no siguen una Distribución
Poisson.
BONDAD DE AJUSTE : LA DISTRIBUCIÓN NORMAL
EJERCICIO
La velocidad de 100 autos se registran en la siguiente tabla:
Velocidad 0 - 10 10 - 20 20 - 30 30 – 40 40 -50
Número de Autos 15 25 30 23 7
Con el nivel de significancia del 5% ¿Es razonable aceptar que los datos siguen una
distribución Normal?
Plantear Hipótesis:
𝐻 0 : La velocidad de los autos siguen una Distribución Normal
𝐻1: La velocidad de los autos no siguen una Distribución Normal
Establecer el nivel de significación: 𝛼 =0.05
Estadístico de Prueba:
2 Donde:
2
σ 0𝑖 − 𝐸𝑖
𝜒 = O: frecuencia observada →Dato del problema
𝐸𝑖 E: frecuencia esperada → Se tiene que estimar
Determinamos:
Velocidad f𝒊 𝜇 = 𝑥ҧ = 23,2 Determinar las Probabilidades:
0 – 10 15 𝜎 = 𝑠 = 11,58
10 – 20 25
20 – 30 30 10 − 23,2 0 − 23,2
30 – 40 23 − = −1,14 − −2,00 = 0,127714 − 0,02275 = 0,10439
11,58 11,58
40 -50 7
20 − 23,2 10 − 23,2
100 − = −0,28 − −1,14 = 0,38974 − 0,12714 = 0,26260
11,58 11,58
30 − 23,2 20 − 23,2
− = 0,59 − −0,28 = 0,72240 − 0,38974 = 0,33266
11,58 11,58
40 − 23,2 30 − 23,2
− = 1,45 − 0,59 = 0,92647 − 0,72240 = 0,20407
11,58 11,58
50 − 23,2 40 − 23,2
− = 2,31 − 1,45 = 0,98956 − 0,92647 = 0,06309
11,58 11,58
𝐸𝒊 = 100 𝒑 𝒊
Velocidad f𝒊
0 – 10 15 Velocidad O𝒊 𝑷𝒊 𝑬𝒊
10 – 20 25 0 - 10 15 0,10439 10,44
20 – 30 30 10 – 20 25 0,26260 26,26
30 – 40 23 20 – 30 30 0,33266 33,27
40 -50 7 30 – 40 23 0,20407 20,41
100 40 - 50 7 0,06309 6,31
Total
NOTA: Tener cuidado con los 𝑬𝒊 <5
Velocidad O𝒊 𝑬𝒊
0 - 10 15 10,44
10 – 20 25 26,26
20 – 30 30 33,27
30 – 40 23 20,41
40 - 50 7 6,31
σ 0𝑖 − 𝐸𝑖 2
Determinar el valor del Chi-cuadrado Calculado 2
𝜒 =
𝐸𝑖
2 2 2 2 2
2
(15 − 10,44) (25 − 26,26) (30 − 33,27) 23 − 20,41 7 − 6,31
𝜒 = + + + +
10,44 26,26 32,27 20,41 6,31
𝜒 2 = 2.78
2,78 El valor del Chi-cuadrado Calculado
Dónde:
𝛼 = 0.05 𝑔𝑙 = 𝐾 − 𝑚 − 1
𝑔𝑙= 5 − 2 − 1 =2
𝑵𝑹𝒉𝟎 𝑹𝒉 𝟎 𝑚 = 2,
1-𝛼 debido a que se ha estimado el
parámetro dela
distribución Normal
𝑋 2 1−𝛼;𝑔𝑙 = 𝑋2 0.95;2 =5,991
Interpretación:
Con un nivel de significancia del 5% se ha encontrado evidencia estadística suficiente para no
rechazar la Hipótesis Nula. La velocidad de los autos sigue una Distribución Normal
EJERCICIOS PROPUESTOS
EJERCICIO 1
El número de alumnos por semana que sufren algún tipo de accidente en un
colegio durante 36 semanas del periodo escolar es la siguiente:
N° Alumnos Accidentados 0 1 2 3 4
N° de Semanas(fi) 6 8 10 6 6
Probar si la muestra de datos se ajusta a una distribución de Poisson con intensidad
λ , con un nivel de significación de 5%
EJERCICIO 2
Con el fin de conocer si un cierto tipo de bacterias se distribuyen al azar en un
determinado cultivo o si, por el contrario, lo hacen con algún tipo de preferencia
(el centro, los extremos, etc...), se divide un cultivo en 576 áreas iguales y se
cuenta el número de bacterias en cada área.
N° Bacterias 0 1 2 3 4
N° de Áreas fi) 229 211 93 35 8
¿Se ajustan los datos a una distribución de Poisson de intensidad λ ? Use un nivel
de significación de 0.05
EJERCICIO 3
Se selecciona aleatoriamente 100 cuentas en la sección de contabilidad del banco
CREDIT y se les examino para descubrir errores , obteniendo el siguiente
resultado:
N° de 0 1 2 3 4 5 6
errores
N° de 64 46 25 9 4 1 1
clientes
Pruebe la hipótesis de que la distribución del numero de errores se ajusta a una
distribución de Poisson con media uno. Un nivel de significancia del 1%
EJERCICIO 4
La siguiente tabla recoge la distribución de los triglicéridos en suero, expresados
en mg/dl en 90 niños de 6 años:
Nivel de triglicéridos fi
10 - 20 5
20 - 30 11
30 - 40 15
40 - 50 24
50 - 60 18
60 - 70 12
70 - 80 5
Contrastar la hipótesis de que los datos se ajustan a una distribución Normal de
media µ y varianza σ 2 con un nivel de significación de 0,05
EJERCICIO 5
En una prueba de aptitud a 50 estudiantes se han obtenido las siguientes resultados:
Calificaciones Estudiantes
15 – 20 2
20 – 25 5
25 – 30 6
30 – 35 15
35 – 40 11
40 – 45 7
45 - 50 4
Pruebe la bondad de ajuste entre las frecuencias observadas en los intervalos uy
las correspondientes frecuencias esperadas de una distribución normal utilizando
un nivel de significancia de 5%
EJERCICIO 6
En el proceso de llenado de sacos de arroz de 50 kilogramos como es usual, el peso de saco de arroz
que pes tiene una distribución normal con una media de 50 kg. Y una desviación estándar de 0,5792.
Un ingeniero afirma que esta de acuerdo con las especificaciones de los parámetros pero que la
distribución de los pesos presenta un cierto grado de asimetría por lo que sospecha que no es
normal. Para resolver esta contradicción se escogió una muestra aleatoria de 50 sacos de arroz
llenados por el proceso, observándose la siguiente distribución de los pesos:
Intervalos Numero de sacos observados
48.7 a 49,3 8
49,3 a 49,9 12
49,9 a 50,5 14
50,5 a 51,1 9
51,1 a 51,7 7
Al nivel de significancia del 5% ¿Provee estos datos suficientes evidencias al ingeniero para validar su
sospecha?
EJERCICIO 7
A menudo se dice que los profesores tiende a clasificar a sus alumnos de acuerdo con la curva
normal. En una examen final del curso de estadística general la calificaciones de los alumnos han
sido tabuladas en la distribución de frecuencia que sigue:
Notas Alumnos
02 a 05 4
05 a 08 16
08 a 11 55
11 a 14 47
14 a 17 28
17 a 20 10
La suposición del administrador es cierta