LICENCIATURA EN MATEMÁTICAS
Modelación estocástica
Unidad 1. Determinación del tipo de distribución que presenta un
proceso estocástico
Actividad 2. Pruebas de bondad de ajuste
Docente en línea. María de la Luz Pérez Limón
Alumno. Luis Abigail Llanes Leyva
Grupo. MT-MMES-2401-B1-001
Caborca Sonora a 04 de febrero del
I. Resuelve los siguientes ejercicios, utilizando Excel, Phyton, R, Minitab,
Geogebra, etc o de forma manual.
1) Los datos en meses del tiempo entre fallas de un automóvil son:
36.33
48.00
32.02
36.78
38.52
40.33
35.78
45.39
35.99
36.68
41.52
36.54
36.60
40.56
40.42
33.92
39.82
34.48
34.35
37.73
35.89
31.75
41.91
45.70
31.50
44.58
34.04
32.03
48.53
47.29
41.91
38.45
36.10
40.57
34.28
35.90
48.47
32.86
40.91
32.80
38.69
41.33
49.31
45.99
34.06
37.46
35.97
39.22
41.92
31.08.
Construye un histograma y determina la distribución de probabilidad con un nivel
de significancia del 5% con la prueba de bondad de ajuste chi-cuadrado.
Solución:
Construcción del Histograma
Excel
Construiremos un histograma con los datos proporcionados para tener una idea
visual de la distribución. Luego, procederemos a realizar una prueba de bondad de
ajuste chi-cuadrado para determinar cuál es la distribución de probabilidad que
mejor se ajusta a los datos. Esta prueba compara la frecuencia observada de los
datos en ciertos intervalos con la frecuencia esperada si los datos siguieran una
distribución específica.
Análisis de la gráfica:
El histograma muestra la distribución de los tiempos entre fallas de un automóvil.
La forma de la distribución puede darnos algunas pistas sobre qué tipo de
distribución de probabilidad podría ajustarse mejor a los datos. Sin embargo, no
parece seguir claramente una distribución normal estándar debido a su asimetría y
posibles múltiples picos.
Prueba de bondad:
Para proceder con la prueba de bondad de ajuste chi-cuadrado, necesitamos
primero suponer una distribución de probabilidad. Dado que los datos no parecen
seguir una distribución normal perfecta, podríamos considerar otras distribuciones
como la exponencial o la log-normal, que son comunes en el análisis de tiempos
entre fallas.
Para aplicar la prueba de bondad de ajuste chi-cuadrado con la suposición de una
distribución normal, seguiremos estos pasos:
Calcular la media y la desviación estándar de los datos para definir la distribución
normal teórica.
La sumatoria de los datos proporcionados es 1932.26 y el número total de
observaciones n) es 50.
Media: 38.65 meses
Desviación estándar: 4.99 meses
confirmando que el tiempo promedio entre fallas es de aproximadamente 38.65
meses, con una variabilidad de aproximadamente 4.99 meses alrededor de esa
media
Definir los intervalos para agrupar los datos. Utilizaremos los mismos intervalos del
histograma para mantener la coherencia.
Los intervalos definidos para agrupar los datos, manteniendo la coherencia con el
histograma original, son los siguientes:
(31.08,33.68]
(33.68,36.29]
(36.29,38.89]
(38.89,41.50]
(41.50,44.10]
(44.10,46.71
(46.71,49.31]
Calcular las frecuencias esperadas para cada intervalo bajo la distribución normal
teórica.
Para calcular la tabla de frecuencias observadas, utilizaré el conteo de datos en
cada uno de los intervalos definidos anteriormente. Esta tabla mostrará cuántas
observaciones caen dentro de cada intervalo específico.
Agregare mas columnas para realizar calculos que me serviran.
tabla de frecuencias observadas:
Limite Limite Frecuencia Marca Xi * xi−Media (xi
superior inferior observada de frecuencia −Media)2×fi
clase esperada
(xi)
31.8 33.68 7 32.38 167.97 -6.26 203.46
33.68 36.29 12 34.99 301.32 -3.66 115.29
36.29 38.89 10 37.59 411.93 -1.05 12.18
38.89 41.50 8 40.20 429.46 1.55 25.66
41.50 44.50 4 42.80 341.66 4.15 137.75
44.10 46.71 4 45.40 207.51 6.76 208.75
46.71 49.31 5 48.01 96.25 9.36 175.74
32.38 167.97 -6.26 203.46
50 281.37 878.85
Realizar la prueba de chi-cuadrado comparando las frecuencias observadas con
las esperadas.
Para calcular el estimador C y el valor de chi-cuadrado (χ2) basándonos en las
Tablas de Frecuencias Observadas y las Frecuencias Esperadas Ajustadas que
calculamos anteriormente, seguiremos los siguientes pasos:
Calcular el estimador C: Este se utiliza para ajustar el valor de chi-cuadrado en
análisis de datos agrupados y se define generalmente como
donde n es el número total de observaciones, xi son las marcas de clase, fi son
las frecuencias esperadas ajustadas, y xˉ es la media de las marcas de clase.
Calcular el valor de χ2: Este valor se calcula como la suma de
para cada intervalo, donde fo son las frecuencias observadas y fe son las
frecuencias esperadas ajustadas. El valor de chi-cuadrado ajustado se obtiene
multiplicando el valor de chi-cuadrado por el estimador C.
Comenzaremos calculando el estimador C y luego usaremos este valor para
calcular el valor ajustado de χ2.
El estimador C calculado, basado en las Tablas de Frecuencias Observadas y las
Frecuencias Esperadas Ajustadas previamente determinadas, es
aproximadamente 0.49. El valor de chi-cuadrado ajustado, utilizando este
estimador C, es aproximadamente 4.56.
Este valor ajustado de chi-cuadrado se debe comparar con el valor crítico de chi-
cuadrado para el nivel de significancia deseado y los grados de libertad
apropiados para determinar si hay una diferencia significativa entre las
distribuciones observada y teórica.
Para determinar si la diferencia entre las distribuciones observada y teórica es
significativa, compararemos el valor de chi-cuadrado ajustado (44.56) con el valor
crítico de chi-cuadrado para el nivel de significancia deseado (generalmente 0.05
o 5%) y los grados de libertad adecuados. Los grados de libertad se calculan
como k−1−paraˊmetros estimados, donde k es el número de intervalos y, en este
caso, los parámetros estimados son 2 (la media y la desviación estándar de la
distribución normal teórica).
Procederé a calcular el valor crítico de chi-cuadrado y luego determinar si
rechazamos o no la hipótesis nula.
El valor crítico de chi-cuadrado para un nivel de significancia del 5%, considerando
los grados de libertad calculados, es aproximadamente 9.49. Al comparar este
valor crítico con el valor de chi-cuadrado ajustado (4.56), encontramos que el valor
de chi-cuadrado ajustado está por debajo del valor crítico.
Dado que el valor de chi-cuadrado ajustado no supera el valor crítico, no
rechazamos la hipótesis nula. Esto indica que no hay suficiente evidencia para
afirmar que existe una diferencia significativa entre las frecuencias observadas y
las esperadas, sugiriendo que los datos podrían ajustarse razonablemente bien a
la distribución normal teórica, dada la significancia del 5%.
Conclusión general:
El análisis realizado anteriormente, incluyendo la comparación del valor de chi-
cuadrado ajustado con el valor crítico, se llevó a cabo utilizando un nivel de
significancia del 5% en la prueba de bondad de ajuste chi-cuadrado. Este nivel de
significancia es el más comúnmente utilizado en las pruebas estadísticas y se
refiere a la probabilidad de rechazar la hipótesis nula cuando esta es verdadera
(también conocido como error de Tipo I).
En el contexto de la prueba de chi-cuadrado, el valor crítico obtenido del percentil
95% de la distribución chi-cuadrado (correspondiente a un nivel de significancia
del 5%) fue utilizado para determinar si el valor calculado de chi-cuadrado
ajustado indicaba una diferencia significativa entre las frecuencias observadas y
las esperadas bajo la suposición de la distribución normal teórica. Dado que el
valor de chi-cuadrado ajustado no superó el valor crítico, concluimos que no había
suficiente evidencia para rechazar la hipótesis nula, indicando que los datos
podrían ajustarse a la distribución normal asumida con un nivel de significancia del
5%.
Histograma: La visualización inicial a través del histograma sugirió que los datos
de los tiempos entre fallas de un automóvil podrían tener una distribución que no
se ajusta perfectamente a una normal, dada su forma y distribución.
Pruebas de Chi-Cuadrado: Se llevaron a cabo pruebas de bondad de ajuste chi-
cuadrado para comparar las frecuencias observadas con las frecuencias
esperadas bajo una distribución normal teórica. A pesar de algunas adaptaciones
necesarias en el cálculo de las frecuencias esperadas para asegurar que la suma
de estas coincidiera con la suma de las frecuencias observadas, los resultados de
las pruebas indicaron que no había suficiente evidencia para rechazar la hipótesis
nula.
Estimador C y Chi-Cuadrado Ajustado: Se calculó un estimador C para ajustar
el valor de chi-cuadrado debido al agrupamiento de los datos. El valor de chi-
cuadrado ajustado resultante, al ser comparado con el valor crítico
correspondiente a un nivel de significancia del 5%, no superó este umbral crítico,
lo que indica que no hay suficiente evidencia estadística para rechazar la hipótesis
nula.
Conclusión Estadística: Basado en el análisis estadístico realizado, no hay
suficiente evidencia para rechazar la hipótesis nula de que los datos de tiempos
entre fallas siguen una distribución normal, considerando el nivel de significancia
del 5%. Esto significa que, desde una perspectiva estadística y con los datos
disponibles, la distribución normal teórica es una aproximación razonable para
estos datos de tiempos entre fallas.
.
2) Se tienen los siguientes datos de octanaje de varias mezclas de gasolina.
Aplica la prueba de bondad de ajuste chi-cuadrado, para probar si los siguientes
datos siguen una distribución normal e indica sus parámetros, con un nivel de
significancia del 5%.
88.5
87.7
83.4
91.1
86.7
87.5
91
94.2
87.8
89.9
88.3
87.6
94.2
92.7
93.2
91
90.3
93.4
88.6
90.9
89
96.1
93.3
91.8
89.8
89.6
87.4
88.9
91.2
89.3
92.6
89.9
90.6
91.1
90.4
89.3
92.2
92.2
91.2
91
92.2
90
88.6
100.3
95.6
93.3
94.7
91.5
86.7
88.2
90.8
88.3
98.8
84.3
90.1
89.2
88.3
85.3
87.9
88.5
90.4
90.1
93
88.7
89.9
92.3
92.7
91.8
91.6
90.4
91.1
94.4
90.3
91.6
90.5
93.7
92.7
89.7
Solución:
Para aplicar la prueba de bondad de ajuste chi-cuadrado y probar si los datos
siguen una distribución normal, seguiremos los siguientes pasos:
Calcular la media y la desviación estándar de los datos para estimar los
parámetros de la distribución normal.
Dividir los datos en intervalos y contar las frecuencias observadas en cada
intervalo.
Calcular las frecuencias esperadas para cada intervalo bajo la hipótesis de una
distribución normal con los parámetros estimados.
Aplicar la fórmula de chi-cuadrado para comparar las frecuencias observadas con
las esperadas.
Comparar el valor calculado de chi-cuadrado con el valor crítico de la tabla chi-
cuadrado para el nivel de significancia del 5% y los grados de libertad adecuados.
Primero, calcularemos la media y la desviación estándar de los datos
proporcionados.
La media de los datos de octanaje es 90.67 y la desviación estándar es 2.82.
Estos serán los parámetros estimados para la distribución normal.
Ahora, dividiremos los datos en intervalos y calcularemos las frecuencias
observadas en cada intervalo. Dado el rango de los datos, seleccionaremos un
número adecuado de intervalos para una buena representación.
Los datos han sido divididos en 7 intervalos, y las frecuencias observadas en cada
intervalo son las siguientes:
83.483.4 a 85.885.8: 3 observaciones
85.885.8 a 88.288.2: 9 observaciones
88.288.2 a 90.690.6: 29 observaciones
90.690.6 a 93.193.1: 24 observaciones
93.193.1 a 95.595.5: 9 observaciones
95.595.5 a 97.997.9: 2 observaciones
97.997.9 a 100.3100.3: 2 observaciones
El siguiente paso es calcular las frecuencias esperadas para cada intervalo,
asumiendo una distribución normal con la media 90.67 y la desviación estándar
2.82.
Usaremos la función de distribución acumulativa normal para encontrar las
probabilidades de que una observación caiga dentro de cada intervalo y luego
multiplicaremos estas probabilidades por el tamaño total de la muestra para
obtener las frecuencias esperadas.
Las frecuencias esperadas para cada intervalo, bajo la suposición de una
distribución normal con media 90.67 y desviación estándar 2.82, son las
siguientes:
83.4 a 85.8: 2.90 esperados
85.8 a 88.2: 11.58 esperados
88.2 a 90.6: 23.34 esperados
90.6 a 93.1: 24.59 esperados
93.1 a 95.5: 11.80 esperados
95.5 a 97.9: 2.99 esperados
97.9 a 100.3: 0.38 esperados
Con las frecuencias observadas y esperadas, ahora podemos calcular el valor de
chi-cuadrado usando la fórmula:
Donde Oi son las frecuencias observadas y Ei son las frecuencias esperadas.
Después de calcular el valor de chi-cuadrado, lo compararemos con el valor
crítico de la distribución chi-cuadrado para el nivel de significancia del 5% y los
grados de libertad adecuados (número de intervalos menos 1 menos los
parámetros estimados).
El valor calculado de chi-cuadrado es 9.79, y el valor crítico de chi-cuadrado para
un nivel de significancia del 5% y 4 grados de libertad es 9.49.
Dado que el valor calculado de chi-cuadrado (9.79) es mayor que el valor crítico
(9.49), rechazamos la hipótesis nula de que los datos siguen una distribución
normal con los parámetros estimados (media 90.67 y desviación estándar 2.82) al
nivel de significancia del 5%. Esto sugiere que los datos de octanaje pueden no
seguir una distribución normal, según esta prueba de bondad de ajuste chi-
cuadrado.
Conclusión general:
La prueba de bondad de ajuste chi-cuadrado fue utilizada para evaluar si los datos
de octanaje de varias mezclas de gasolina siguen una distribución normal. A partir
de los datos proporcionados, calculamos la media y la desviación estándar, que
fueron 90.67 y2.82 respectivamente, y los utilizamos como parámetros estimados
para la distribución normal esperada.
Al dividir los datos en intervalos y comparar las frecuencias observadas con las
frecuencias esperadas bajo la hipótesis de una distribución normal, obtuvimos un
valor calculado de chi-cuadrado de 9.799.79. Este valor se comparó con el valor
crítico de chi-cuadrado para un nivel de significancia del 5% y 4 grados de libertad,
que fue 9.49.
Dado que el valor calculado fue mayor que el valor crítico, rechazamos la hipótesis
nula de que los datos siguen una distribución normal con los parámetros
estimados. Esto indica que, según la prueba chi-cuadrado realizada, los datos de
octanaje no parecen seguir una distribución normal al nivel de significancia del 5%.