APUNTES E INFOGRAFIAS
I3C
Adriana M. Álvarez, Jonathan De J. López, Ángeles Y. Pérez
AEF1024. Estadística Inferencial
Unidad 4 y 5
Ing. Luis A. Jonapa
29 de diciembre del 2024
Bondad de ajuste
En este tipo de prueba de hipótesis se determina si los datos “se
ajustan” a una determinada distribución o no. Por ejemplo, puede sospechar
que sus datos desconocidos se ajusten a una distribución binomial. Se utiliza
una prueba de chi cuadrada (lo que significa que la distribución para la prueba
de hipótesis es chi-cuadrada) para determinar si hay un ajuste o no. Las
hipótesis nula y alternativa de esta prueba se puede escribir en oraciones o
plantear como ecuaciones o desigualdades.
El estadístico de prueba para una prueba de bondad de ajuste es:
(𝑂 − 𝐸)2
∑ 𝐸
Donde:
O= Valores observados (datos).
E= Valores esperados (de la teoría).
K= El número de celdas o categorías de datos diferentes.
Los valores observados son los valores de los datos y los valores
esperados son los valores que se esperarían obtener, si la hipótesis nula fuera
cierta.
Hay 𝑛 términos de la forma
(𝑂−𝐸)
2
𝐸
El número de grados de libertad es 𝑎𝑓 = (números de categorias-1)
La prueba de bondad de ajuste es casi siempre de cola derecha. Si los
valores observados y los correspondientes valores esperados no se aproximan
ante sí, el estadístico de prueba puede ser muy grande y se situaron en la cola
derecha de la curva de chi-cuadrada.
Análisis Ji Cuadrada
La prueba de ji cuadrada de bondad de ajuste comprueba si es probable
que los datos de la muestra vengan de una distribución teórica especifica.
Tenemos un conjunto de valores de datos y cierta idea sobre cómo se
distribuyen. Esta prueba nos da una manera de decir si los datos se ajustan lo
bastante bien a nuestra idea o hipótesis de la distribución de la misma.
Para aplicar la prueba de bondad de ajuste a un conjunto de datos
necesitamos:
> Valores de datos que son una muestra.
> Datos categóricos o nominales.
La prueba de ji cuadrado de bondad de ajuste no es adecuada para
datos continuos.
> Un conjunto de datos lo bastante grande como para esperar al
momento al menos cinco valores en cada categoría de datos observados.
La notación para la distribución chi-cuadrada es:
𝑥 ~ 𝑥2 𝑎𝑧
Donde:
𝑑𝑓 = grados de libertad, lo cual depende de cómo se utilice se utilice el
chicuadrado, si quiere practicar el cálculo de probabilidades chi-cuadrada,
utilice 𝑑𝑓 = 𝑛 − 1. Los grados de libertad para los tres usos principales se
calcula cada uno de forma diferente.
Para la distribución 𝑥2 la media poblacional es 𝑊 = 𝑑𝑓 y la desviación
típica poblacional es:
La variable aleatoria se muestra como 𝑥2. Aunque puede ser cualquier
letra mayúscula.
Prueba de independencia y un ejemplo de cada uno
Las pruebas de independencia son técnicas estadísticas utilizadas para
determinar si dos variables son independientes entre sí, es decir, si el valor de
una no afecta al valor de la otra. Estas pruebas son comunes en el análisis de
datos categóricos y se usan, por ejemplo, en tablas de contingencia.
Ejemplos:
1- Prueba de independencia de Chi-Cuadrada
Formula: 𝑥2 = ∑ ( 𝑂−𝐸𝐸)2
Imaginemos que una empresa desea analizar si el género de sus
empleados (masculino o femenino) está relacionado con el departamento en el
que trabajan (Ventas, Marketing, y Finanzas). La pregunta sería: ¿el género
influye en el departamento en el que un empleado trabaja?
Variable 1: Género (Masculino, Femenino)
Variable 2: Departamento (Ventas, Marketing, Finanzas)
Supongamos que los datos recolectados en una muestra de 120
empleados son los siguientes:
Genero/ Vent Marketi Finanz Tot
Dep artamento as ng as al
Femenino 30 20 10 60
Masculino 15 25 20 60
Total 45 45 30 120
Hipótesis nula (H₀): Las dos variables, género y departamento, son
independientes entre sí.
Hipótesis alternativa (H₁): Las dos variables, género y departamento,
están relacionadas.
Valores esperados
𝐹𝑖𝑙𝑎 𝑡𝑜𝑡𝑎𝑙 ⋅ 𝐶𝑜𝑙𝑢𝑚𝑛𝑎 𝑡𝑜𝑡𝑎𝑙
𝐸=
𝑁
Donde E es el valor esperado, N es el tamaño total de la muestra, y los
totales de filas y columnas son los valores marginales.
Realizando este cálculo para todas las celdas de la tabla obtenemos los
valores esperados:
Genero/ Ventas Marketing Finanzas Total
Departamento
Masculino 22.5 22.5 15 60
Femenino 22.5 22.5 15 60
Total 45 45 30 120
Calcular la estadística chi-cuadrada
Para cada celda, calculamos la diferencia entre el valor observado y el
valor esperado, la elevamos al cuadrado, y luego la dividimos por el valor
esperado.
Sumamos todos estos valores.
𝑥 (20−15)
2
=
15
𝑥2 = ∑ 0.1 + 0.01234 + 0.1 + 0.1 + 0.01234 + 0.1=
𝑥2 = 0.42468
Con el valor de 𝑥2 calculado, comparamos este valor con el valor crítico de la
distribución chi-cuadrada para un nivel de significancia dado y los grados de
libertad. Los grados de libertad para esta prueba se calculan como:
𝑑𝑓 = (𝑛𝑢𝑚𝑒𝑟𝑜 𝑑𝑒 𝑓𝑖𝑙𝑎 − 1) ⋅ (𝑛𝑢𝑚𝑒𝑟𝑜 𝑑𝑒 𝑐𝑜𝑙𝑢𝑚𝑛𝑎𝑠 −
1)
𝑑𝑓 = (2 − 1) ⋅ (3 − 1) = 1 ⋅ 2 = 2
df =¿
para α =0.05 , el valor critico es 5.99
comparación de chi-cuadrada con el valor critico
2
x =0.42468 0.4246< 5.9 9
V c =5.99
Conclusión
No se rechaza la H 0
Ejercicios chi cuadrada
21. En una empresa familiar consideran que el proceso de producción de jarras
de barra no está funcionando adecuadamente, la varianza de las jarras en 4
cm, las medidas de esta se distribuyen normalmente. En la actualidad con la
contracción de una muestra de 9 jarras y obtiene las siguientes medidas
9,10,12,7,11,8,10,12,9. Pruebe la hipótesis de que el proceso de producción
sigue funcionando adecuadamente con ∞=0.10
Datos Planteamiento de la hipótesis
2 2
H O =a =4 cm
n=9
2
H 1=a≠ 4 cm
y=9−1=8
Prueba de dos colas
2
s =3 sentimetros
2 x 00.05
= =0.0 5
2 2
2
a =4 centimetros
2 Regla de la decisión
2 2 2
x1 ≤ x ≤ x2
a 0.10
= =0.05
2 2 Valores críticos de x 2
Valor critico x 2 ( 8 , 0.95 )=2.733
2
Incógnita x
Valor critico x 2 ( 8 , 0.05 )=15.507
Regla de decisión: se rechaza H o si se cumple
Calculo del valor de x 2
( n−1 ) s2 2 8 ( 3 )
x 2= x= =6
a2 4
15−507 ≤6 ≤ 2.733
No se cumple, por lo tanto se acepta H O . Existe evidencia estadística que
demuestra que la varianza a 2 se mantiene en 4 cm2 y se concluyó que la
producción de jarras de barro sigue los mismos estándares
22. El gerente de la tienda de ropa Karina desea introducir una sola línea de
espera para pago según el orden de llegada para pagar, esta nueva línea
consiste en entregar un turno para no realizar la fila tradicional, también se
colocarán sillones para esperar turno, el gerente piensa que los clientes en lo
que esperan su turno de pago podrían llevar otra prenda. Esta nueva
estructura no cambia el tiempo promedio que los clientes deben esperan para
realizar su pago, el gerente defiende esta propuesta porque disminuye la
variabilidad de espera. Los gerentes de otras sucursales piensan que esta
variabilidad será tan grande como para varias líneas de espera, en años
anteriores se tenía una varianza de por lo menos 83 por cliente. Esta
controversia se soluciona utilizando una prueba de hipótesis con un nivel de
significancia de 1%. Se toma una muestra aleatoria de 36 clientes de la nueva
línea de espera, obteniendo una varianza muestral 16 minutos2
Datos Solución
Plantean la hipótesis
n=3 6 2
H 0 :σ ≥ 83
2
y=36−1=35 H 1 : σ ≤8 3
Se rechaza H 0 si
2 2 2
s =16 minutos x ≤ 18.50 9
2
Valor critico de x ( 35, 0.01) =18.509
2 2
a =83 minutos
Se calcula x 2:
2 ( n−1 ) s2 35 ( 16 ) 560
x= = = =6.7469
σ2 83 83
α =0.01
Incógnita x 2
No se acepta H 0. El gerente tiene razón, la nueva propuesta disminuye la
variabilidad del tiempo de espera del pago