Unidad 4. Pruebas de hipótesis.
Parte 2
Escuela: Ciencias Básicas y Exactas
Prof. Sandoval, Marisa Susana
Se clasifican en
Paramétricas No paramétricas
Pruebas no paramétricas
Bondad de Ajuste Prueba de Independencia
Antes de iniciar…
¿Con qué estadístico de prueba se trabajará?
El estadístico de prueba
Se plantea, como medida de la diferencia entre los valores
observados y los esperados según el modelo que se plantee en la
H0, la suma de los cuadrados de dichas diferencias en proporción
a las frecuencias esperadas, es decir:
𝑘 2
𝑓𝑜𝑖 − 𝑓𝑒𝑖 2
~𝜒𝑘−𝑚
𝑓𝑒𝑖
𝑖=1
Donde los grados de libertad se corresponden con el número de
valores (categorías o clases) comparados (k), menor el número de
restricciones lineales independientes impuestas a la comparación
que se representa con m.
La prueba de hipótesis: ¿unilateral o bilateral?
Restricción del número de frecuencias en
cada categoría
Regla empírica:
La experiencia ha demostrado que la frecuencia
esperada en cada categoría debe ser por lo menos
5. Esta restricción se impone para valor
sobreestimados de Chi – cuadrado al efectuar el
cociente entre las diferencias al cuadrado y
frecuencias esperadas muy pequeñas.
Aplicaciones de las pruebas Chi -
Cuadrado
1. Prueba de Bondad de Ajuste.
2. Prueba de independencia: Tablas de
Contingencia.
1- Prueba de Bondad de Ajuste
Es una prueba para
¿De qué se decidir, a partir de una
muestra particular, si se
trata esta rechaza o no la hipótesis
de que una variable
aplicación? aleatoria se ajusta a una
distribución probabilística
específica.
Ejemplo de aplicación
Días de atraso Cantidad de
Clientes
Una financiera registró el número 0 19
de días de atraso por semana en
el pago de los préstamos 1 25
acordados para los últimos 80 2 22
clientes. Con el objeto de estimar
3 8
intereses y saldos disponibles para
próximos préstamos, desea 4 3
probar la hipótesis de que la 5 2
variable aleatoria “días de atraso”
6 1
se ajusta a una distribución
Poisson, con un nivel de Total 80
significación 0,05.
Planteo de las hipótesis de trabajo
H0: El número de días de atraso se
distribuye Poisson
H1: El número de días de atraso no
se distribuye Poisson
Como se Cuenta para llegar a 𝜆መ =1,51
desconoce el
parámetro λ, se Días de atraso
𝒙𝒊
Cantidad de
clientes (𝒇𝒐𝒊 )
𝒙𝒊 ∗ 𝒇𝒐𝒊
utilizará 𝜆መ = 𝑥ҧ = 0
1
19
25
0
25
𝟏𝟐𝟏
= 1,51 como 2
3
22
8
44
24
𝟖𝟎
su estimador Total
4 o más 6
80
28
121
Nivel de significación
Se elige un nivel de
significación, para el ejemplo
tomaremos 𝛼 = 0,05. El valor
de alfa representa la
posibilidad de rechazar una
hipótesis nula verdadera
Cálculo del valor observado del estadístico
Días de atraso Cantidad de P(𝒙𝒊 ; 𝝀 = 𝟏, 𝟓𝟏) 𝒇𝒆𝒊 = 𝟖𝟎 ∗ [𝑷(𝒙𝒊 )] [𝒇𝒐𝒊 − 𝒇𝒆𝒊 ]𝟐
𝒙𝒊 clientes (𝒇𝒐𝒊 ) 𝒇𝒐𝒊
0 19 0,2209 18 0,06
1 25 0,3336 27 0,15
2 22 0,2518 20 0,20
3 8 0,1268 10 0,40
4 o más 6 0,066 5 0,20
Total 80
1,01
Regla de decisión
Recuerde que necesita encontrar un valor crítico que separe la zona de
aceptación respecto de la de rechazo.
Entonces, los grados de libertad (GL) de calcularán como:
GL = k – m,
Donde: K representa las filas de la tabla (5) y m son las restricciones
lineales ya que hay una restricción lineal porque la suma total de los
conteos tiene que ser igual a n, más una restricción de estimar un
parámetro desconocido que requiere para calcular las frecuencias
esperadas (m=2).
Gráficamente
Decisión o inferencia final
2
El valor observado 𝜒 (1,01) es menor que
7,81.
Por lo tanto NO se rechaza la hipótesis nula y
podemos inferir, a un nivel de significación
del 5%, que la distribución del número de
días de atraso se distribuye Poisson.
2- Pruebas de Independencia
Interesa poner a
prueba si existe o no
¿De qué se independencia entre
trata esta dos variables
aplicación? cualitativas
(atributos) de una
población.
Ejemplo de aplicación
En una encuesta de opinión pública se le solicitó a 1000 habitantes de la ciudad su
calificación respecto del desempeño del intendente, siendo las respuestas
posibles: Bueno, Regular o Malo. La distribución de dichas respuestas, clasificadas
según el nivel educacional de los encuestados. A continuación se puede observar
la tabla de contingencia:
Primario (I) Secundario (II) Universitario (II) Total
Bueno (A) 82 427 191 700
Regular (B) 10 110 60 180
Malo ( C ) 8 63 49 120
Total 100 600 300 1000
Tabla 1: Tabla de contingencia
Planteo de las hipótesis
H0: La calificación respecto del desempeño
del intendente es independiente del nivel
educacional de los encuestados
H1: La calificación respecto del desempeño
del intendente dependiente del nivel
educacional de los encuestados
Para transformar la tabla de contingencia en
tabla de probabilidades el procedimiento es:
𝑓𝑖 . 𝑓𝑗 Entonces para transformar la primera celda, se
obtiene mediante el cálculo:
𝑒𝑖𝑗 = 𝑓𝑖=1 .𝑓𝑗=1 70∗100
=70
𝑛 𝑒11 =
1000
=
1000
Tabla de probabilidades
Primario Secundario Universitario Total
(I) (II) (II)
Bueno (A) 70 420 210 700
Regular (B) 18 108 54 180
Malo ( C ) 12 72 36 120
Total 100 600 300 1000
Tabla 2: tabla de probabilidades
Cálculo del valor del estadístico de pruebas
con la tabla 1 y tabla 2
𝑓 𝑐 2
2
𝑓𝑜𝑖 − 𝑓𝑒𝑖
𝜒𝑜𝑏𝑠 =
𝑓𝑒𝑖
𝑖=1 𝑗=1
2 2 2
(82 − 70) (10 − 18) 49 − 36
+ + ⋯+ = 15,30
70 18 36
Grados de libertad
El número de grados de libertad asociados a una tabla
de contingencia es:
GL = (f-1)*(c-1)
Para este ejemplo la cantidad de filas es f=3 y c=3,
entonces
GL=2*2
GL=4
Representación gráfica para la regla de decisión
Decisión o inferencia final
El valor observado 𝜒 2 (15,30) es mayor al
valor crítico (9,49), en consecuencia se
rechaza la hipótesis nula y podemos inferir, a
un nivel de significación del 5%, que la
calificación del desempeño del intendente
depende del nivel educacional de los
encuestados.