100% encontró este documento útil (1 voto)
817 vistas68 páginas

Pruebas de Bondad de Ajuste y Tablas

Este documento presenta una prueba de bondad de ajuste para verificar si los datos observados en una muestra se ajustan a una distribución propuesta. Se proporciona un ejemplo sobre la resistencia al desgaste de neumáticos, planteando hipótesis nula y alternativa, calculando estadísticos de prueba y concluyendo que no hay evidencia para afirmar que los datos se ajustan al patrón propuesto por el fabricante, rechazando la hipótesis nula. Adicionalmente, se explican conceptos generales sobre p
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PPTX, PDF, TXT o lee en línea desde Scribd
100% encontró este documento útil (1 voto)
817 vistas68 páginas

Pruebas de Bondad de Ajuste y Tablas

Este documento presenta una prueba de bondad de ajuste para verificar si los datos observados en una muestra se ajustan a una distribución propuesta. Se proporciona un ejemplo sobre la resistencia al desgaste de neumáticos, planteando hipótesis nula y alternativa, calculando estadísticos de prueba y concluyendo que no hay evidencia para afirmar que los datos se ajustan al patrón propuesto por el fabricante, rechazando la hipótesis nula. Adicionalmente, se explican conceptos generales sobre p
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PPTX, PDF, TXT o lee en línea desde Scribd

Pruebas de Bondad de Ajuste,

Independencia y Homogeneidad
Claudio Álvaro Cerrón Landeo
Propósito de la Clase
Al finalizar la unidad, el estudiante será capaz de plantear, aplicar e
interpretar pruebas de hipótesis para la bondad de ajuste y de tablas
de contingencia a partir de una muestra aleatoria.
Reconocer las características de una
prueba no paramétrica Multinomial.

Realizar pruebas No paramétricas de


Bondad de Ajuste.

Realizar pruebas de Independencia y


Homogeneidad.
1. Generalidades
Bondad de ajuste
Por “bondad de ajuste” queremos decir que los datos muestrales, que consisten en conteos de
frecuencia observados y se disponen en una sola fila o columna (llamada tabla de frecuencias
unidireccional) concuerdan con alguna distribución particular (por ejemplo, normal o uniforme) en
consideración. (Mario Triola)
Analicemos los datos que corresponden al
ancho de los sépalos de la data IRIS:
Experimento multinomial
• Generaliza un experimento binomial al permitir que
cada intento resulte en uno de k posibles resultados,
donde k>2.

Desgaste N° de
Nivel mgr/Kg Neumáticos
Ejemplo
Se tienen una muestra de 1 50 a 100 23
una serie de neumáticos
2 100 a 150 15
para realizar un experimento
y probar su resistencia al 3 150 a 200 36
desgaste.
4 200 a 250 24
2. Pruebas de bondad de ajuste

Pruebas con experimentos multinomiales


PRUEBAS DE BONDAD DE AJUSTE
Las pruebas de bondad de ajuste son pruebas de hipótesis para
verificar si los datos observados en una muestra aleatoria se
ajustan con algún nivel de significancia a determinada distribución
de probabilidad (uniforme, exponencial, normal, poisson, u otra
cualquiera).

La hipótesis nula Ho indica la distribución propuesta, mientras que


la hipótesis alternativa H1, nos indica que la variable en estudio
tiene una distribución que no se ajusta a la distribución propuesta.
Proceso de la Prueba de Bondad de ajuste:
La prueba es de una cola a la derecha.
Se utiliza la distribución χ2
El Valor Crítico (VC) con nivel de significancia α y gl = K – 1.
Se calcula el valor-p
Ho: Oi=Ei La población sigue o se ajusta a la distribución ……..
H1: Oi≠Ei La población no sigue o no se ajusta a la distribución ……
Oi : frecuencia observada (corresponde a los datos de la muestra)
Ei : frecuencia esperada (corresponde al modelo propuesto)

Para realizar la prueba, se clasifican los datos


observados en k clases o categorías, y se
contabiliza el número de observaciones en cada
clase, para posteriormente comparar la frecuencia
observada en cada clase con la frecuencia que se
esperaría obtener en esa clase si la hipótesis nula
es correcta.
Condiciones de una Prueba de Bondad de ajuste:

• La muestra es aleatoria simple.


• Se tiene k categorías en las que se puede clasificar cada uno de
los elementos de una población.
• Se tiene una frecuencia esperada en cada categoría E ≥ 5.
• Las frecuencias esperadas se obtienen de E=npi
• El estadístico de prueba se calcula con:
2 2
𝑘
( 𝑓𝑟𝑒𝑐.𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑑𝑎𝑖 − 𝑓𝑟𝑒𝑐.𝑒𝑠𝑝𝑒𝑟𝑎𝑑𝑎𝑖 ) ( 𝑜𝑖 −𝑒𝑖 )
𝑋 =∑
2
=
𝑖=1 𝑓𝑟𝑒𝑐.𝑒𝑠𝑝𝑒𝑟𝑎𝑑𝑎𝑖 𝑒𝑖
2. Prueba de Bondad de Ajuste
Ejemplo
• Resistencia de neumáticos: Se tienen Desgaste N° de
una muestra de una serie de neumáticos Niv. mgr/Kg Neumáticos
para realizar un experimento y probar su
resistencia al desgaste para poder
introducirlos al mercado. Los niveles (k) 1 50 a 100 23
de desgaste y las frecuencias en cada
nivel se muestran a continuación. Según 2 100 a 150 15
el fabricante la distribución de las
resistencias sigue un patrón como:
p1 = 0.3 p2 = 0.3 p3 = 0.2 p4 = 0.2 3 150 a 200 36
• Al nivel de 5% pruebe que las
resistencias se ajustan al patrón 4 200 a 250 24
propuesto por el fabricante.
2. Prueba de Bondad de Ajuste

Nivel Desgaste fi=Oi


mgr/Kg
Las frecuencias absolutas
“fi” obtenidas con la 1 50 a 100 23
muestra se denominan
2 100 a 150 15
frecuencias observadas,
se simbolizan como fo, 3 150 a 200 36
también como Oi.
4 200 a 250 24
98
2. Prueba de Bondad de Ajuste

• Las frecuencias hipotéticas


Desgaste Proporción
en la población se Nivel mgr/kg Oi de Ei
denominan frecuencias Neumáticos
esperadas, se simbolizan
como fe o Ei. 1 50 a 100 23 p1=0.3 E1=
• Las frecuencias hipotéticas 2 100 a 150 15 p2=0.3 E2=
se pueden obtener 3 150 a 200 36 p3=0.2 E3=
utilizando los pi . 4 200 a 250 24 p4=0.2 E4=
Ei=pi*n n 98
2. Prueba de Bondad de Ajuste

• Las frecuencias hipotéticas en la


Desgaste Proporción de
población se denominan frecuencias Nivel mgr/kg Oi Neumáticos Ei
esperadas, se simbolizan como fe o
Ei.
1 50 a 100 23 p1=0.3 E1=0.3*98=29.4
• Las frecuencias hipotéticas para la
2 100 a 150 15 p2=0.3 E2=0.3*98=29.4
población se pueden obtener
utilizando los pi . 3 150 a 200 36 p3=0.2 E3=0.2*98=19.6
Ei=pi*n 4 200 a 250 24 p4=0.2 E4=0.2*98=19.6
n 98
2. Prueba de Bondad de Ajuste
Planteamiento de las hipótesis
• La hipótesis nula de interés especificará el valor de cada pi. En el ejemplo, k = 4, se tiene:
p1 = 0.3, p2 = 0.3, p3 = 0.2, p4 = 0.2.
• La hipótesis alternativa indicará que al menos una de la pi tiene un valor diferente de lo
expresado por H0

Las hipótesis se pueden plantear de la siguiente manera:

H0: O = E: p1 = 0.3; p2 = 0.3; p3 = 0.2; p4 = 0.2


H1: O ≠ E: Por lo menos una de las proporciones es diferente.

también:

H0: O = E: Los datos se ajustan a la distribución esperada.


H1: O ≠ E: Los datos no se ajustan a la distribución esperada.
2. Prueba de Bondad de Ajuste
Solución
H0: O = E: p1 = 0.3, p2 = 0.3, p3 = 0.2, p4 = 0.2 Regla de decisión:
H1: O ≠ E: El patrón expresado por el fabricante no se cumple
 = 0.05
Cálculo del estadístico de prueba: gl = 4 – 1= 3

Cat. Desgaste O n*p E ( 𝑂 − 𝐸 )2


mgr/Kg 𝐸 7.815
1 50 a 100 23 0.3(98) = 29.4
Rechazamos H0
2 100 a 150 15 0.3(98) = 29.4 como
3 150 a 200 36 0.2(98) = 19.6 verdadera
4 200 a 250 24 0.2(98) = 19.6
=
98 98

Conclusión: No existe evidencia para probar que las resistencias se ajustan al patrón propuesto por el fabricante.
2. Prueba de Bondad de Ajuste
Solución
Parámetro de interés: Los parámetros de interés son p1, p2, p3, p4, las frecuencias de
cada uno de los k =4 niveles respectivamente, y queremos saber si p1 = 0.3, p2 = 0.3,
p3 = 0.2, p4 = 0.2
H0: O = E: p1 = 0.3; p2 = 0.3; p3 = 0.2; p4 = 0.2
H1: O ≠ E: Por lo menos una de las proporciones es diferente.
Usando R: chisq.test(x,p)

Como el p valor es 0,000 menor que


el nivel de significancia de 0,05, hay
evidencia estadística para rechazar
la hipótesis nula. Se concluye que
los datos no tienen la distribución
esperada
3. Bondad de ajuste: Distribuciones uniformes
Ejemplo 2
El sorgo o maicillo es un importante producto de exportación cuya calidad y aspecto podrían ser afectadas
por la presencia de pigmentos con el respectivo reclamo de las empresas que importan dicho producto. El
administrador de la empresa informa al Jefe de Planta que un artículo, “A Genetic and Biochemical Study
on Pericarp Pigments” muestra un experimento que comprendía una cruza inicial, entre una variedad
norteamericana con semillas blancas y una variedad etíope con semillas amarillas que, de acuerdo a la
teoría genética, esta cruza debería producir plantas con semillas rojas, amarillas o blancas en igual
proporción. El Jefe de Planta decide replicar el experimento y encuentra la información a continuación.
¿Se podrá exportar dicho producto en proporciones similares de colores? Utilice un nivel de significancia
de 0.05
Color de
Rojo Amarillo Blanco
semilla
Frecuencia
195 73 100
observada
3. Bondad de ajuste: Distribuciones uniformes
Ejemplo

•La solución utiliza el procedimiento de prueba de hipótesis de cinco


pasos que es la siguiente:
1. Parámetro de interés: Los parámetros de interés son p1, p2, p3, las
frecuencias de cada uno de los k =3 niveles respectivamente, y
queremos saber si p1 = p2 = p3
2. Hipótesis:
H0: O = E: p1 = p2 = p3 Las semillas se dan por igual en
cualquier color (distribución uniforme)
H1: O ≠ E: Las semillas se dan en proporciones diferentes.
3. Bondad de ajuste: Distribuciones uniformes
Ejemplo
H0: O = E: p1 = p2 = p3 La cruza produce plantas con semillas rojas, amarillas o blancas en igual
proporción.
H1: O ≠ E: Las semillas se dan en proporciones diferentes.
Regla de decisión:
Estadístico de la prueba:

Color de ( 𝑶 − 𝑬 )𝟐
O n*p E  = 0.05
semilla 𝑬
gl = 3 – 1= 2
Rojo 195 368(0.333)= 122,544 42,841

Amarillo 73 368(0.333)= 122,544 20,030 5.991


Rechazamos H0 como
Blanco 100 368(0.333)= 122,544 4,147 verdadera
368 368 67,018 =

Conclusión: No existe evidencia para probar que los datos confirman la teoría genética.
3. Bondad de ajuste: Distribuciones uniformes

Solución
1. Parámetro de interés: Los parámetros de interés son p1, p2, p3, las frecuencias de cada uno
de los k =3 niveles respectivamente, y queremos saber si p1 = p2 = p3
2. Hipótesis:
H0: O = E: p1 = p2 = p3 Las semillas se dan por igual en cualquier color. (distribución uniforme)
H1: O ≠ E: Las semillas se dan en proporciones diferentes.
Usando R: chisq.test(x,p)
Como el p valor es 0,000 menor que
el nivel de significancia de 0,05, hay
evidencia estadística para rechazar
la hipótesis nula. Se concluye que
los datos contradicen la teoría
genética.
2. Prueba de Bondad de Ajuste
Adicional:
Considere un estudio sobre participación en el mercado realizado por la empresa Scott
Marketing Research. A lo largo de los años la participación  en el mercado se ha
estabilizado en 30% para la empresa A, 50% para la empresa B y 20% para la empresa C.
Recién la empresa C ha elaborado un nuevo y mejorado producto para sustituir a uno de
sus productos en el mercado y pidió a la empresa Scott Marketing Research que
determinara si el nuevo producto modificaría su participación en el mercado.
Considere que para este estudio la empresa de investigación de mercado ha empleado
un panel de 200 consumidores. A cada individuo se le pidió que indique su preferencia
entre el producto de la empresa A, empresa B o el nuevo producto de la empresa C,
obteniendo el resultado a continuación:
3. Bondad de ajuste a una
distribuciones Discretas y
Continuas
Pruebas con experimentos multinomiales.
4. Bondad de ajuste: Distribuciones Discretas y
Continuas

• La prueba ji cuadrada también se puede usar para probar si la muestra


proviene de una familia especificada de distribuciones continuas, como es el
caso de la familia binomial, de Poisson, exponencial, o la familia normal.

• H0: O=E: La distribución de la población es . . . .


• H1: O≠E: La distribución de la población no es . . . .

• Los valores pi se deben hallar usando las distribuciones correspondientes.


4. Bondad de ajuste: Distribuciones Discretas y
Continuas
• Los datos siguientes son los montos en miles de soles de 30
facturas tomadas al azar de una empresa exportadora de insumos
químicos pertenecientes a los últimos 10 años. Con un nivel de
significación de 0.05, ¿dichos montos se ajustan a una distribución
normal?
257 327 317 300 340 340 343 374 377 386

383 393 407 407 434 427 440 407 450 440

456 460 456 476 480 490 497 526 546 700
PRUEBAS DE NORMALIDAD CON R
4. Bondad de ajuste a distribuciones
Discretas y Continuas
Ejemplo

•La solución utiliza el procedimiento de prueba de hipótesis de cinco pasos que es la


siguiente:
1. Parámetro de interés: Los parámetros de interés son p1, p2, p3, . . . . pn las frecuencias
de cada uno de los k = n niveles respectivamente, y queremos saber si p1 , p2, p3, . . . pn
tiene una distribución normal.
2. Hipótesis:
H0: O = E: La población tiene una distribución normal H1: O ≠ E: La
población no tiene una distribución normal.
Solución con R
H0: O = E: La población tiene una distribución normal.
H1: O ≠ E: La población no tiene una distribución normal.
Copiamos los datos al Excel poniendo de encabezado “X”, luego seleccionamos todo,
copiamos con Ctrl+C.
Luego abrimos el R y cargamos los datos con el comando read.delim, luego seguimos la
secuencia.

Como el p valor es 0.1435 mayor que el nivel de significancia de 0.05, existe evidencia
estadística para no rechazar la hipótesis nula y se concluye que hay NORMALIDAD.
• También se puede utilizar el gráfico Q-Q plot que compara los cuantiles de la
muestra con los de la distribución normal.
> qqPlot(data$X,distribution = "norm")
3. Pruebas de Independencia
y de homogeneidad
Tablas de contingencia.
Prueba de independencia
En un estudio de una vacuna de hepatitis participan 1083 voluntarios. De éstos, se eligen aleatoriamente 549 y son
vacunados. Los otros, 534, no son vacunados. Después de un cierto tiempo, se observa que 70 de los 534 no
vacunados han contraído la hepatitis, mientras que sólo 11 de los 549 vacunados la han contraído.
Esquematicemos los resultados en lo que se llama una tabla de contingencia:

¿Enfermo?/¿Vacunado? Sí No Total
SÍ 11 70 81
NO 538 464 1002
Total 549 534 1083

¿Es el hecho de contraer hepatitis independiente de haber sido vacunado contra la dolencia?
En este ejemplo, contrastar si la manera de clasificar a los voluntarios entre vacunados y no vacunados y la manera
de clasificarlos entre enfermos por hepatitis y no enfermos es equivalente a contrastar si la vacuna es efectiva contra
la hepatitis. Y decir que la vacuna no es efectiva sería equivalente a decir que vacunar a un individuo es
independiente de que contraiga la hepatitis.
Prueba de independencia

El contraste que nos planteamos es el siguiente:

H0: Los criterios de clasificación ”X” y ”Y” son independientes,


H1: Los criterios de clasificación ”X” y ”Y” no son independientes.
(están relacionados)

Para poder realizar el contraste anterior, lo plantearemos como un


contraste de bondad de ajuste.
Tablas de Contingencia

Variable B
Poco Medio Mucho
0 a 100 fo11 fo12 fo13 Total F1
100 a 200 fo21 fo22 fo23 Total F2
Variable A
200 a 300 fo31 fo32 fo33 Total F3
400 a 500 fo41 fo42 fo43 Total F4
Total C1 Total C2 Total C3 Total

• Las frecuencias esperadas tienen que calcularse de manera


tal que hipotéticamente las frecuencias se distribuyen de
manera homogénea
Tablas de Contingencia
• Las frecuencias esperadas tienen que calcularse de manera tal que
hipotéticamente las frecuencias se distribuyen de manera homogénea.

Variable B
Poco Medio Mucho
0 a 100 Total F1
100 a 200 Total F2
Variable A
200 a 300 Total F3
400 a 500 Total F4
Total C1 Total C2 Total C3 Total
Tablas de Contingencia
• Las frecuencias esperadas tienen que calcularse de manera tal que
hipotéticamente las frecuencias se distribuyen de manera homogénea.

Variable B
Poco Medio Mucho
0 a 100 fe11 Total F1
100 a 200
Variable A
200 a 300
400 a 500
Total C1 Total

=
Tablas de Contingencia
• Las frecuencias esperadas tienen que calcularse de manera tal que
hipotéticamente las frecuencias se distribuyen de manera homogénea.

Variable B
Poco Medio Mucho
0 a 100 fe12 Total F1
100 a 200
Variable A
200 a 300
400 a 500
Total C2 Total

= =
Tablas de Contingencia
• Las frecuencias esperadas tienen que calcularse de manera tal que
hipotéticamente las frecuencias se distribuyen de manera homogénea.

Variable B
Poco Medio Mucho
0 a 100 fe13 Total F1
100 a 200
Variable A
200 a 300
400 a 500
Total C3 Total

= = =
Tablas de Contingencia
• Las frecuencias esperadas tienen que calcularse de manera tal que
hipotéticamente las frecuencias se distribuyen de manera homogénea.

Variable B
Poco Medio Mucho
0 a 100 fe11 fe12 fe13 Total F1
100 a 200 fe21 fe22 fe23 Total F2
Variable A
200 a 300 fe31 fe32 fe33 Total F3
400 a 500 fe41 fe42 fe43 Total F4
Total C1 Total C2 Total C3 Total
Ejemplo
Se toma una muestra aleatoria de 3800 familias y se les clasifica según su nivel de
ingresos (alto, medio o bajo) y el tipo de colegio a la que envían sus hijos. La
siguiente tabla muestra los resultados obtenidos:

Categoría de Tipo de Colegio


Ingresos
Privado Público Mixto

Alto 506 394 210


Medio 438 462 512
Bajo 215 385 678

¿A un nivel de significancia del 5% hay razón para creer que el ingreso y el tipo de
colegio no son variables independientes?
Ejemplo
¿A un nivel de significancia del 5% hay razón para creer que el ingreso y el tipo de
colegio no son variables independientes?

Categoría de Tipo de Colegio


Ingresos
Privado Público Mixto
1110
Alto 506 394 210
Medio 438 462 512
Bajo 215 385 678
1159 3800
Categoría de Tipo de Colegio
Ingresos
Privado Público Mixto
1159 ∗ 1110
3800
Alto
Medio
Bajo
Ejemplo
¿A un nivel de significancia del 5% hay razón para creer que el ingreso y el tipo de
colegio no son variables independientes?

Categoría de Tipo de Colegio


Ingresos
Privado Público Mixto
1110
Alto 506 394 210
Medio 438 462 512
Bajo 215 385 678
1159 3800
Categoría de Tipo de Colegio
Ingresos
Privado Público Mixto
338.55
Alto
Medio
Bajo
Ejemplo
¿A un nivel de significancia del 5% hay razón para creer que el ingreso y el tipo de
colegio no son variables independientes?

Categoría de Tipo de Colegio


Ingresos
Privado Público Mixto

Alto 506 394 210


1412
Medio 438 462 512
Bajo 215 385 678
1159 3800
Categoría de Tipo de Colegio
Ingresos
Privado Público Mixto
338.55
Alto 1159 ∗ 1412
3800
Medio
Bajo
Ejemplo
¿A un nivel de significancia del 5% hay razón para creer que el ingreso y el tipo de
colegio no son variables independientes?

Categoría de Tipo de Colegio


Ingresos
Privado Público Mixto
1110
Alto 506 394 210
1412
Medio 438 462 512
1278
Bajo 215 385 678
1159 1241 1400 3800
Categoría de Tipo de Colegio
Ingresos
Privado Público Mixto
338.55 362.5026 408.9474
Alto
430.66 461.1295 520.2105
Medio
389.79 417.3679 470.8421
Bajo
Ejemplo
¿A un nivel de significancia del 5% hay razón para creer que el ingreso y el tipo de
colegio no son variables independientes?

Categoría de Tipo de Colegio


Ingresos
Privado Público Mixto
O E
Alto 506 394 210
506 338.55
Medio 438 462 512
438 430.66
Bajo 215 385 678
215 389.79
Categoría de Tipo de Colegio
Ingresos
Privado Público Mixto

Alto 338.55 362.5026 408.9474


Medio 430.66 461.1295 520.2105
Bajo 389.79 417.3679 470.8421
Ejemplo
¿A un nivel de significancia del 5% hay razón para creer que el ingreso y el tipo de
colegio no son variables independientes?

Categoría de Tipo de Colegio


Ingresos
Privado Público Mixto O E

Alto 506 338.55


506 394 210
Medio 438 430.66
438 462 512
Bajo 215 389.79
215 385 678
394 362.5026
Categoría de Tipo de Colegio 462 461.1295
Ingresos
Privado Público Mixto 385 417.3679

Alto 338.55 362.5026 408.9474 210 408.9474

Medio 430.66 461.1295 520.2105 512 520.2105

Bajo 389.79 417.3679 470.8421 678 470.8421


Ejemplo
¿A un nivel de significancia del 5% hay razón para creer que el ingreso y el tipo de
colegio no son variables independientes?
H0: O=E Ingreso y tipo de colegio son
O E independientes
H1: O≠E Ingreso y tipo de colegio no son
506 338.55 82.8223
independientes (están relacionados)
438 430.66 0.1251
• Rechazamos H0 como verdadera:
215 389.79 78.3795
394 362.5026 2.7368
• Tipo de colegio y nivel de ingresos no
son independientes, están relacionados
462 461.1295 0.0016
385 417.3679 2.5102
gl =(3-1)(3-1)
210 408.9474 96.7852 gl = 4

512 520.2105 0.1296  = 0.05

678 470.8421 91.1439

354.6343 9.488
Contraste de independencia con R
Para realizar el contraste de independencia en R hacemos lo siguiente:

chisq.test(tabla.contingencia,correct=FALSE)

tabla.contingencia: es la tabla de las frecuencias empíricas.


correct: es un parámetro lógico. Si su valor es FALSE, hará los cálculos como hemos explicado.
Si su valor es TRUE, aplica la corrección a la continuidad sólo para tablas de contingencia 2 × 2.
En el ejemplo:
chisq.test(matrix(c(506,438,215,394,462,385,210,512,678),
3,3),correct=FALSE)
Rpta.: Como el p valor es 0.000
## menor que 0.05, existe evidencia
## Pearson's Chi-squared test estadística para rechazar Ho.
## Conclusión: El nivel de ingresos
## data: matrix(c(506, 438, 215, 394, 462, 385, 210, 512, está relacionado con el tipo de
678), 3, 3) colegio al que asisten sus hijos.
X-squared = 354.63, df = 4, p-value <2.2e-16
Ejemplo 2
Una gran firma de electrónica que contrata a muchos trabajadores con discapacidades quiere
determinar si las discapacidades influyen en el desempeño de dichos trabajadores. Utilice el nivel
de significancia α = 0.05 para decidir, sobre la base de los datos muestrales que se presentan en la
siguiente tabla, si es razonable sostener que las discapacidades no tienen efecto sobre el
desempeño de los trabajadores:
>chisq.test(matrix(c(21,16,29,64,49,93,17,14
Arriba del Desempeño Abajo del
,28),3,3),correct=FALSE)
promedio promedio promedio
Pearson's Chi-squared test
Ceguera 21 64 17
data: matrix(c(21, 16, 29, 64, 49, 93, 17, 14,
Sordera 16 49 14 28), 3, 3)
Sin discapacidad 29 93 28 X-squared = 0.19609, df = 4, p-value= 0.9955

Hipótesis: Rpta.: Como el p valor es 0.9955 mayor


H0: O = E Discapacidad y Desempeño son que 0.05, existe evidencia estadística para
independientes. V no rechazar la hipótesis nula.
H1: O ≠ E Discapacidad y Desempeño están
relacionados. Conclusión: La discapacidad de los
trabajadores y su respectivo desempeño
son independientes.
Prueba de Hipótesis (2da parte)
CLAUDIO CERRÓN
ESTADÍSTICA APLICADA
Semana 03-04
Propósito de la Clase

Plantear, aplicar e interpretar pruebas de hipótesis para la media,


proporción a partir de una y dos muestras aleatorias.
Significación
Al comenzar cualquier análisis debemos especificar el nivel de significación α (o error de tipo I). La
prueba estadística nos arrojará un nivel crítico p (o p-valor) que es el valor asociado al estadístico
de contraste. Compararemos entonces el p-valor con el nivel de significación (α) para decidir si los
datos apoyan o no la hipótesis planteada.

Criterio de decisión
Diremos que un contraste es estadísticamente significativo cuando se rechaza Ho, y esto ha de
ocurrir siempre que el p-valor del contraste sea menor que el nivel de significación α (o error tipo I).
Asimismo, diremos que el estadístico no es significativo cuando no podamos rechazar Ho, es decir,
el p-valor es mayor o igual que α.

p valor ≤ α p valor > α


Rechazar la hipótesis nula No rechazar la hipótesis nula
Introducción
• Existen muchas situaciones importantes y significativas en
las que es necesario comparar dos conjuntos de datos
muestrales.
• Poner a prueba la aseveración de que, cuando se trata el
síndrome del túnel carpiano, la cirugía es más exitosa que la
aplicación de un entablillado.
• Cuando se prueba la eficacia de la vacuna de Salk en la prevención
de la poliomielitis paralítica, determinar si el grupo de tratamiento
tiene una menor incidencia de poliomielitis que el grupo al que se
administró un placebo.

Adiel Omar FLORES RAMOS


Introducción
• Cuando se prueba la eficacia del Lipitor, determinar si los sujetos
tienen niveles más bajos de colesterol después de tomar el fármaco.
• Dados dos grupos similares de sujetos con depresión bipolar,
determinar si el grupo tratado con paroxetina obtiene puntuaciones
más bajas en la escala de depresión Hamilton que el grupo que recibió
un placebo.
• Comparar el desgaste de dos pistas asfálticas en una determinada
• ciudad.

Adiel Omar FLORES RAMOS


Requisitos
1. Tenemos proporciones de dos muestras aleatorias simples
que son independientes. (Las muestras son independientes
si los valores muestrales seleccionados de una población
no están relacionados ni apareados de alguna forma con
los valores muestrales seleccionados de la otra población).
2. Para ambas muestras, el número de éxitos es de al menos
5
y el número de fracasos es de al menos 5.

Adiel Omar FLORES RAMOS


Notación para dos proporciones

Adiel Omar FLORES RAMOS


Proporción muestral agrupada

Adiel Omar FLORES RAMOS


Estadístico de prueba para dos
proporciones
(con H0: p1 = p2)

Adiel Omar FLORES RAMOS


Ejemplo: ¿La cirugía es mejor que
el
entablillado?
• Se incluye los resultados de una prueba clínica en la que se
dio tratamiento a pacientes con síndrome de túnel carpiano,
los resultados se resumen en la tabla:

Adiel Omar FLORES RAMOS


Ejemplo: ¿La cirugía es mejor que el
entablillado?
• Utilice los datos muestrales de la tabla, con un nivel de
significancia de 0.05 para probar la aseveración de que la tasa
de éxito de la cirugía es mejor que la tasa de éxito del
entablillado.

Adiel Omar FLORES RAMOS


Solución
• Paso 1:
La aseveración de una mayor proporción de éxitos en el grupo de
tratamiento
con cirugía se expresa como p1 > p2.
• Paso 2:
Si p1 > p2 es falso, entonces p1 ≤ p2.
• Paso 3:
• Puesto que nuestra aseveración de p1> p2 no contiene igualdad, se
convierte en la hipótesis alternativa. La hipótesis nula es la afirmación
de igualdad, entonces tenemos:
H0: p1 = p2
H1: p1 > p2 (aseveración original)
Adiel Omar FLORES RAMOS
Solución
• Paso 4:
• El nivel de significancia es a 0.05.
• Paso 5:
• Utilizaremos la distribución normal (con el estadístico de
prueba) como una aproximación de la distribución binomial.
• Estimamos el valor común de p1 y p2 con el estimado de la
muestra
agrupada p

Adiel Omar FLORES RAMOS


Solución
• Paso 6
Estadístico de
prueba

Adiel Omar FLORES RAMOS


Solución

Adiel Omar FLORES RAMOS


Solución

• Los datos muestrales sustentan la


aseveración de que la tasa de éxito
de la cirugía es mejor que la tasa
de éxito del entablillado.

Adiel Omar FLORES RAMOS


Prueba de hipótesis para la proporción con R https://cran.r-project.org/bin/windows/base/
Nota: Es necesario instalar previamente la librería PASWR.

La función que resuelve contrastes de hipótesis para la proporción en R es prop.test. Sus argumentos
son los siguientes:
prop.test(x, n, p = NULL, alternative = c(“two.sided”, “less”, “greater”), correct=FALSE)

donde:
 x es un valor numérico que indica el número de elementos que presentan la característica de interés
 n es un valor numérico que indica el número total de elementos del grupo
 p es un valor numérico que se corresponde con el valor π0 que se desea comprobar
 alternative indica el tipo de la hipótesis alternativa del contraste.
 correct indica si se aplica la corrección de Yates.
Prueba de hipótesis para dos proporciones con R

prop.test(x, n, alternative = c(“two.sided”, “less”, “greater”), correct=FALSE)

donde:
 x es un vector numérico que contiene las características de interés x1 y x2
 n es un vector numérico que contiene el número total de elementos de cada muestra n1 y n2
 p es un valor numérico que se corresponde con el valor π0 que se desea comprobar
 alternative indica el tipo de la hipótesis alternativa del contraste.
 correct indica si se aplica la corrección de Yates.
Prueba de hipótesis para una media
Prueba Z, con varianza poblacional σ2 conocida. (Si n > 30; s≈σ ).
  z.test(x, mu, sigma.x, alternative c("two.sided", "less", "greater"))

Prueba t de Student, con varianza poblacional σ2 desconocida.


  t.test(x, mu, alternative c("two.sided", "less", "greater"))

donde:
 x es el vector con los elementos de interés. característica de interés.
 mu es el valor de contraste.
 sigma.x es la desviación estándar poblacional conocida.
Prueba de hipótesis para dos medias.

Tendremos que considerar dos casos:


1. Muestras independientes.
• Varianzas poblacionales conocidas. (z) (n1>30, n2>30)
• Varianzas poblacionales desconocidas pero distintas, n1<30 o n2 <30. (t)
• Varianzas poblacionales desconocidas pero iguales, n1<30 o n2 <30. (t)
2. Muestras relacionadas. (t)
z.test(x1,x2, alternative=…, mu=0, sigma.x=…, sigma.y=...)

var.test(x1,x2)

t.test(x1, x2, alternative=…, paired=FALSE, var.equal=FALSE)

También podría gustarte