100% encontró este documento útil (1 voto)
283 vistas22 páginas

Prueba de Hipótesis y Distribuciones Estadísticas

Una prueba de hipótesis evalúa dos hipótesis opuestas sobre una población: la hipótesis nula y la hipótesis alternativa. La hipótesis nula generalmente afirma que "no hay diferencia" y se rechaza si el valor p es menor que el nivel de significancia. Las pruebas de hipótesis determinan si existe evidencia estadística suficiente en los datos de la muestra para rechazar la hipótesis nula, pero no pueden seleccionar cuál de las dos hipótesis es más probable.

Cargado por

Focus Led SAS
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
100% encontró este documento útil (1 voto)
283 vistas22 páginas

Prueba de Hipótesis y Distribuciones Estadísticas

Una prueba de hipótesis evalúa dos hipótesis opuestas sobre una población: la hipótesis nula y la hipótesis alternativa. La hipótesis nula generalmente afirma que "no hay diferencia" y se rechaza si el valor p es menor que el nivel de significancia. Las pruebas de hipótesis determinan si existe evidencia estadística suficiente en los datos de la muestra para rechazar la hipótesis nula, pero no pueden seleccionar cuál de las dos hipótesis es más probable.

Cargado por

Focus Led SAS
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

¿Qué es una prueba de hipótesis?

Una prueba de hipótesis es una regla que especifica si se puede aceptar o rechazar
una afirmación acerca de una población dependiendo de la evidencia proporcionada
por una muestra de datos.

Una prueba de hipótesis examina dos hipótesis opuestas sobre una población: la
hipótesis nula y la hipótesis alternativa. La hipótesis nula es el enunciado que se
probará. Por lo general, la hipótesis nula es un enunciado de que "no hay efecto" o
"no hay diferencia". La hipótesis alternativa es el enunciado que se desea poder
concluir que es verdadero de acuerdo con la evidencia proporcionada por los datos
de la muestra.

Con base en los datos de muestra, la prueba determina si se puede rechazar la


hipótesis nula. Usted utiliza el valor p para tomar esa decisión. Si el valor p es menor
que el nivel de significancia (denotado como α o alfa), entonces puede rechazar la
hipótesis nula.

Un error común de percepción es que las pruebas estadísticas de hipótesis están


diseñadas para seleccionar la más probable de dos hipótesis. Sin embargo, al
diseñar una prueba de hipótesis, establecemos la hipótesis nula como lo que
queremos desaprobar. Puesto que establecemos el nivel de significancia para que
sea pequeño antes del análisis (por lo general, un valor de 0.05 funciona
adecuadamente), cuando rechazamos la hipótesis nula, tenemos prueba estadística
de que la alternativa es verdadera. En cambio, si no podemos rechazar la hipótesis
nula, no tenemos prueba estadística de que la hipótesis nula sea verdadera. Esto
se debe a que no establecimos la probabilidad de aceptar equivocadamente la
hipótesis nula para que fuera pequeña.

Entre las preguntas que se pueden contestar con una prueba de hipótesis están las
siguientes:

 ¿Tienen las estudiantes de pregrado una estatura media diferente de 66 pulgadas?


 ¿Es la desviación estándar de su estatura igual a o menor que 5 pulgadas?
 ¿Es diferente la estatura de las estudiantes y los estudiantes de pregrado en
promedio?
 ¿Es la proporción de los estudiantes de pregrado significativamente más alta que la
proporción de las estudiantes de pregrado?
Procedimiento de 4 pasos para probar una hipótesis

Paso 1

Establecer la hipótesis nula y alterna

El primer paso es establecer la hipótesis a ser probada. Esta es llamada la hipótesis


nula, simbolizada por H0, el subíndice cero implica “cero diferencia”. Usualmente
el termino no es encontrado en la hipótesis nula significando no cambio.

La hipótesis nula

denotada como H0 siempre especifica un solo valor del parámetro de la población


si la hipótesis es simple o un conjunto de valores si es compuesta (es lo que
queremos desacreditar)

La hipótesis alterna

denotada como H1 es la que responde nuestra pregunta, la que se establece en


base a la evidencia que tenemos. Puede tener cuatro formas:

Paso 2

Determinar el criterio de contraste: Consiste en especificar el nivel de


significancia, el tipo de distribución, y los valores críticos. Existen cuatro
posibilidades al tomar una decisión respecto a una hipótesis.
Nivel de significancia: probabilidad de rechazar la hipótesis nula cuando es
verdadera. Error Tipo I: rechazar la hipótesis nula cuando en realidad es verdadera.
Error Tipo II: aceptar la hipótesis nula cuando en realidad es falsa. Estadístico de
prueba: valor obtenido a partir de la información muestral, se utiliza para determinar
si se rechaza o no la hipótesis. Valor crítico: el punto que divide la región de
aceptación y la región de rechazo de la hipótesis nula.
Paso 3.
Calcular el Estadístico De Prueba : El estadístico de prueba es un valor obtenido
de la información de la muestra para compararlo con el criterio de contraste y
rechazar o aceptar la hipótesis. El estadístico de prueba cambia de acuerdo a la
distribución que se utilice El tipo de distribución se determinará dependiendo de la
naturaleza de la hipótesis y del tamaño de la muestra. Cuando la hipótesis es
relativa a medias poblacionales y las muestras son grandes (n > 30) se utiliza la
distribución normal. Cuando la hipótesis es relativa a la media y la muestra es chica
( n ≤ 30) se utiliza la distribución t de student. Paso
Paso 4.
Tomar Decisión Y Conclusión Una regla de decisión es establecer las condiciones
sobre las cuales la hipótesis nula es rechazada o no rechazada. Si el estadístico de
prueba queda dentro de la zona crítica la hipótesis nula deberá ser rechazada. Si el
estadístico de prueba queda fuera de la zona crítica la hipótesis nula no deberá ser
rechazada.
Zona De Rechazo: es el área bajo la curva para el estadístico que corresponda
(curva normal para valores de Z (distribución Normal) y para valores de t
(Distribución tStuden etc.)
Zona de Aceptación: Es el área bajo la curva que es complementaria a la zona de
rechazo ambas se generan a partir del nivel de significancia de la prueba α ambas
zonas se muestran a continuación
Colas De Pruebas: es el área bajo la curva donde se ubica la zona de rechazo puede
ser de tres formas:
Formulas Empleadas En Una Prueba De Hipótesis Para Muestras Grandes

Tabla para los valores de Z con el valor de significancia dado


Formulas Empleadas En Una Prueba De Hipótesis Para Muestras Pequeñas

Tabla de t-Studen Empleada En Una Prueba De Hipótesis Para Muestras Pequeñas


Regla de decisión: es el área bajo la curva donde se ubica la zona de rechazo
puede ser de tres formas: pero antes de tenemos que definir algunos términos
como: ZR= Valor calculado por la formula y ZL = valor dado por la tabla de
Distribución normal buscado con el nivel de confianza estos son los valores a
comparar para determinar si se cumple la hipótesis o no

Ejemplo para prueba de hipótesis para variables cuantitativas una cola y un


grupo
1.-Una muestra aleatoria de 100 muertes registradas en Estados Unidos el año
pasado muestra una vida promedio de 71.8 años. Suponga una desviación estándar
poblacional de 8.9 años, ¿esto parece indicar que la vida media hoy en día es mayor
que 70 años? Utilice un nivel de significancia de 0.05.
Datos:
µ=70 años
σ = 8.9 años
𝑥 = 71.8 años
n = 100
α = 0.05 entonces ZL= 1,645
Solución:
Se trata de una distribución muestral de medias con desviación estándar conocida.
Regla de decisión:
Si ZR ≤ 1.645 no se rechaza Ho.
Si ZR > 1.645 se rechaza Ho.
Justificación y decisión:
Como 2.02 >1.645 se rechaza Ho y se concluye con un nivel de significancia del
0.05 que la vida media hoy en día es mayor que 70 años.
Ejemplo para prueba de hipótesis para variables cuantitativas una cola y un
grupo
2.-Una muestra aleatoria de 64 bolsas de palomitas de maíz pesan, en promedio
5.23 onzas con una desviación estándar de 0.24 onzas. Pruebe la hipótesis de que
µ = 5.5 onzas contra a la hipótesis alternativa, µ< 5.5 onzas en el nivel de
significancia de 0.05
Solución:
Se trata de una distribución muestral de medias con desviación estándar
desconocida, pero como el tamaño de muestra es mayor a 30 se puede tomar la
desviación muestral como un estimador puntual para la poblacional
Datos:
µ = 5.5 onzas
σ = 0.24 onzas
𝑥 = 5.23 onzas
n = 64 α = 0.05 entonces ZL= -1,645
Ensayo de hipótesis
Ho; µ = 5.5 onzas
H1; µ < 5.5 onzas
Regla de decisión:
Si ZR ≥ -1.645 No se rechaza Ho
Si ZR < -1.645 Se rechaza Ho

Cálculos:

Justificación y decisión:
Como –9 < -1.645 por lo tanto se rechaza Ho y se concluye con un nivel de
significancia del 0.05 que las bolsas de palomitas pesan en promedio menos de 5.5
onzas.
Ejemplo para prueba de hipótesis para variables cuantitativa una cola y un
grupo muestra pequeña n ≤30
La vida útil de un foco es de 5000 horas. Un nuevo diseño se piensa incremente
esta vida. Se prueban n=25 focos con fusión a media =5117, S= 1886. Concluir para
un nivel alfa del 5%.
Cuando se trabaja con muestras pequeñas como en este caso ya no se trabaja con
la tabla de distribución normal en este caso trabajaremos con la tabla t-studen en
donde se muestra un nivel de significancia y el valor de V que son los grados de
libertad ( numero donde se pueden mover los valores con el nivel de significancia
dado) los demás procedimientos son semejante a trabajar con una muestra grande
Solución:
Se trata de una distribución muestral de medias con desviación estándar conocida.
Datos:
µ=5000 horas
s = 1,886
𝑥 = 5,117
n = 25
gl= (n-1) = 25-1=24
α = 0.05 entonces tl= 1,7109
Ensayo de hipótesis
Ho; µ ≤ 5000 Horas
H1; µ > 5000 Horas
Regla de decisión:
Si tR ≤ 1,7109 no se rechaza Ho.
Si tR > 1.7109 se rechaza Ho.
Justificación y decisión:
Como 0,311 ≤ 1,7109 no se rechaza Ho y se concluye con un nivel de significancia
del 0.05 que la vida útil de los focos es menos e igual que 5000 horas.
Ejemplo para prueba de hipótesis para variables cuantitativas dos colas y un
grupo
3.-Una empresa eléctrica fabrica focos que tienen una duración que se distribuye
de forma aproximadamente normal con una media de 800 horas y una desviación
estándar de 40 horas. Si una muestra aleatoria de 30 focos tiene una duración
promedio de 788 horas, ¿muestran los datos suficiente evidencia para decir que la
duración media ha cambiado? Utilice un nivel de significancia del 0.04.
Solución:
Se trata de una distribución muestral de medias con desviación estándar conocida.
Datos:
µ=800 horas
σ = 40 horas
𝑥 = 788 horas
n = 30
α = 0.04
Ensayo de hipótesis
Ho; µ = 800 horas
H1; µ ≠ 800 horas
Regla de Decisión:
Si –2.052 ≤ ZR ≤ 2.052 No se rechaza Ho
Si ZR < -2.052 ó si ZR > 2.052 Se rechaza Ho
Justificación y decisión:
Como –2.052 ≤ -1.643 ≤ 2.052 por lo tanto, no se rechaza Ho y se concluye con un
nivel de significancia del 0.04 que la duración media de los focos no ha cambiado

Ejemplo para prueba de hipótesis para variables cualitativas dos colas y un


grupo
5.-Un fabricante de semiconductores produce controladores que se emplean en
aplicaciones de motores automovilísticos. El cliente requiere que la fracción de
controladores defectuosos en uno de los pasos de manufactura críticos no sea
mayor que 0.05, y que el fabricante demuestre esta característica del proceso de
fabricación con este nivel de calidad, utilizando α = 0.05. El fabricante de
semiconductores toma una muestra aleatoria de 200 dispositivos y encuentra que
cuatro de ellos son defectuosos. ¿El fabricante puede demostrar al cliente la calidad
del proceso?
Solución:
1. Se trata de una distribución muestral de proporciones.
2. Datos:
P= 0.05
𝑝 = 4/200 = 0.02
n = 200
α = 0.05
3. Ensayo de hipótesis
Ho; P = 0.05
H1; P < 0.05
Regla de decisión:
Si ZR ≥-1.645 No se rechaza Ho
Si ZR < -1.645 Se rechaza Ho

Justificación y decisión:
Puesto que –1.946<-1.645, se rechaza Ho y se concluye con un nivel de
significancia del 0.05 que la fracción de artículos defectuosos es menor que 0.05.
Ejemplo para prueba de hipótesis para variables cuantitativas dos colas y dos
grupos
6.-Un diseñador de productos está interesado en reducir el tiempo de secado de
una pintura tapaporos. Se prueban dos fórmulas de pintura; la fórmula 1 tiene el
contenido químico estándar, y la fórmula 2 tiene un nuevo ingrediente secante que
debe reducir el tiempo de secado. De la experiencia se sabe que la desviación
estándar del tiempo de secado es ocho minutos, y esta variabilidad inherente no
debe verse afectada por la adición del nuevo ingrediente. Se pintan diez
especímenes con la fórmula 1, y otros diez con la fórmula 2. Los dos tiempos
promedio de secado muéstrales son 121 min y112 min respectivamente. ¿A qué
conclusiones puede llegar el diseñador del producto sobre la eficacia del nuevo
ingrediente, utilizando α = 0.05?
Solución:
Se trata de una distribución muestral de diferencia de medias con desviación
estándar conocida. Datos:
𝑠1=𝑠2= 8
𝑥̅ 1 = 1=121min
𝑥̅ 2 = =112min
n1=n2= 10
α = 0.05 GL=(n1+n2)-1=19
Ensayo de hipótesis
Ho; 𝜇1= 𝜇2 entonces 𝜇1 − 𝜇2=0
H1; 𝜇1 > 𝜇2 entoneces 𝜇1 - 𝜇2 >0 Se desea rechazar Ho si el nuevo ingrediente
disminuye el tiempo promedio de secado, por eso se pone la diferencia mayor a
cero o sea positiva para poder probar que 𝜇2es menor que 𝜇1

Regla de decisión:
Si tR ≤ 1.7291 no se rechaza Ho.
Si tR >1.7291 se rechaza Ho.
Justificación y decisión:
Puesto que 2.52 >1.8331, se rechaza Ho, y se concluye con un nivel de significancia
de 0.05 que la adición del nuevo ingrediente a la pintura si disminuye de manera
significativa el tiempo promedio de secado
Ejemplo para prueba de hipótesis para variables cualitativos dos colas y dos
grupos
7.-Se evalúan dos tipos diferentes de soluciones para pulir, para su posible uso en
una operación de pulido en la fabricación de lentes intraoculares utilizados en el ojo
humano después de una cirugía de cataratas. Se pulen 300 lentes con la primera
solución y, de éstos, 253 no presentaron defectos inducidos por el pulido. Después
se pulen otros 300 lentes con la segunda solución, de los cuales 196 resultan
satisfactorios. ¿Existe alguna razón para creer que las dos soluciones para pulir son
diferentes? Utilice α = 0.01
Solución:
Se trata de una distribución muestral de diferencia de proporciones.
Datos:

𝑃̂1= 253/300= 0.8433


𝑃̂ 2 = 196/300= 0.6533
n1=n2 = 300
Ensayo de hipótesis:
Ho; P1 = P2 entonces P1-P2=0
H1; P1 ≠ P2 entonces P1-P2 ≠ 0
Regla de Decisión:
Si –2.575≤ ZR ≤ 2.575 No se rechaza Ho
Si ZR < -2.575 ó si ZR > 2.575 Se rechaza Ho
Nota:
en este caso no tenemos ni 𝑃1 𝑛𝑖 𝑃2 por lo tanto Debemos calcular un solo P usando
la siguiente formula 𝑃 = 𝑛 1+𝑛 2 𝑛1+𝑛2 donde 𝑛 1 𝑦 𝑛 2 son las cantidades tomadas
en cada muestra aplicando la formula P= 253+196 300+300 =0,748 y q= 0,251

Justificación y decisión:
Puesto que 5.36>2.575, se rechaza la hipótesis nula y se concluye con un nivel de
significancia de 0.01 que los dos fluidos para pulir son diferentes.

INTERVALOS DE CONFIANZA
En una población cuya distribución es conocida pero desconocemos algún
parámetro, podemos estimar dicho parámetro a partir de una muestra
representativa.
Un estimador es un valor que puede calcularse a partir de los datos muestrales y
que proporciona información sobre el valor del parámetro. Por ejemplo la media
muestral es un estimador de la media poblacional, la proporción observada en la
muestra es un estimador de la proporción en la población.
Una estimación es puntual cuando se obtiene un sólo valor para el parámetro. Los
estimadores más probables en este caso son los estadísticos obtenidos en la
muestra, aunque es necesario cuantificar el riesgo que se asume al considerarlos.
Por ejemplo, es obviamente inútil concluir que si el sueldo medio de una muestra de
una ciudad es de 1.240 € entonces el sueldo medio de los habitantes de dicha
ciudad también será ése. Lógicamente la posibilidad de equivocarnos es demasiado
grande.
Más útil es la estimación mediante intervalos de confianza, que consiste en
determinar un posible rango de valores o intervalo, en los que pueda precisarse,
con una determinada probabilidad, que el valor de un parámetro de la población se
encuentra dentro de esos límites. Este parámetro será habitualmente una
proporción en el caso de variables dicotómicas, y la media para distribuciones
normales.
Evidentemente esta técnica no tiene porqué dar un resultado correcto. A la
probabilidad de que hayamos acertado al decir que el parámetro estaba contenido
en dicho intervalo se la denomina nivel de confianza:
Nivel de confianza es la "probabilidad" de que el intervalo calculado contenga al
verdadero valor del parámetro. Se indica por 1 y habitualmente se da en
porcentaje (1 )100% (Hablaremos de un nivel de confianza del 90%, del 95%, del
99%,…). Hablamos de nivel de confianza y no de probabilidad ya que una vez
extraída la muestra, el intervalo de confianza contendrá al verdadero valor del
parámetro o no, lo que sabemos es que si repitiésemos el proceso con muchas
muestras podríamos afirmar que el ( 1 )% de los intervalos así construidos
contendría al verdadero valor del parámetro.
A la probabilidad de equivocarnos se le denomina nivel de significación, y lo
representamos por  .

Lógicamente, cuanto más pequeño sea  (es decir, cuanto más grande sea el nivel
de confianza), la probabilidad de equivocarnos será menor, pero el intervalo que
calcularemos será más grande y por tanto la precisión de la estimación será menor.
Se trata pues de encontrar un equilibrio entre que la probabilidad de equivocarnos
no sea muy grande y que el intervalo tampoco para obtener mayor precisión. Se
suelen para ello prefijar niveles de confianza superiores al 90%.
Dado un nivel de confianza, 1 , se llama valor crítico 2  z al valor que en una
N(0,1) cumple que:
Es decir:

Para calcular el valor crítico tenemos en cuenta que si

entonces (Ver dibujo) y por tanto y eso lo


podemos buscar en la tabla de la N(0,1). Vemos un ejemplo práctico de cómo
calcular el valor crítico:
Ejemplo:
Calcular el valor crítico correspondiente a un nivel de confianza del 99%.

Y buscamos ahora en la tabla el valor de z que deja a la izquierda una probabilidad


de 0’995, obteniendo:

2.- INTERVALO DE CONFIANZA PARA LA MEDIA POBLACIONAL Supongamos


que la población de partida es N , ) , y queremos estimar mediante un intervalo
la media de la población,  , que es desconocida. Para ello escogemos una muestra
aleatoria de tamaño n y calculamos la media muestral, 𝑥̅ .

Como vimos en el tema anterior, la media muestral tiene una distribución conocida:
Y por tanto, tipificando:

Fijado un nivel de confianza, 1 , queremos dos valores tales que la probabilidad
de que la media de la población,  , se encuentre entre ellos sea precisamente 1
. Si nos fijamos en la definición de valor crítico:

De donde

Despejando:

Y por tanto:

Es decir:
El intervalo de confianza para el parámetro  de una población N  , al nivel de
confianza 1 viene dado por:

Si  es desconocida, se sustituye por la desviación típica de la muestra, s.


Nota: tenemos que tener en cuenta que, o bien n  30 , o bien la distribución de
partida es normal, pues sólo así conocemos la distribución de las medias muestrales
que es en lo que nos basamos para calcular el intervalo de confianza.
Ejemplo 1:
Se sabe que la desviación típica de las tallas de los alumnos de una universidad es
de 5cm. Se desea estimar la talla media de dichos alumnos, para lo que se escoge
una muestra de 100 estudiantes y se obtiene que la media muestral es de 172cm.
Hallar el intervalo de confianza para la talla media de la universidad para los niveles
de confianza del 90 y del 95%.
Solución:
Tenemos   5 , n = 100 y x  172
Calculamos el valor crítico para el nivel de confianza del 90%:

Y buscamos ahora en la tabla el valor de z que deja a la izquierda una probabilidad


de 0’95, obteniendo (aprox.):

Sustituyendo en la fórmula del intervalo de confianza:

Luego el intervalo de confianza para el 90% será:  171'18,172'82 


Hacemos lo mismo para el nivel de confianza del 90%:

Y buscamos ahora en la tabla el valor de z que deja a la izquierda una probabilidad


de 0’95, obteniendo (aprox.):
Sustituyendo en la fórmula del intervalo de confianza:

Obsérvese que a mayor nivel de confianza mayor es el intervalo, con lo que la


precisión de la estimación es menor.
Error Máximo Admisible y Tamaño de la Muestra
Si observamos la fórmula obtenida para el intervalo de confianza:

la media muestral siempre será el centro de dicho intervalo, mientras que su


amplitud depende del valor

Con un nivel de confianza del (1 )100% admitimos que la diferencia entre la
estimación para la media de la población a partir de la muestra y su valor real es
menor que E, que llamaremos error máximo admisible.
El tamaño de la muestra depende del nivel de confianza que se desee para los
resultados y de la amplitud de intervalo de confianza, es decir, del error máximo que
se esté dispuesto a admitir. Fijados 1 y E, podemos calcular el tamaño mínimo
de la muestra que emplearemos despejando de la expresión de E:
Notas:
- A mayor tamaño de la muestra, menor es el error
- A mayor nivel de confianza, mayor es el error
- A mayor nivel de confianza, mayor tamaño de la muestra (con un error fijo)
3.- INTERVALO DE CONFIANZA PARA LA PROPORCIÓN
Deseamos ahora estimar la proporción p con la que una determinada característica
se da en una población. Para ello extraemos una muestra de tamaño n y obtenemos
la proporción muestral, es decir,

Como vimos en el tema anterior, la distribución de las proporciones muestrales es:

donde q=1 – p
Dado un nivel de confianza, 1 , y haciendo lo mismo que en el caso de la media,
se obtiene el siguiente intervalo de confianza para la proporción de la población:

Ejemplo:
Tomando al azar una muestra de 300 personas mayores de 15 años en una gran
ciudad, se encuentra que 104 de ellas leían el periódico habitualmente. Hallar, con
un nivel de confianza del 90%, un intervalo para estimar la proporción de lectores
de periódico entre los habitantes de esa ciudad mayores de 15 años.
Solución: La proporción muestral es:

El valor crítico para un nivel de confianza del 90%:


Luego sustituyendo en la fórmula:

Error Máximo Admisible y Tamaño de la Muestra


Los conceptos y notas ha tener en cuenta son los mismos que en los intervalos de
confianza para la media, con los cambios obvios en las fórmulas correspondientes.
En cuanto al error:

Y en cuanto al tamaño de la muestra

También podría gustarte