Instituto Tecnológico de Campeche
Ingeniería Industrial
Conceptos Pruebas de Hipótesis
Unidad 3 Prueba de Hipótesis
Rafael Hernández García
Estadística Inferencial
Grupo MI-3
10/11/2020
Ramon Agustín Bocos Patrón
ÍNDICE
INTRODUCCIÓN.............................................................................................................................3
DEFINICIÓN DE HIPÓTESIS ESTADÍSTICA.............................................................................4
TIPOS DE HIPÓTESIS...................................................................................................................4
CONSTRUCCIÓN DE HIPÓTESIS..............................................................................................5
TIPOS DE PRUEBAS.....................................................................................................................6
EL ESTADÍSTICO DE PRUEBA..................................................................................................8
TIPOS DE ERRORES....................................................................................................................9
POTENCIA DE UNA PRUEBA ESTADÍSTICA........................................................................10
PROCEDIMIENTO PARA LA P. DE H......................................................................................11
P. DE H. PARA MEDIAS CONOCIDA..................................................................................13
PLANTEAMIENTO DEL VALOR “P” PARA LA PRUEBA DE HIPÓTESIS.......................14
P. DE H. PARA MEDIAS DESCONOCIDAS........................................................................15
P. DE H. PARA VARIANZA ....................................................................................................17
P. DE H. PARA PROPORCIONES ......................................................................................18
PRUEBA DE HIPÓTESIS PARA DOS PARÁMETROS POBLACIONALES......................19
PROPIEDAD REPRODUCTIVA DE LA DISTRIBUCIÓN NORMAL.....................................20
P. DE H. PARA LA DIFERENCIA ENTRE DOS MEDIAS CONOCIDAS................21
P. DE H. PARA LA DIFERENCIA ENTRE DOS MEDIAS DESCONOCIDAS:......24
CASO 1: SE PUEDEN SUPONER IGUALES..............................................................24
CASO: 2 NO SE PUEDEN SUPONER IGUALES......................................................25
P. DE H. PARA LA RAZÓN DE DOS VARIANZAS .....................................................25
P. DE H. PARA LA DIFERENCIA ENTRE DOS MEDIAS, DATOS PAREADOS...............27
P. DE H. PARA LA DIFERENCIA ENTRE DOS PROPORCIONES.....................................30
TAMAÑO DE MUESTRA, ERROR Y POTENCIA DE UNA PRUEBA ESTADÍSTICA...31
MAPA CONCEPTUAL.................................................................................................................32
BIBLIOGRAFÍA.............................................................................................................................33
INTRODUCCIÓN
Una prueba de hipótesis es una regla que especifica si se puede
aceptar o rechazar una afirmación acerca de una población
dependiendo de la evidencia proporcionada por una muestra de datos.
Una prueba de hipótesis examina dos hipótesis opuestas sobre una
población: la hipótesis nula y la hipótesis alternativa. La hipótesis nula
es el enunciado que se probará. Por lo general, la hipótesis nula es un
enunciado de que "no hay efecto" o "no hay diferencia". La hipótesis
alternativa es el enunciado que se desea poder concluir que es
verdadero de acuerdo con la evidencia proporcionada por los datos de
la muestra.
Con base en los datos de muestra, la prueba determina si se puede
rechazar la hipótesis nula. Usted utiliza el valor p para tomar esa
decisión. Si el valor p es menor que el nivel de significancia (denotado
como α o alfa), entonces puede rechazar la hipótesis nula.
Un error común de percepción es que las pruebas estadísticas de
hipótesis están diseñadas para seleccionar la más probable de dos
hipótesis. Sin embargo, al diseñar una prueba de hipótesis,
establecemos la hipótesis nula como lo que queremos desaprobar.
Puesto que establecemos el nivel de significancia para que sea
pequeño antes del análisis (por lo general, un valor de 0.05 funciona
adecuadamente), cuando rechazamos la hipótesis nula, tenemos
prueba estadística de que la alternativa es verdadera. En cambio, si no
podemos rechazar la hipótesis nula, no tenemos prueba estadística de
que la hipótesis nula sea verdadera. Esto se debe a que no
establecimos la probabilidad de aceptar equivocadamente la hipótesis
nula para que fuera pequeña.
DEFINICIÓN DE HIPÓTESIS ESTADÍSTICA
Una hipótesis estadística es una afirmación que se hace sobre una o
más características de una población (decir que la vida media de una
batería son x horas, que un tratamiento reduce el dolor, que un
determinado producto hace adelgazar, que a la gente le gusta
mayoritariamente el morbo…). Una prueba o contraste de
hipótesis es algún procedimiento para aceptar o rebatir dicha
hipótesis o afirmación.
La teoría de las pruebas de hipótesis surge a partir de 1925, cuando
Ronald Fisher publicó el libro Métodos estadísticos para
investigadores. En él, Fisher definía los contrastes de significación,
cuyo funcionamiento básico sigue el esquema del falsacionismo,
como veremos.
TIPOS DE HIPÓTESIS
Hipótesis nulas: estas hipótesis son sobre relaciones que se
establecen entre distintas variables en las que se refuta o niega
aquello que es afirmado por las hipótesis de investigación.
Hipótesis alternativas: estas hipótesis contienen conjeturas o
suposiciones de explicaciones diferentes a las que fueron planteadas
por las hipótesis nulas y las de investigación. Se recurre a esta cuando
la de investigación ha sido rechazada y la nula no es aceptada.
Hipótesis estadísticas: estas hipótesis consisten en las nulas,
alternativas o de investigación transformadas en símbolos
estadísticos, se pueden realizar cuando los datos a estudiar son
mensurables. Dentro de estas hipótesis existen distintas clases:
1. De estimación: estas suponen el valor de alguna característica
de la muestra que fue seleccionada y de la población en su
conjunto. Para formularlas se tienen en cuenta datos adquiridos
previamente.
2. Estadísticas de correlación: buscan establecer estadísticamente
las relaciones existentes entre dos o más variables.
CONSTRUCCIÓN DE HIPÓTESIS
Las hipótesis nula y alternativa son dos enunciados mutuamente
excluyentes acerca de una población. Una prueba de hipótesis utiliza
los datos de la muestra para determinar si se puede rechazar la
hipótesis nula.
Hipótesis nula (H0)
La hipótesis nula indica que un parámetro de población (tal como la
media, la desviación estándar, etc.) es igual a un valor hipotético. La
hipótesis nula suele ser una afirmación inicial que se basa en análisis
previos o en conocimiento especializado.
Hipótesis alternativa (H1)
La hipótesis alternativa indica que un parámetro de población es más
pequeño, más grande o diferente del valor hipotético de la hipótesis
nula. La hipótesis alternativa es lo que usted podría pensar que es
cierto o espera probar que es cierto.
Ejemplos de hipótesis
1. La ingesta de comida chatarra y el sedentarismo son las causas
de la obesidad entre la población.
2. El exceso de automóviles y las fábricas son las causas de la
contaminación ambiental en las grandes ciudades.
3. La pobreza extrema es la causa principal de la deserción escolar
a nivel básico.
4. La falta de interés en la lectura es la principal causa del bajo
nivel de cultura en los países en vías de desarrollo.
5. El sexismo es la principal causa de la violencia de género en la
sociedad mexicana.
6. La falta de recursos económicos y tecnológicos es lo que
ocasiona el atraso educativo en las zonas rurales.
7. Los jóvenes universitarios de clase alta preferirán siempre la
música estadounidense, esto debido a una relación aspiracional
que mantienen con respecto a Estados Unidos y su cultura.
8. La sobrepoblación que existe en algunos países
latinoamericanos es la causa principal de las condiciones de
pobreza en la que viven muchas personas en esas regiones.
9. La falta de educación sexual es la principal causa de los
embarazos adolescentes.
10. La falta de tiempo es la causa de que las personas no
dediquen más tiempo a la lectura.
TIPOS DE PRUEBAS
1) De una cola (derecha)
El investigador desea comprobar la hipótesis de un valor mayor en
el e parámetro que el de la hipótesis nula, en este casi el nivel de
significancia se carga todo hacia el lado derecho, para definir las
regiones de aceptación y de rechazo
H0; parámetro ≤x
H1; parámetro >x
2) De una cola (izquierda)
El investigador desea comprobar la hipótesis de que el parámetro
sea menor que el de la hipótesis nula, en este caso el nivel de
significancia se carga todo hacia el lado izquierdo, para definir las
regiones de aceptación y de rechazo.
H0; parámetro ≥x
H1; parámetro <x
3) De dos colas
El investigador desea comprobar la hipótesis de un cambio en el
parámetro. El nivel de significancia se divide en dos y existen dos
regiones de rechazo
Prueba de hipótesis:
H0; parámetro=x
H1; parámetro ≠x
EL ESTADÍSTICO DE PRUEBA
Un estadístico de prueba es una variable aleatoria que se calcula a
partir de datos de muestra y se utiliza en una prueba de hipótesis.
Puede utilizar los estadísticos de prueba para determinar si puede
rechazar la hipótesis nula. El estadístico de prueba compara sus datos
con lo que se espera bajo la hipótesis nula. El estadístico de prueba se
utiliza para calcular el valor p.
Un estadístico de prueba mide el grado de concordancia entre una
muestra de datos y la hipótesis nula. Su valor observado cambia
aleatoriamente de una muestra aleatoria a una muestra diferente. Un
estadístico de prueba contiene información acerca de los datos que es
relevante para decidir si se puede rechazar la hipótesis nula. La
distribución del muestreo del estadístico de prueba bajo la hipótesis
nula se denomina distribución nula. Cuando los datos muestran
evidencia clara en contra de los supuestos de la hipótesis nula, la
magnitud del estadístico de prueba se vuelve demasiado grande o
pequeña dependiendo de la hipótesis alternativa. Esto hace que el
valor p de la prueba se vuelva lo suficientemente pequeño como para
rechazar la hipótesis nula.
Por ejemplo, el estadístico de prueba para una prueba Z es el
estadístico Z, que sigue la distribución normal estándar bajo la
hipótesis nula. Supongamos que usted realiza una prueba Z de dos
colas con un nivel de significancia (α) de 0.05 y un obtiene un
estadístico Z (también denominado valor Z) de 2.5 basado en sus
datos. Este valor Z corresponde a un valor p de 0.0124. Puesto que
este valor p es menor que α, usted declara significancia estadística y
rechaza la hipótesis nula.
Las diferentes pruebas de hipótesis utilizan diferentes estadísticos de
prueba según el modelo de probabilidad asumido en la hipótesis nula.
Las pruebas comunes y sus respectivos estadísticos de prueba
incluyen:
Prueba de hipótesis Estadístico de prueba
Prueba Z Estadístico Z
Pruebas t Estadístico t
ANOVA Estadístico F
Pruebas de chi-cuadrada Estadístico de chi-cuadrada
TIPOS DE ERRORES
El error de tipo I se comete cuando la hipótesis nula es verdadera y,
como consecuencia del contraste, se rechaza.
El
error de tipo II se comete cuando la hipótesis nula es falsa y, como
consecuencia del contraste se acepta.
H0 Verdadera Falsa
Decisón correcta Decisión incorrecta:
Aceptar
Probabilidad = 1 − α ERROR DE TIPO II
ERROR DE TIPO I
Rechazar Decisión correcta
Probabilidad = α
La probabilidad de cometer Error de tipo I es el nivel de significación α.
La probabilidad de cometer Error de tipo II depende del verdadero
valor del parámetro. Se hace tanto menor cuanto mayor sea n.
¿Qué opinas de esta
POTENCIA DE UNA PRUEBA ESTADÍSTICA
La potencia de una prueba de hipótesis es la probabilidad de que la
prueba rechace correctamente la hipótesis nula. La potencia de una
prueba de hipótesis se ve afectada por el tamaño de la muestra, la
diferencia, la variabilidad de los datos y el nivel de significancia de la
prueba.
Si una prueba tiene poca potencia, es posible que usted no detecte un
efecto y concluya erróneamente que no existe ninguno. Si la potencia
de una prueba es demasiado alta, efectos muy pequeños y
posiblemente sin importancia podrían parecer significativos.
Ninguna prueba es perfecta, siempre existe la posibilidad de que los
resultados de una prueba conduzcan a rechazar la hipótesis nula (H 0)
cuando en realidad sea verdadera (un error de tipo I) o a no rechazar
H0 cuando realmente sea falsa (error de tipo II). Esto se debe a que,
para poder estimar las medias de la población, usted tiene que utilizar
muestras aleatorias, y las muestras aleatorias son precisamente eso,
aleatorias. Por lo tanto, siempre es posible que la media de la muestra
resulte muy diferente de la media de la población.
Por ejemplo, supongamos que cierta población distribuida
normalmente tiene una media (μ) de 10 y una desviación estándar (σ)
de 2. Esta distribución indica que 95.44% de los valores de esta
población se encuentran entre 6 y 14. Sin embargo, siempre es
posible que usted seleccione 10 observaciones de forma aleatoria y
termine con una media de la muestra de 4. ¡Con una muestra como
esa, usted no podría inferir que la media de la población es realmente
10!
Por supuesto, las probabilidades de obtener una muestra como esa
son increíblemente pequeñas, aunque no deja de ser posible. Un error
de muestreo a veces puede conducir a una conclusión equivocada.
Aunque usted no puede saber cuándo ocurrirá esto, sí puede estimar
la frecuencia con la que ocurrirá. Ahí es donde la potencia entra en
juego.
Por ejemplo, supongamos que usted realiza una prueba t de 1 muestra
para determinar si el volumen medio de producto dispensado en las
botellas de champú en su fábrica es diferente del volumen objetivo de
8 oz. Usted decide tomar una muestra aleatoria de 10 botellas. Si μ
realmente es 7.5 oz. (las botellas se están llenando con 0.5 oz. menos
de lo esperado) y σ en realidad es 0.43 oz., entonces la prueba tiene
una potencia de 0.9039.
Un valor de potencia de 0.9039 significa que, si usted decide repetir el
experimento muchas veces, (con una nueva muestra aleatoria cada
vez), alrededor de 90.39% de las veces, usted terminará rechazando
correctamente la hipótesis nula. En el 9.61% restante de las veces, un
error de muestreo hará que usted no rechace H0, aunque realmente
sea falsa. Por supuesto, es poco probable que usted realice la prueba
más de una vez, pero es bueno saber que las probabilidades de
obtener una muestra engañosa son relativamente bajas.
PROCEDIMIENTO PARA LA P. DE H.
Paso 1: Se establece la hipótesis nula (H0) y la hipótesis alternativa (H1)
El primer paso consiste en establecer la hipótesis que se debe probar. Ésta recibe
el nombre de hipótesis nula, la cual se designa H0, y se lee “H subíndice cero”. La
letra mayúscula H representa la hipótesis, y el subíndice cero implica que “no hay
diferencia”. Por lo general se incluye un término no en la hipótesis nula, que
significa que “no hay cambio”.
Paso 2: Se selecciona un nivel de significancia
Después de establecer las hipótesis nulas y alternativa, el siguiente paso consiste
en determinar el nivel de significancia.
El nivel de significancia se expresa con la letra griega alfa, En ocasiones también
se conoce como nivel de riesgo. Éste quizá sea un término más adecuado porque
se trata del riesgo que se corre al rechazar la hipótesis nula cuando es verdadera.
No existe ningún nivel de significancia que se aplique a todas las pruebas. Se
toma la decisión de utilizar el nivel de 0.05 (expresado con frecuencia como nivel
de 5%), nivel de 0.01, nivel de 0.10 o cualquier otro nivel entre 0 y 1. Se
acostumbra a elegir el nivel de 0.05 en el caso de los proyectos de investigación
relacionados con los consumidores; el nivel de 0.01 en relación con el del control
de calidad, y el de 0.10 en el de las encuestas políticas.
Usted, como investigador, debe elegir el nivel de significancia antes de formular
una regla de decisión y recopilar los datos de la muestra.
Paso 3: Se selecciona el estadístico de prueba
Paso 4: Se formula la regla de decisión
Una regla de decisión es un enunciado sobre las condiciones específicas en que
se rechaza la hipótesis nula y aquellas en las que no se rechaza. La región o área
de rechazo define la ubicación de todos esos valores que son tan grandes o
pequeños que la probabilidad de que ocurran en una hipótesis nula verdadera es
muy remota.
Paso 5: Se toma una decisión
El quinto y último paso en la prueba de hipótesis consiste en calcular el estadístico
de la prueba, comparándola con el valor crítico, y tomar la decisión de rechazar o
no la hipótesis nula. De acuerdo con la gráfica 10-1, si, a partir de la información
de la muestra, se calcula que z tiene un valor de 2.34, se rechaza la hipótesis nula
con un nivel de significancia de 0.05. La decisión de rechazar H0 se tomó porque
2.34 se localiza en la región de rechazo; es decir, más allá de 1.65. Se rechaza la
hipótesis nula porque es poco probable que un valor z tan alto se deba al error de
muestreo (azar). Si el valor calculado hubiera sido de 1.65 o menos, supongamos
0.71, la hipótesis nula no se habría rechazado. Un valor calculado tan bajo no se
atribuye al azar, es decir, al error de muestreo. Como se indicó, en la prueba de
hipótesis sólo es posible una de las dos decisiones: la hipótesis nula se acepta o
se rechaza. En lugar de aceptar la hipótesis nula, H0, algunos investigadores
prefieren expresar la decisión como “no se rechaza H0”, “se decide no rechazar
H0” o “los resultados de la muestra no permiten rechazar H0”. Es necesario
subrayar de nuevo que siempre existe la posibilidad de que la hipótesis nula se
rechace cuando en realidad no se debe rechazar (error tipo I). Asimismo, existe
una posibilidad definible de que la hipótesis nula se acepte cuando debiera
rechazarse (error tipo II).
P. DE H. PARA MEDIAS CONOCIDA
El caso en el que se desea resolver un contraste de hipótesis para la
media de una variable continua y, además, se conoce el valor de la
varianza de dicha variable en toda la población el más sencillo de
todos y, a la vez, el menos usual.
Supongamos una muestra aleatoria X1,X2,…, Xn de tamaño n de
valores de una variable aleatoria que sigue una distribución normal de
media μ desconocida, y de desviación típica σ conocida. Se plantea el
siguiente contraste:
Para resolver este contraste, calculamos el siguiente estadístico de
contraste:
que sigue una distribución normal de media 0 y desviación típica 1
cuando la hipótesis nula es cierta. A continuación, se busca el cuantil
1-α/2 de una distribución normal y se comparan ambos valores.
En el contraste de hipótesis bilateral, si el valor absoluto del
estadístico de contraste es mayor que el cuantil, se rechazará la
hipótesis nula. En caso contrario, no se rechazará.
En el contraste de hipótesis unilateral
Con hipótesis alternativa del tipo <, el valor crítico es -z 1-α y
la hipótesis nula se rechaza cuando Z< -z1-α
Con la hipótesis alternativa del tip >, el valor crítico es z 1-α y
la hipótesis nula se rechaza cuando Z> -z1-α
R no incluye una función específica para la resolución de contrastes
de hipótesis de este tipo. Aun así, pueden resolverse de una forma
muy sencilla como se muestra en el siguiente ejemplo.
PLANTEAMIENTO DEL VALOR “P” PARA LA PRUEBA DE
HIPÓTESIS
Cuando se desea probar una hipótesis, se compara el estadístico de la
prueba con un valor crítico. Se toma la decisión de rechazar la
hipótesis nula o de no hacerlo. Así, por ejemplo, si el valor crítico es de
1.96 y el valor calculado del estadístico de prueba es de 2.19, la
decisión consiste en rechazar la hipótesis nula. En años recientes,
debido a la disponibilidad del software de computadora, con frecuencia
se da información relacionada con la seguridad del rechazo o
aceptación. Es decir, ¿cuánta confianza hay en el rechazo de la
hipótesis nula? Este enfoque indica la probabilidad (en el supuesto de
que la hipótesis nula sea verdadera) de obtener un valor del
estadístico de la prueba por lo menos tan extremo como el valor real
que se obtuvo. Este proceso compara la probabilidad, denominada
valor p, con el nivel de significancia. Si el valor p es menor que el nivel
de significancia, H0 se rechaza. Si es mayor que el nivel de
significancia, H0 no se rechaza.
La determinación del valor p no sólo da como resultado una decisión
respecto de H0, sino que brinda la oportunidad de observar la fuerza
de la decisión. Un valor p muy pequeño, como 0.0001, indica que
existe poca probabilidad de que H0 sea verdadera. Por otra parte, un
valor p de 0.2033 significa que H0 no se rechaza y que existe poca
probabilidad de que sea falsa. ¿Cómo calcular el valor p? Para
ilustrarlo se recurre al ejemplo en el que se probó la hipótesis nula
relativa a que la cantidad de escritorios producidos a la semana en
Fredonia fue de 200. No se rechazó la hipótesis nula, pues el valor z
de 1.55 cayó en la región comprendida entre 2.58 y 2.58. Se decidió
no rechazar la hipótesis nula si el valor calculado de z caía en esta
región. La probabilidad de hallar un valor z de 1.55 o más es de
0.0606, que se calcula mediante la diferencia de 0.5000 0.4394. En
otras palabras, la probabilidad de obtener una mayor de 203.5 si 200
es de 0.0606. Para calcular el valor p, es necesario concentrarse en la
región menor a 1.55, así como en los valores superiores a 1.55 (pues
la región de rechazo se localiza en ambas colas). El valor p de dos
colas es de 0.1212, que se calcula así: 2(0.0606).
El valor p de 0.1212 es mayor que el nivel de significancia de 0.01 que
se estableció al inicio, así que no se rechaza H0. En la siguiente
gráfica se muestran los detalles. En general, el área se duplica en una
prueba de dos colas. Entonces, el valor p se compara con facilidad
con el nivel de significancia. Se aplica la misma regla de decisión en el
caso de una prueba de una cola.
P. DE H. PARA MEDIAS DESCONOCIDAS
Ciertamente sospechamos que las pruebas sobre una media
poblacional con desconocida, debe incluir el uso de la
distribución t de Student. La estructura de la prueba es idéntica a la del
caso de conocida, con la excepción de que el valor en la
estadística de prueba se reemplaza por la estimación de s calculada y
la distribución normal estándar se reemplaza con una distribución t.
Ejemplos:
1. El Instituto Eléctrico Edison publica cifras del número anual de
Kilowatt-hora que gastan varios aparatos electrodomésticos. Se
afirma que una aspiradora gasta un promedio de 46 kilowatt-hora
al año. Si una muestra aleatoria de 12 hogares que se incluye en
un estudio planeado indica que las aspiradoras gastan un
promedio de 42 kilowatt-hora al año con una desviación estándar
de11.9 kilowatt-hora, ¿esto sugiere con un nivel de significancia
de 0.05 que las aspiradoras gastan, en promedio, menos de 46
kilowatt-hora anualmente? Suponga que la población de kilowatt-
hora es normal.
Solución:
1. Datos:
= 46 kilowatt-hora
s= 11.9 kilowatt-hora
= 42 kilowatt-hora
n = 12
= 0.05
3. Ensayo de hipótesis
Ho; = 46 kilowatt-hora
H1; < 46 kilowatt-hora
4. Regla de decisión:
Si tR -1.796 No se rechaza Ho
Si tR < -1.796 Se rechaza Ho
5. Cálculos:
6. Justificación y decisión:
Como –1.16 > -1.796, por lo tanto, no se rechaza H o y se concluye con
un nivel de significancia del 0.05 que el número promedio de kilowatts-
hora que gastan al año las aspiradoras no es significativamente menor
que 46.
P. DE H. PARA VARIANZA
Estadístico:
ji-cuadrada
Ejemplo:
Un fabricante de detergente liquido está interesado en la uniformidad
de la maquina utilizada para llenar botellas de manera específica es
deseable que la varianza sea; 0.01 onzas² del líquido. Al tomar una
muestra aleatoria de 20 botellas se obtiene una varianza muestral (s²)
para el volumen de llenado de ese cuadrado s²=0.0153. (distribución
normal)
El fabricante está preocupado porque piensa que la variación del
proceso es mayor que la variación histórica. Con un α=0.05, el
fabricante tiene elementos que sustenten se preocupación?
1) H0: σ²≤0.01
H1: σ²≤0.01
2) Calcular valores críticos.
3) Decisión.
No hay evidencia estadística para no aceptar H0.
Conclusión: Existe evidencia que la varianza no es mayor al valor
histórico, por lo tanto, no es necesario hacer ajustes al proceso de
llenado.
[Link] H. PARA PROPORCIONES p
En esta sección se muestra cómo realizar una prueba de hipótesis
para la proporción poblacional p. Mediante p0 se denota la proporción
poblacional, las tres formas de una prueba de hipótesis para la
proporción poblacional son las siguientes:
La primera forma es una prueba de la cola inferior, la segunda es una
prueba de la cola superior y la tercera es una prueba de dos colas. Las
pruebas de hipótesis para la proporción poblacional se basan en la
diferencia entre la proporción muestral y la proporción poblacional
hipotética p0.
El procedimiento usado en una prueba de hipótesis para la proporción
poblacional es semejante al método usado para una prueba de
hipótesis para la media poblacional. Aunque sólo se ilustró cómo
realizar una prueba de hipótesis de la cola superior para la proporción
poblacional, para pruebas de la cola inferior o para pruebas de dos
colas se usan procedimientos similares. En la tabla 9.4 se presenta
una síntesis de las pruebas de hipótesis para proporción poblacional.
Se supone que np 5 y (1 -p) 5; con lo cual se puede usar una
distribución normal como aproximación a la distribución muestral de p.
PRUEBA DE HIPÓTESIS PARA DOS PARÁMETROS
POBLACIONALES
De un modo general, dos muestras se dice que son independientes
cuando las observaciones de una de ellas no condicionan para nada a
las observaciones de la otra, siendo dependientes en caso contrario.
En realidad, el tipo de dependencia que se considera a estos efectos
es muy especial: cada dato de una muestra tiene un homónimo en la
otra, con el que está relacionada, de ahí el nombre alternativo
de muestras apareadas. Por ejemplo, supongamos que se quiere
estudiar el efecto de un medicamento, sobre la hipertensión, a un
grupo de 20 individuos. El experimento se podría planificar de dos
formas:
1. Aplicando el medicamento a 10 de estos individuos y dejando sin
tratamiento al resto. Transcurrido un tiempo se miden las
presiones sanguíneas de ambos grupos y se contrasta la
hipótesis H0: µ1= µ2 vs H1: µ1 <>µ2 para evaluar si las medias son
iguales o no. Como las muestras están formadas por individuos
distintos sin relación entre sí, se dirá que son muestras
independientes.
2. Aplicando el medicamento a los 20 individuos disponibles y
anotando su presión sanguínea antes y después de la
administración de este. En este caso los datos vienen dados por
parejas, presión antes y después y tales datos están
relacionados entre sí. Las muestras son apareadas.
Consideramos ahora dos variables aleatorias independientes X 1 y X2
con distribuciones normales de parámetro (μ1, σ1) y (μ2, σ2)
respectivamente, de las que vamos a tomar muestras aleatorias
independientes de tamaños n1 y n2, respectivamente.
Nuestro objetivo, en este caso, es resolver un contraste de hipótesis
para la diferencia de las medias de ambas distribuciones, es decir,
para μ1 y μ2. Este contraste presentará alguna de las formas que se
muestran a continuación
PROPIEDAD REPRODUCTIVA DE LA DISTRIBUCIÓN NORMAL
Igual que sucede con otras variables, como la de Bernoulli, la
binomial o la de Poisson, la variable aleatoria normal es reproductiva;
esto quiere decir que, si sumamos variables aleatorias normales, la
variable suma también es otra variable normal.
Supongamos que juntamos a 5 personas. La altura, por ejemplo,
sigue una distribución normal, según hemos visto anteriormente. Sin
embargo, si de esas 5 personas 2 son hombres y 3 mujeres, de
entrada, ya tendremos que los parámetros media y desviación típica
de hombres y mujeres diferirán. Si, además, los 2 hombres son de
raza diferente, también tendrán parámetros diferentes entre sí.
La altura suma de las alturas de las cinco personas, a pesar de que
tengan parámetros diferentes, será también una variable normal. De
manera que, para un grupo de 5 personas determinado cumpliendo
esas características (2 hombres de distinta raza, 3 mujeres de esta),
la altura total será un valor, llamémosle y1.
Si juntamos otro grupo de 5 personas con esas mismas
características, la altura suma será otro valor y2.
Si realizamos esto (juntar grupos de 5 personas verificando las
mismas características) n veces, tendremos n valores y1, y2, ..., yn,
y2, ..., yn.
La reproductividad de la variable normal nos asegura que la
densidad de estos valores (o un histograma) tendrá el aspecto de la
curva de Gauss. La forma de saber los parámetros concretos (media
y desviación típica) de la variable suma nos la da el siguiente
resultado teórico:
La suma de variables aleatorias normales independientes es otra
variable aleatoria normal, con media la suma de las medias y
varianza la suma de varianzas.
P. DE H. PARA LA DIFERENCIA ENTRE DOS MEDIAS
CONOCIDAS
Prueba de hipótesis para diferencias entre medias. En muchas
situaciones de toma de decisiones se necesita determinar si los
parámetros de 2 poblaciones son parecidos o diferentes, por ejemplo:
un médico receta una misma medicina a 2 personas que padecen la
misma enfermedad, la reacción de la medicina en una de las personas
es positiva, sin embargo, en la otra persona no produce la misma
reacción. Otro ejemplo se presenta en algunas empresas en puestos
cubiertos por hombres y mujeres que desarrollan las mismas
funciones, pero el salario devengado por los hombres es mejor que el
de las mujeres.
Para una mejor comprensión, veamos las figuras siguientes:
Distribución de muestreo de µ1 y µ 2
Distribución de todos los valores
posibles de Ⱦ1 y Ⱦ2
δȾ 1 δȾ 2
El significado de la simbología utilizada es el siguiente:
µ1 y µ2= La media de la población 1 y de la 2 respectivamente
δȾ1 y δȾ2= Error estándar de la media de la muestra 1 y el de la 2
respectivamente
µȾ = Media de la distribución de muestreo de las medias
Ⱦ1- Ⱦ2 = Diferencia entre las medias
δȾ1- Ⱦ2 = Error estándar de la diferencia entre 2 medias, o la desviación
estándar de la diferencia entre medias.
NOTA. Si la desviación estándar de la población (δ) es desconocida
entonces hay que estimar el error estándar a partir de la S o S 2.
Ambas poblaciones (1 y 2) tienen su propia µ y δ y además su
distribución de muestreo de la media (µȾ= µ) y su error estándar de la
media (δȾ) construidos a partir de todas las muestras posibles de un
tamaño dado que pueden tomar de la distribución de la población
correspondiente.
Si se toma una muestra de cada población y se calcula la diferencia
entre medias (Ⱦ1 - Ⱦ2), se pueden presentar los resultados siguientes:
a) > 0 == Ⱦ >Ⱦ
1 2
b) < 0 == Ⱦ <Ⱦ
1 2
c) = 0 == Ⱦ =Ⱦ
1 2
Todas las diferencias posibles de las medias nos conducen a una
distribución de muestreo de la diferencia entre las medias de las
muestras (µȾ - Ⱦ = µȾ - µȾ ). Si µ = µ == µȾ - µȾ = 0.
1 2 1 2 1 2 1 2
La desviación estándar de la distribución de la diferencia entre las
medias de muestras se conoce como ERROR ESTANDAR DE LA
DIFERENCIA ENTRE DOS MEDIAS, su fórmula es:
2 2
δȾ - Ⱦ
1 2 =√ (δ 1/n1 + δ 2/n2) donde: δȾ1- Ⱦ2 = Error estándar de la diferencia entre dos medias
δ21 = Varianza de la población 1
δ22 = Varianza de la población 2
n1 = Tamaño de la muestra de la población 1
n2 = Tamaño de la muestra de la población 2
si no se conocen las dos desviaciones estándar de población se puede
estimar el error estándar a partir de las desviaciones de las muestras.
P. DE H. PARA LA DIFERENCIA ENTRE DOS MEDIAS
DESCONOCIDAS:
Para probar esta hipótesis se usará una estadística t, se requiere la
hipótesis de normalidad para desarrollar el procedimiento de prueba.
CASO 1: SE PUEDEN SUPONER IGUALES
CASO: 2 NO SE PUEDEN SUPONER IGUALES
P. DE H. PARA LA RAZÓN DE DOS VARIANZAS
Las poblaciones siguen la distribución Normal.
Los datos son independientes.
b) Hipótesis:
c) Estadístico de contraste:
d) Distribución del estadístico de contraste: F con n1-1 y n2-1 grados
de libertad.
e) Significación del estadístico de contraste
Ejemplo
Quieren someter a contraste la hipótesis de igualdad de las Varianzas
de las puntuaciones obtenidas por dos grupos de individuos en una
prueba de extraversión.
a) Supuestos: Dado que las muestras han sido generadas
aleatoriamente, se supone que los datos son independientes.
b) Hipótesis:
c) Estadístico de contraste:
d) Distribución del estadístico de contraste: F con 31-1 y 41-1 grados
de libertad.
e) Significación del estadístico de contraste: 0.63
f) Decisión: La significación del estadístico de contraste es superior a
0.01, y en consecuencia se acepta la Hipótesis Nula.
P. DE H. PARA LA DIFERENCIA ENTRE DOS MEDIAS, DATOS
PAREADOS
Suponga que los empleados de una fábrica usan dos métodos
distintos para realizar una determinada tarea. Con objeto de maximizar
la producción, la empresa desea identificar el método con el que la
media poblacional del tiempo necesario para realizar esta tarea sea
menor. Sea μ1 la media poblacional del tiempo empleando el método
1 y μ2 la media poblacional del tiempo requerido para realizar la tarea
con el método 2. Puesto que no hay ninguna indicación de cuál sea el
mejor método, se empieza por suponer que con los dos métodos se
obtiene la misma media poblacional del tiempo requerido para realizar
la tarea. De esta manera, la hipótesis nula es H0: μ1 μ2 0. Si se
rechaza esta hipótesis se podrá concluir que las medias poblacionales
de los tiempos requeridos para realizar la tarea son diferentes con los
dos métodos. En tal caso se recomendará el método que proporcione
el menor tiempo para la realización de la tarea. Las hipótesis nula y
alternativa se expresan como sigue.
En la elección del método de muestreo para obtener los datos y probar
las hipótesis, se consideran dos diseños alternativos. Uno se basa en
muestras independientes y el otro en muestras por pares. 1. Diseño de
muestras independientes: se toma una muestra aleatoria simple de
trabajadores y cada uno de ellos usa el método 1.
Se toma otra muestra aleatoria simple de trabajado res y cada uno de
ellos usa el método 2. El procedimiento que se usa para probar la
diferencia entre las dos medias es el procedimiento presentado en la
sección 10.2. 2. Diseño de muestras pareadas: se toma una muestra
aleatoria simple de trabajadores. Cada trabajador primero usa uno de
los métodos y después usa el otro método.
A cada trabajador se le asigna en forma aleatoria el orden en que
usará los dos métodos, algunos trabajadores primero usarán el
método 1 y otros el método 2. En el diseño de muestras pareadas los
dos métodos se prueban bajo condiciones similares (es decir, con los
mismos trabajadores); por tanto, este diseño suele conducir a errores
muestrales más pequeños que el diseño de muestras independientes.
La razón principal es que en el diseño de muestras pareadas se
elimina la variación entre los trabajadores, ya que los mismos
trabajadores prueban los dos métodos. A continuación, con el empleo
del diseño de muestras pareadas se demostrará la diferencia entre las
medias de los dos métodos de producción. Se emplea una muestra
aleatoria de seis trabajadores. En la tabla 10.2 se muestran los
tiempos que requirieron los trabajadores para realizar la tarea.
Observe que de cada trabajador se obtuvieron dos datos, uno con
cada método de producción, también que en la última columna se da,
para cada trabajador de la muestra, la diferencia di entre los tiempos
para realizar la tarea. Lo principal en el análisis de muestras pareadas
es darse cuenta de que únicamente hay que considerar la columna de
las diferencias. De manera que se tienen seis datos (0.6, 0.2, 0.5, 0.3,
0.0 y 0.6) que se usarán para analizar la diferencia entre las medias
poblacionales de los dos métodos de producción. Sea μ d la media de
las diferencias en la población de trabajadores.
P. DE H. PARA LA DIFERENCIA ENTRE DOS PROPORCIONES
Ahora consideramos la hipótesis nula de que la proporción p1, que
mide la proporción de una característica A en una población, es igual
a p2, que es la proporción de la misma característica en otra
población.
H0: p1=p2 o p1−p2=0
El estadístico para este caso se escribe, a partir de las proporciones
muestrales ^p1 y ^p2 en dos muestras, como:
T=((^p1−^p2) − (p1−p2)) / √ ((^p1(1−^p1))/n1) + (^p2((1−^p2))/n2) ≈ N(0,1).
El Instituto de la Propiedad del gobierno de la unidad nacional, está
utilizando 2 métodos para listar propiedades. El primero requiere la
presencia del dueño de la propiedad ante el recabador de la
información, el segundo le permite al dueño enviar la información por
internet. El director del Instituto piensa que el método 1° produce
menos errores que el 2°. Se realiza una verificación de 50 listas del
método 1° produciendo 10% de errores; y 75 del 2° que produjeron
13.3% de errores. A un a = 0.15 probar la hipótesis que sostiene el
director del Instituto de la Propiedad.
p1 = 0.10 Porción de éxitos muestra1 p2 = 0.133 Porción de éxitos muestra 2
q1 = 0.90 Porción de fracasos muestra 1 q2 = 0.867 Porción de fracasos muestra
n1 = 50 n2 = 75
1. Planteamiento de hipótesis
H0: P1 = P2 No hay diferencia entre los 2 métodos.
H1: P1 < P2 El método 1° produce menos errores que el método
2°
a = 0.15 Nivel de significancia para probar esta hipótesis.
2. Cálculo de la p = (50) (0.10) + (75) (0.133)= 0.12
50 + 75
δp1- p2 = [√((0.12 * 0.88/50) + (0.12 * 0.88/75))] = 0.0593
3. Encontrar el valor crítico de “Z”, n.c.= 0.35 Z = 1.04
4. Definir los límites de la región de aceptación por el método de
estandarización:
Z = (p1 - p2) – (P1 - P2)Ho Z = (0.10 – 0.133) - 0 = - 0.556
δp1- p2 0.0593
5. Interpretar y concluir. Al ubicar en la gráfica el valor de z = -
0.556, lo encontramos en el área de aceptación, por
consiguiente, se acepta H0 de que no existe diferencia entre los
2 métodos de recabar información.
TAMAÑO DE MUESTRA, ERROR Y POTENCIA DE UNA
PRUEBA ESTADÍSTICA
Riesgo la probabilidad de cometer un error tipo 2, a menudo se le
conoce como nivel de riego de consumidor, depende de la diferencia
entre los valores supuestos y real del parámetro de población. Como
es más fácil encontrar diferencias grandes, si la diferencia entre la
estadística de muestra y el correspondiente parámetro de población es
grande, la probabilidad de cometer un error tipo 2, probablemente
sea pequeña.
Potencia de una prueba el complemento (1-β) de la probabilidad de
cometer un error tipo 2 se conoce como potencia de una prueba
estadística.
La potencia de una prueba estadística, representada con (1-β) es la
probabilidad de rechazar la hipótesis nula, cuando de hecho ésta es
falsa y debería ser rechazada.
Una manera en que podemos controlar la probabilidad de cometer un
error del tipo 2 en un estudio, consiste en aumentar el tamaño de la
muestra.
MAPA CONCEPTUAL
BIBLIOGRAFÍA
Métodos Cuantitativos, de Aleksander Dietrichson.
Estadística aplicada a los negocios y la economía - Lind 15th
García, M. (2005). Introducción a la teoría de la probabilidad. México:
Fondo de Cultura Económica.
Hernández, A. y O. Hernández (2003). Elementos de probabilidad y
estadística. México: Sociedad Matemática Mexicana.
Meyer, P. (1986). Probabilidad y aplicaciones estadísticas. E.U.:
Addison-Wesley Iberoamericana.
VIDEOS PARA COMPLEMENTAR
[Link] Prueba de
hipótesis ejemplo 1 TABLAS Z EN LINK considerado en la
descripción.
[Link] 0398 ¿Qué es
una prueba de hipótesis?