Muestreo y Pruebas de Hipótesis en Estadística
Muestreo y Pruebas de Hipótesis en Estadística
DE MÉXICO
INSTITUTO TECNOLÓGICO
SUPERIOR DE LA MONTAÑA
Carrera: Contador publico
Estadística administrativa
Nombre del alumno: Tomas González
Romano
4.6 Intervalo de confianza para la diferencia entre dos medias µ1- µ2 con 12 y 22
12 = 22 pero conocidas con el uso de la distribución normal y la “t” studen
4.7 Una sola muestra: estimación de la proporción
2
Introducción
En este presente trabajo se hablará acerca de las unidades 4 y 5 de la materia de
estadística administrativa 1
Este trabajo tiene como principal objetivo ayudar a los alumnos a entender todos los
temas mencionados en el índice y así poder analizar comprender y resolver todos
los ejercicios que el profesor exponga en clase
Dicha investigación trata acerca del muestreo y sus estimaciones principalmente y
también sobre las pruebas de hipótesis.
El alumno deberá de conocer las definiciones de cada uno de estos temas para que
así sea más fácil resolver los ejercicios que se presentan en cada tema planteado.
3
4.1 Definición de muestreo
Es un término mayormente utilizado en el campo de la estadística, la cual para poder
realizar estudios a una población (que es el conjunto de elementos físicos, que
presentan alguna característica en común, situados en un espacio geográfico
determinado en un lapso de tiempo específico, y sobre los cuales se desea
investigar), es necesario tomar una muestra de esa población dada, debido a que
estas pueden ser finitas o infinitas, y aún en el caso en el que sean finitas estas
pueden estar formadas por una gran cantidad de elementos lo que hace imposible
un análisis completo, un ejemplo de una población tomando en cuenta todas sus
características puede ser “la cantidad de maíz cosechado en la granja –La
Esperanza- durante el año 2010”. Para poder estudiarlos es necesario obtener una
muestra.
Un muestreo es el procedimiento a través del cual es seleccionada una muestra
(que es un subconjunto de elementos de una población, es decir, una porción de
elementos extraídos de una población previamente definida) a partir de una
población. El muestreo se refiere a esa reducción de elementos que componen a
un universo o población, para así poder cumplir con la investigación
correspondiente.
4
El muestreo simple selecciona muestras mediante métodos que permiten que cada
posible muestra tenga una igual probabilidad de ser seleccionada y que cada
elemento de la población total tenga una oportunidad igual de ser incluido en la
muestra. Se recomienda cuando las características de interés presentan gran
homogeneidad, de lo contrario requeriría muestras grandes para lograr una
precisión aceptable, y podrían seleccionarse muestras indeseables. La definición de
este método y el proceso de seleccionar una muestra aleatoria simple depende de
si la población es finita o infinita.
5
4.2 Concepto de distribución de muestreo de la media
Si tenemos una muestra aleatoria de una población N(m,s ), se sabe (Teorema del
límite central) que la fdp de la media maestral es también normal con media m y
varianza s2/n. Esto es exacto para poblaciones normales y aproximado (buena
aproximación con n>30) para poblaciones cualesquiera. Es decir es el error
típico, o error estándar de la media.
6
que también se puede escribir
Ejemplo: Si de una población normal con varianza 4 se extrae una muestra aleatoria
de tamaño 20 en la que se calcula se puede decir que mtiene una
probabilidad de 0,95 de estar comprendida en el intervalo
En general esto es poco útil, en los casos en que no se conoce m tampoco suele
conocerse s2; en el caso más realista de s2 desconocida los intervalos de confianza
se construyen con la t de Student (otra fdpcontinua para la que hay tablas) en lugar
de la z.
7
4.2.1 Distribución muestral de la diferencia entre dos medias
8
En ejercicios anteriores se había demostrado que y que , por lo que
9
Cuando se estudió a la distribución muestral de proporciones se comprobó
que y que .
10
4.3 Teorema del límite central
El teorema central del límite es uno de los resultados fundamentales de la
estadística. Este teorema nos dice que si una muestra es lo bastante grande
(generalmente cuando el tamaño muestral (n) supera los 30), sea cual sea la
distribución de la media muestral, seguirá aproximadamente una distribución
normal. Es decir, dada cualquier variable aleatoria, si extraemos muestras de
tamaño n (n>30) y calculamos los promedios muéstrales, dichos promedios
seguirán
una distribución normal. Además, la media será la misma que la de la
variable de interés, y la desviación estándar de la media muestral será
aproximadamente
el error estándar.
La importancia del teorema central del límite radica en que mediante un
conjunto de teoremas, se desvela las razones por las cuales, en muchos campos
de aplicación, se encuentran en todo momento distribuciones normales o casi.
11
Contextualizando lo anterior tenemos: La distribución de la media muestral de una
población normal es una distribución normal con la misma media poblacional y con
desviación típica el error estándar. Este hecho nos permite calcular probabilidades
cuando tenemos una muestra de una variable con distribución normal y desviación
típica
conocida. Cuando no conocemos la desviación típica de la variable, también
podemos hacer cálculos con la distribución t de Student.
Cuando la muestra es lo bastante grande, la solución nos viene dada por uno
de los resultados fundamentales de la estadística: el teorema del límite central.
Es muy común encontrar esta fórmula con una variable estandarizada Zn en función
a la media muestral como se muestra en la imagen...
Ahora tenemos la formula de la siguiente manera:
También podemos encontrar esta fórmula en versiones no normalizadas:
12
Esas son las fórmulas que manejan varios autores, pero nosotros usaremos 3
formulas diferentes para resolver el problema haciéndolo lo más fácilmente posible.
Estas son las fórmulas que usaremos:
EL ERROR MUESTRAL
Al determinar el tamaño de una muestra representa una parte esencial del método
científico para poder llevar a cabo una investigación.
13
Al muestreo es el conjunto de observaciones necesarias para estudiar la distribución
de determinadas características en la totalidad de una población, a partir de la
observación de una parte o subconjunto de una población.
PROBABILIDAD Y ESTADISTICA
APLICACIÓN
PARÁMETRO Y
ESTIMADOR
TAMAÑO DE LA MUESTRA
Probabilidad de que la estimación efectuada se ajuste a la realidad.
14
4.5 Intervalos de confianza para la media con el uso de la
distribución normal y “t” student
Dada una variable aleatoria con distribución Normal N (μ, σ), el objetivo es la
construcción de un intervalo de confianza para el parámetro μ, basado en una
muestra de tamaño n de la variable.
15
Se distribuye según una Normal estándar. Por tanto, aplicando el método del pivote
podemos construir la expresión
donde zα/2 es el valor de una distribución Normal estándar que deja a su derecha
una probabilidad de α/2, de la que se deduce el intervalo de confianza
16
4.5.1 Determinación del tamaño de la muestra con grado de confianza y
estimación de µ
17
En este despeje podemos observar que se necesita el valor del parámetro P y es
precisamente lo que queremos estimar, por lo que lo sustituiremos por la proporción
de la muestra p siempre y cuando el tamaño de muestra no sea pequeño.
Ejemplos:
Solución:
n=500
p = 15/500 = 0.03
Z (0.90) = 1.645
0.0237<P<0.0376
18
Se sabe con un nivel de confianza del 90% que la proporción de discos
defectuosos que no pasan la prueba en esa población está entre 0.0237 y
0.0376.
µ1 − µ2
µ1 − µ2
y de varianza
19
Y, utilizando la propiedad de que la variable
20
es decir, la misma estructura que antes:
Obsérvese que para construirlo, ¡se necesita conocer p!. Si n es grande (>30) se
pueden substituir p y q por sus estimadores sin mucho error, en cualquier caso,
como pq £ 0,25 si se substituye pq por 0,25 se obtiene un intervalo más
conservador (más grande).
Ejemplo: En una muestra de 100 pacientes sometidos a un cierto tratamiento se
obtienen 80 curaciones. Calcular el intervalo de confianza al 95% de la eficacia del
tratamiento.
0.0237<P<0.0376
Se sabe con un nivel de confianza del 90% que la proporción de discos defectuosos
que no pasan la prueba en esa población está entre 0.0237 y 0.0376.
21
4.8 Tamaño de la muestra como una estimación de P y un grado
de confianza (1-)100%
En una población cuya distribución es conocida, pero desconocemos algún
parámetro, podemos estimar dicho parámetro a partir de una muestra
representativa.
Un estimador es un valor que puede calcularse a partir de los datos muestrales y
que proporciona información sobre el valor del parámetro. Por ejemplo, la media
muestral es un estimador de la media poblacional, la proporción observada en la
muestra es un estimador de la proporción en la población.
Una estimación es puntual cuando se obtiene un sólo valor para el parámetro. Los
estimadores más probables en este caso son los estadísticos obtenidos en la
muestra, aunque es necesario cuantificar el riesgo que se asume al considerarlos.
Recordemos que la distribución muestral indica la distribución de los valores que
tomará el estimador al seleccionar distintas muestras de la población. Las dos
medidas fundamentales de esta distribución son la media que indica el valor
promedio del estimador y la desviación típica, también denominada error típico de
estimación, que indica la desviación promedio que podemos esperar entre el
estimador y el valor del parámetro.
Más útil es la estimación por intervalos en la que calculamos dos valores entre los
que se encontrará el parámetro, con un nivel de confianza fijado de antemano.
Llamamos Intervalo de confianza al intervalo que, con un cierto nivel de confianza,
contiene al parámetro que se está estimando.
Nivel de confianza es la "probabilidad" de que el intervalo calculado contenga al
verdadero valor del parámetro. Se indica por 1-a y habitualmente se da en
porcentaje (1-a)100%. Hablamos de nivel de confianza y no de probabilidad ya que
una vez extraída la muestra, el intervalo de confianza contendrá al verdadero valor
del parámetro o no, lo que sabemos es que si repitiésemos el proceso con muchas
muestras podríamos afirmar que el (1-a)% de los intervalos así construidos
contendría al verdadero valor del parámetro.
22
La distribución muestral de medias es ,
por tanto, si fijamos una probabilidad 1-a, sabemos que la
intervalo:
donde za/2 es el llamado valor crítico, valor tal que P(-za/2 £ z £za/2 )=1-a, y x la
media de la muestra.
Si la desviación típica de la población es desconocida, lo que suele ocurrir en la
práctica, la aproximaremos por la de la muestra siempre que n>100
intervalo:
23
Con un nivel de confianza del (1-a)100% admitimos que la diferencia entre la
estimación para la media a partir de la muestra y su valor real es menor que E,
que llamaremos error máximo admisible.
El tamaño de la muestra depende del nivel de confianza que se desee para los
resultados y de la amplitud del intervalo de confianza, es decir del error
máximo que se esté dispuesto a admitir. Fijados estos, 1-a y E, podemos calcular
el tamaño mínimo de la muestra que emplearemos.
24
plantean dos hipótesis mutuamente excluyentes: la hipótesis nula o hipótesis de
nulidad y la hipótesis de investigación Además, es posible plantear hipótesis
alternas o hipótesis alternativas. El análisis estadístico de los datos servirá para
determinar si se puede o no aceptar Ho. Cuando se rechaza Ho, significa que el
factor estudiado ha influido significativamente en los resultados y es información
relevante para apoyar la hipótesis de investigación planteada. Es muy importante
tener presente que la hipótesis de investigación debe coincidir con la hipótesis
alternativa. Plantear hipótesis de investigación que coincidan con Ho supondría una
aplicación incorrecta del razonamiento estadístico. Las hipótesis son proposiciones
provisionales y exploratorias y, por tanto, su valor de veracidad o falsedad depende
críticamente de las pruebas empíricas. En este sentido, la replicabilidad de los
resultados es fundamental para confirmar una hipótesis como solución de un
problema. La hipótesis es el elemento que condiciona el diseño de la investigación
y responde provisionalmente al problema, verdadero motor de la investigación. El
propósito de la prueba de hipótesis es determinar si el valor supuesto (hipotético de
un parámetro poblacional, como la medida de la población, debe aceptarse como
verosímil con base en evidencia muéstrales. Recuerda que sobre la distribución
demuestreo, se dijo que, en general, una media muestral diferirá en valor de la
media poblacional. Si el valor observado de una estadística muestral, como la media
muestral, el valor de la media poblacional.
25
usted debe determinar qué error tiene consecuencias más graves para su situación
antes de definir los riesgos.
Error de tipo I
Si usted rechaza la hipótesis nula cuando es verdadera, comete un error de tipo I.
La probabilidad de cometer un error de tipo I es α, que es el nivel de significancia
que usted establece para su prueba de hipótesis. Un α de 0.05 indica que usted
está dispuesto a aceptar una probabilidad de 5% de estar equivocado al rechazar
la hipótesis nula. Para reducir este riesgo, debe utilizar un valor menor para α. Sin
embargo, usar un valor menor para alfa significa que usted tendrá menos
probabilidad de detectar una diferencia si está realmente existe.
Error de tipo II
Cuando la hipótesis nula es falsa y usted no la rechaza, comete un error de tipo II.
La probabilidad de cometer un error de tipo II es β, que depende de la potencia de
la prueba. Puede reducir el riesgo de cometer un error de tipo II al asegurarse de
que la prueba tenga suficiente potencia. Para ello, asegúrese de que el tamaño de
la muestra sea lo suficientemente grande como para detectar una diferencia práctica
cuando está realmente exista.
Al realizar una prueba de hipótesis nuestro interés puede estar en el valor extremo
de un solo lado de la distribución, o en ambos lados. En el primer casi, las pruebas
se denominan unilaterales o de una cola; en el segundo caso se conoce como
bilaterales o de dos colas. En los ensayos unilaterales la región de rechazo es única
a un lado de la distribución con un área determinada por el valor de α. En las
bilaterales la región de rechazo el área se determina dividiendo el nivel de
significancia en dos partes iguales.
26
27
Un contraste bilateral adopta en general la forma:
y el izquierdo es:
En cualquier caso, es importante entender que sólo debe resolverse uno de los tres
contrastes (bilateral o unilateral) con un conjunto de datos concreto.
28
Instituto Eléctrico Edison publica cifras del número anual de Kilowatt-hora que
gastan varios aparatos eléctrodomésticos. Se afirma que una aspiradora gasta un
promedio de 46 kilowatt-hora al año. Si una muestra aleatoria de 12 hogares que se
incluye en un estudio planeado indica que las aspiradoras gastan un promedio de
42 kilowatt-hora al año con una desviación estándar de11.9 kilowatt-hora, ¿esto
sugiere con un nivel de significancia de 0.05 que las aspiradoras gastan, en
promedio, menos de 46 kilowatt-hora anualmente? Suponga que la población de
kilowatt-hora es normal
29
5.5 Dos muestras: pruebas sobre medias utilizando la distribución
normal y “t” student
Transfer Trucking transporta remesas entre Chicago y Kansas City por dos rutas.
Delmer el despachador de Transfer Trucking quiere saber si hay una diferencia en
el tiempo promedio entre estas dos rutas alternas. Pruebe con un nivel de
significancia de 0.05.
Los datos son los siguientes:
30
Solución Ruta 1 Ruta 2
Datos n1 = 100 n2 = 75
x1 = 17.2 horas x2
= 19.4 horas
1. Establecer la hipótesis
Ho: 1 2
Ha: 1 2
( x1 x2 ) ( 1 2 )
( 12 / n1 ) ( 22 / n2 )
Z=
-1.96 1.96
31
Zona de rechazo = { Z/Z -1.96 ó Z/Z 1.96}
( x1 x2 ) ( 1 2 )
( 12 / n1 ) ( 22 / n2 )
Z = como las medias poblacionales están bajo la
hipótesis nula entonces
s12 s2
x1 x2 2
n1 n2
S
( 17.2 19.4) 0
(5.3) 2 (4.5) 2 2.2
2.96
Z= 100 75 = .74222
6. Conclusión
32
Delmer el despachador de Transfer Tracking puede concluir que si hay una
diferencia en el tiempo promedio entre estas dos rutas alternas.
Datos
Planta de Atlanta Planta de Newport News
n1 = 23 n2 = 19
x1 = US $17.53 x2
= US $ 15.50
s1 = US $ 9.59 s2 = US $9.33
1. 1. Establecer la hipótesis
Ho: 1 2
Ha: 1 2
33
2. 2. Establecer la estadística de prueba
( x1 x2 ) ( 1 2 )
s 2 (1 / n1 ) (1 / n2 )
t= con n1 + n2 - 2 grados
de libertad.
g.l = 40
-2.423 2.423
Nivel de significancia = .02
Zona de rechazo = { t/t -2.423 ó t/t 2.423}
34
(9.59) 2 ( 22) (9.33) 2 (18)
s2
23 19 2 = 89.85
5. Como .6928 esta entre -2.423 y 2.423 no se rechaza la hipótesis nula con
= .02.
6. Conclusión:
No existe diferencia en los salarios de las dos plantas.
35
5.6 Una muestra: prueba sobre una sola proporción
Las pruebas de hipótesis con proporciones son necesarias en muchas áreas del
conocimiento y en especial en la administración. Se considerará el problema de
probar la hipótesis de que la proporción de éxito en un experimento binomial sea
igual a un cierto valor especifico. Es decir, se probará la hipótesis nula de que p =
p0, donde p es el parámetro de la distribución binomial. La información de que suele
disponerse para la estimación de una porción real o verdadera (porcentaje o
x
probabilidad) es una proporción muestral , donde x es el número de veces que
n
ha ocurrido un evento en n ensayos. Por ejemplo, si una muestra aleatoria de 600
compras realizadas en una tienda y 300 se realizan con tarjeta de crédito, entonces
x 300
0.50 se puede utilizar esa cifra como estimación de punto de la proporción
n 600
real de compras realizadas en ese negocio que se abonaron a tarjetas de crédito.
De la misma forma muchas compañías podrían estimar las proporciones de muchas
transacciones. La hipótesis alterna puede ser una de las alternativas usuales
unilateral o bilateral tales como: p p0 , p p0 ,..o.. p p0 .
EJEMPLO 1: Se afirma que, de todas las familias que salen de Cumana por lo
menos el 30 % se mudan a Maracaibo. Si una muestra de 600 mudanzas tomada
al azar de los registros de la Alcaldía de Cumana revela que de los permisos de
mudanza autorizados 153 fueron para Maracaibo, pruebe la hipótesis nula p = 0.30
contra la hipótesis alternativa p < 30 con un nivel de significancia del 1 %.
153
n 800,.. p 0.255,.. p 0.30,..q 0.70,..Z 2.33,.x 153.
600
36
Hipótesis:
H 0 : p 0.30
H1 : p 0.30
O también Aplicando:
p p 0.255 0.300 0.045 0.045
Zc Z c 2.41
p.q 0.3x0.7 0.00035 0.0187
n 600
D en donde Z c 2.41 cae fuera del área de aceptación, por lo tanto, se cumple
que H1 : p 0.30 , es decir, menos del 30 % de las familias que salen de Cumana,
se mudan a Maracaibo.
37
H 0 : p1 p 2
H1 : p1 p 2
En donde p1.. y.. p2 son las dos proporciones de poblaciones de la característica
analizada. Si se señala con N1.. y..N 2 el tamaño de las muestras y p1.. y.. p2 como
las proporciones obtenidas de las muestras, entonces la variable que se debe
emplear para resolver este tipo de problemas es la diferencia de proporciones
muestrales. Es decir, p1 p2 , este planteamiento al igual que en el caso de la
media, se reduce a conocer si la diferencia de las proporciones de la muestra
p1 p2 es lo suficientemente grande como para suponer que en realidad existe una
diferencia entre p1.. y.. p2 . El método que se aplicara para demostrar si una
diferencia observada entre dos proporciones de las muestras se puede atribuir a la
casualidad o si es estadísticamente significativa, se basa en la siguiente teoría: Si
x1.. y..x2 son los números de aciertos obtenidos en n1 ensayos de un tipo y n2 de
otro, donde todos los ensayos son independientes, y las probabilidades
correspondientes de alcanzar un acierto son p1.. y.. p2 ,entonces la distribución de
x x
muestreo de 1 2 tiene una media p1 p2 .
n1 n2
Afortunadamente, basándonos en el teorema del límite central que expresa que
p1 p2 posee una distribución normal o aproximadamente normal con un promedio
igual a la diferencia de proporción de población, es decir p1 p2 y con una
desviación estándar, llamada error estándar de la diferencia entre dos
p1q1 p2 q2
proporciones, igual a p1 p 2 p12 p22 se debe expresar que
n1 n2
cuando no se conozca p1..ni.. p2 , que es lo que por lo general ocurre, se deben
estimar sus valores por medio de los valores de las muestras; aunque los valores
poblacionales sean desconocidos, se supondrán iguales bajo la hipótesis nula
planteada, es decir H 0 : p1 p2 por consiguiente si el valor común se indica por p,
1 1
el error estándar será p1 p pq donde p suele estimarse mediante
2
n1 n2
la combinación de los datos; o sea, al sustituir p por las proporciones de la muestra
x x2
combinada de 1 .
n1 n2
El estadístico para calcular la diferencia entre proporciones es:
38
x1 x2
n1 n2 x1 x2 x x
Zc ,..donde.. p .. y.. 1 p1 ,.. 2 p 2 ..Entonces..setiene..que
1 1 n1 n2 n1 n2
p(1 p)
n1 n2
p1 p 2
Zc
1 1
pq
n1 n2
5.8 Dos muestras: pruebas pareadas
Prueba de hipótesis para muestras pareadas.
Una de las hipótesis sobre las que habitualmente se fundamentan las pruebas
estadísticas de comparación es que las observaciones pertenecientes a cada una
de las muestras son independientes entre sí, no guardan relación; siendo
precisamente ese uno de los objetivos de la aleatorización (elección aleatoria de los
sujetos o unidades de observación). Sin embargo, la falta de independencia entre
las observaciones de los grupos puede ser una característica del diseño del estudio
para buscar fundamentalmente una mayor eficiencia del contraste estadístico al
disminuir la variabilidad. En otras ocasiones con este tipo de diseño pareado lo que
se busca es dar una mayor validez a las inferencias obtenidas, controlando o
eliminando la influencia de variables extrañas cuyo efecto ya es conocido o
sospechado, y no se desea que intervenga en el estudio actual pudiendo
enmascarar el efecto del tratamiento o de la variable de interés.
39
Conclusión:
40
Referencias bibliográficas o electrónicas.
[Link]
statistics/supporting-topics/data-concepts/about-the-central-limit-theorem/
[Link]/academic/industrial/estadistica1/[Link]
[Link]
[Link]/Material/[Link]
[Link]/calidad/archivos/Metodos/[Link]
[Link]
[Link]/academic/industrial/estadistica1/[Link]
[Link]/stat/GrupsInnovacio/Statmedia/demo/Temas/Capitulo8/[Link]
[Link]/bioest/esti_propor.html
[Link]
[Link]
[Link]
[Link]
300&id_d=10
41