0% encontró este documento útil (0 votos)
141 vistas41 páginas

Muestreo y Pruebas de Hipótesis en Estadística

Este documento trata sobre los temas de muestreo, estimaciones de parámetros poblacionales y pruebas de hipótesis en estadística. En particular, define los tipos de muestreo aleatorio como el muestreo aleatorio simple, el estratificado y el de conglomerados. Luego, explica la distribución muestral de la media y cómo se pueden construir intervalos de confianza para estimar parámetros poblacionales como la media, utilizando la distribución normal y t de Student. Finalmente, resume los conceptos básicos de las
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
141 vistas41 páginas

Muestreo y Pruebas de Hipótesis en Estadística

Este documento trata sobre los temas de muestreo, estimaciones de parámetros poblacionales y pruebas de hipótesis en estadística. En particular, define los tipos de muestreo aleatorio como el muestreo aleatorio simple, el estratificado y el de conglomerados. Luego, explica la distribución muestral de la media y cómo se pueden construir intervalos de confianza para estimar parámetros poblacionales como la media, utilizando la distribución normal y t de Student. Finalmente, resume los conceptos básicos de las
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

TECNOLÓGICO NACIONAL

DE MÉXICO
INSTITUTO TECNOLÓGICO
SUPERIOR DE LA MONTAÑA
Carrera: Contador publico
Estadística administrativa
Nombre del alumno: Tomas González
Romano

Docente: Ing. Francisco Castro Hurtado

Grado: 1º Semestre: 2do

Tlapa gro, a junio de 2019


Índice
Pág.
Introducción 3
4.1 Definición de muestreo 4

4.1.1 Tipos de muestreo aleatorio, sistematizado estratificado y conglomerados 4


4.2 Concepto de distribución de muestreo de la media 6
4.2.1 Distribución muestral de la diferencia entre dos medias 8
4.3 Teorema del límite central 11
4.4 Determinación del tamaño de la muestra de una población
4.5 Intervalos de confianza para la media con el uso de la distribución normal y “t” student

4.5.1 Determinación del tamaño de la muestra con grado de confianza y estimación de µ

4.6 Intervalo de confianza para la diferencia entre dos medias µ1- µ2 con 12 y 22
12 = 22 pero conocidas con el uso de la distribución normal y la “t” studen
4.7 Una sola muestra: estimación de la proporción

4.8 Tamaño de la muestra como una estimación de P y un grado de confianza (1-)100%


5.1 Hipótesis estadísticas. Conceptos generales
5.2 Errores tipo I Y II
5.4 Prueba de una hipótesis: referente a la media con varianza desconocida utilizando la
distribución normal y “t” student
5.5 Dos muestras: pruebas sobre medias utilizando la distribución normal y “t” student
5.6 Una muestra: prueba sobre una sola proporción
5.7 Dos muestras: prueba sobre dos proporciones
5.8 Dos muestras: pruebas pareadas
Conclusión
Referencias bibliográficas

2
Introducción
En este presente trabajo se hablará acerca de las unidades 4 y 5 de la materia de
estadística administrativa 1
Este trabajo tiene como principal objetivo ayudar a los alumnos a entender todos los
temas mencionados en el índice y así poder analizar comprender y resolver todos
los ejercicios que el profesor exponga en clase
Dicha investigación trata acerca del muestreo y sus estimaciones principalmente y
también sobre las pruebas de hipótesis.
El alumno deberá de conocer las definiciones de cada uno de estos temas para que
así sea más fácil resolver los ejercicios que se presentan en cada tema planteado.

Esperando que esta investigación sea de su total comprensión

3
4.1 Definición de muestreo
Es un término mayormente utilizado en el campo de la estadística, la cual para poder
realizar estudios a una población (que es el conjunto de elementos físicos, que
presentan alguna característica en común, situados en un espacio geográfico
determinado en un lapso de tiempo específico, y sobre los cuales se desea
investigar), es necesario tomar una muestra de esa población dada, debido a que
estas pueden ser finitas o infinitas, y aún en el caso en el que sean finitas estas
pueden estar formadas por una gran cantidad de elementos lo que hace imposible
un análisis completo, un ejemplo de una población tomando en cuenta todas sus
características puede ser “la cantidad de maíz cosechado en la granja –La
Esperanza- durante el año 2010”. Para poder estudiarlos es necesario obtener una
muestra.
Un muestreo es el procedimiento a través del cual es seleccionada una muestra
(que es un subconjunto de elementos de una población, es decir, una porción de
elementos extraídos de una población previamente definida) a partir de una
población. El muestreo se refiere a esa reducción de elementos que componen a
un universo o población, para así poder cumplir con la investigación
correspondiente.

4.1.1 Tipos de muestreo aleatorio, sistematizado estratificado y


conglomerados
En una muestra aleatoria o de probabilidad conocemos las posibilidades de que un
elemento de la población se incluya o no en la muestra. Es posible determinar
objetivamente las estimaciones de las características de la población que resultan
de una muestra dada; es decir se puede describir matemáticamente que tan
objetivas son las estimaciones correspondientes. Para analizar este proceso se
introducirán cuatro métodos del muestreo aleatorio:
 Muestreo aleatorio simple.

4
El muestreo simple selecciona muestras mediante métodos que permiten que cada
posible muestra tenga una igual probabilidad de ser seleccionada y que cada
elemento de la población total tenga una oportunidad igual de ser incluido en la
muestra. Se recomienda cuando las características de interés presentan gran
homogeneidad, de lo contrario requeriría muestras grandes para lograr una
precisión aceptable, y podrían seleccionarse muestras indeseables. La definición de
este método y el proceso de seleccionar una muestra aleatoria simple depende de
si la población es finita o infinita.

 Muestreo aleatorio estratificado


Se divide la población en grupos en función de un carácter determinado y después
se muestrea cada grupo aleatoriamente, para obtener la parte proporcional de la
muestra. Este método se aplica para evitar que por azar algún grupo de animales
este menos representado que los otros.
El muestreo estratificado tiene interés cuando la característica en cuestión puede
estar relacionada con la variable que queremos estudiar. Cuando se realiza un
muestreo cuya unidad sean las granjas, la estratificación se aplica frecuentemente
en relación al tamaño de granja o a la aptitud de los animales, ya que muchas
enfermedades presentan prevalencias diferentes en función del tamaño de la granja
o a si se trata por ejemplo de razas de aptitud lechera o cárnica. Si la unidad son
los animales, se suele estratificar en función de la edad ya que ésta suele influir en
muchas enfermedades
 Muestreo aleatorio por conglomerados
Se divide la población en varios grupos de características parecidas entre ellos y
luego se analizan completamente algunos de los grupos, descartando los demás.
Dentro de cada conglomerado existe una variación importante, pero los distintos
conglomerados son parecidos. Requiere una muestra más grande, pero suele
simplificar la recogida de muestras. Frecuentemente los conglomerados se aplican
a zonas geográficas.
 Muestreo mixto.
Cuando la población es compleja, cualquiera de los métodos descritos puede ser
difícil de aplicar, en estos casos se aplica un muestreo mixto que combina dos o
más de los anteriores sobre distintas unidades de la encuesta.

5
4.2 Concepto de distribución de muestreo de la media

Si tenemos una muestra aleatoria de una población N(m,s ), se sabe (Teorema del
límite central) que la fdp de la media maestral es también normal con media m y
varianza s2/n. Esto es exacto para poblaciones normales y aproximado (buena
aproximación con n>30) para poblaciones cualesquiera. Es decir es el error
típico, o error estándar de la media.

¿Cómo usamos esto en nuestro problema de estimación?


1º problema: No hay tablas para cualquier normal, sólo para la normal m=0 y s=1
(la llamada z); pero haciendo la transformación (llamada tipificación)

una normal de media m y desviación s se transforma en una z.

Llamando za al valor de una


variable normal tipificada que
deja a su derecha un área bajo
la curva de a, es decir, que la
probabilidad que la variable sea
mayor que ese valor es a(estos
son los valores que ofrece la
tabla de la normal)

podremos construir intervalos


de la forma

para los que la probabilidad es 1


- a.

Teniendo en cuenta la simetría de la normal y manipulando algebraicamente

6
que también se puede escribir

o, haciendo énfasis en que es el error estándar de la media,

Recuérdese que la probabilidad de que m esté en este intervalo es 1 - a. A un


intervalo de este tipo se le denomina intervalo de confianza con un nivel de
confianza del 100(1 - a) %, o nivel de significación de 100a%. El nivel de confianza
habitual es el 95%, en cuyo caso a=0,05 y za /2=1,96. Al valor se le denomina
estimación puntual y se dice que es un estimador de m.

Ejemplo: Si de una población normal con varianza 4 se extrae una muestra aleatoria
de tamaño 20 en la que se calcula se puede decir que mtiene una
probabilidad de 0,95 de estar comprendida en el intervalo

que sería el intervalo de confianza al 95% para m

En general esto es poco útil, en los casos en que no se conoce m tampoco suele
conocerse s2; en el caso más realista de s2 desconocida los intervalos de confianza
se construyen con la t de Student (otra fdpcontinua para la que hay tablas) en lugar
de la z.

O, haciendo énfasis en que es el error estándar estimado de la media,

Esta manera de construir los intervalos de confianza sólo es válido si la variable es


normal. Cuando n es grande (>30) se puede sustituir t por zsin mucho error.

7
4.2.1 Distribución muestral de la diferencia entre dos medias

 Distribución Muestral de Diferencia de Medias

Suponga que se tienen dos poblaciones distintas, la primera con media 1 y


desviación estándar 1, y la segunda con media 2 y desviación estándar
2. Más aún, se elige una muestra aleatoria de tamaño n 1 de la primera población y
una muestra independiente aleatoria de tamaño n 2 de la segunda población; se
calcula la media muestral para cada muestra y la diferencia entre dichas medias. La
colección de todas esas diferencias se llama distribución muestral de las
diferencias entre medias o la distribución muestral del estadístico

La distribución es aproximadamente normal para n1 30 y n2 30. Si las poblaciones


son normales, entonces la distribución muestral de medias es normal sin importar
los tamaños de las muestras.

8
En ejercicios anteriores se había demostrado que y que , por lo que

no es difícil deducir que y que .

La fórmula que se utilizará para el cálculo de probabilidad del estadístico de


diferencia de medias es:

 Distribución Muestral de Diferencia de Proporciones

Muchas aplicaciones involucran poblaciones de datos cualitativos que deben


compararse utilizando proporciones o porcentajes. A continuación, se citan algunos
ejemplos:

 Educación. - ¿Es mayor la proporción de los estudiantes que aprueban


matemáticas que las de los que aprueban inglés?
 Medicina. - ¿Es menor el porcentaje de los usuarios del medicamento A que
presentan una reacción adversa que el de los usuarios del fármaco B que
también presentan una reacción de ese tipo?
 Administración. - ¿Hay diferencia entre los porcentajes de hombres y mujeres
en posiciones gerenciales?
 Ingeniería. - ¿Existe diferencia entre la proporción de artículos defectuosos
que genera la máquina A a los que genera la máquina B?

Cuando el muestreo procede de dos poblaciones binomiales y se trabaja con dos


proporciones muéstrales, la distribución muestral de diferencia de proporciones es
aproximadamente normal para tamaños de muestra grande (n1p1 5, n1q1 5,n2p2
5 y n2q2 5). Entonces p1 y p2 tienen distribuciones muéstrales aproximadamente
normales, así que su diferencia p1-p2también tiene una distribución muestral
aproximadamente normal.

9
Cuando se estudió a la distribución muestral de proporciones se comprobó

que y que , por lo que no es difícil deducir

que y que .

La fórmula que se utilizará para el calculo de probabilidad del estadístico de


diferencia de proporciones es:

 Distribución Muestral de Número de Defectos


En el control de calidad y específicamente en los gráficos de control "c" se aplica
esta distribución, la cual consiste en que al extraer un artículo contabilicemos el
número de defectos que tiene ese artículo.
Esta distribución muestral proviene de la distribución de Poisson, en la cual le media
es y que en este caso es el número promedio de defectos por unidad. Como ya es
conocido la varianza de la distribución de Poisson es igual a por lo que se puede
deducir la formula de la siguiente manera:
Para la distribución muestral de número de defectos la nomenclatura utilizada es:
c = número defectos por unidad de inspección
C = número de defectos promedio por unidad de inspección
Se debe de recordar que la distribución de Poisson es una distribución discreta, y
se está utilizando la aproximación de la normal a la Poisson, debiendo aplicar el
factor de corrección de ± 0.5 según sea el caso. La formula para la dsitribución
muestral de número de defectos quedaría de la siguiente manera:

10
4.3 Teorema del límite central
El teorema central del límite es uno de los resultados fundamentales de la
estadística. Este teorema nos dice que si una muestra es lo bastante grande
(generalmente cuando el tamaño muestral (n) supera los 30), sea cual sea la
distribución de la media muestral, seguirá aproximadamente una distribución
normal. Es decir, dada cualquier variable aleatoria, si extraemos muestras de
tamaño n (n>30) y calculamos los promedios muéstrales, dichos promedios
seguirán
una distribución normal. Además, la media será la misma que la de la
variable de interés, y la desviación estándar de la media muestral será
aproximadamente
el error estándar.
La importancia del teorema central del límite radica en que mediante un
conjunto de teoremas, se desvela las razones por las cuales, en muchos campos
de aplicación, se encuentran en todo momento distribuciones normales o casi.

11
Contextualizando lo anterior tenemos: La distribución de la media muestral de una
población normal es una distribución normal con la misma media poblacional y con
desviación típica el error estándar. Este hecho nos permite calcular probabilidades
cuando tenemos una muestra de una variable con distribución normal y desviación
típica
conocida. Cuando no conocemos la desviación típica de la variable, también
podemos hacer cálculos con la distribución t de Student.

Cuando la muestra es lo bastante grande, la solución nos viene dada por uno
de los resultados fundamentales de la estadística: el teorema del límite central.

La fórmula formal que se utiliza para resolver problemas de este tema


es:

Es muy común encontrar esta fórmula con una variable estandarizada Zn en función
a la media muestral como se muestra en la imagen...
Ahora tenemos la formula de la siguiente manera:
También podemos encontrar esta fórmula en versiones no normalizadas:

12
Esas son las fórmulas que manejan varios autores, pero nosotros usaremos 3
formulas diferentes para resolver el problema haciéndolo lo más fácilmente posible.
Estas son las fórmulas que usaremos:

4.4 Determinación del tamaño de la muestra de una población


NIVEL DE CONFIANZA
Esta fórmula aplica en le caso de que sí se conozca el tamaño de la población:

En estadística el tamaño de la muestra es el número de sujetos que componen la


muestra extraída de una población, necesarios para que los datos obtenidos sean
representativos de la población.

MUESTRA: es un subconjunto de observaciones seleccionadas de una población.

EL ERROR MUESTRAL
Al determinar el tamaño de una muestra representa una parte esencial del método
científico para poder llevar a cabo una investigación.

13
Al muestreo es el conjunto de observaciones necesarias para estudiar la distribución
de determinadas características en la totalidad de una población, a partir de la
observación de una parte o subconjunto de una población.

PROBABILIDAD Y ESTADISTICA

La confianza o el porcentaje de confianza es el porcentaje de seguridad que existe


para generalizar los resultados obtenidos. Esto quiere decir que un porcentaje del
100% equivale a decir que no existe ninguna duda para generalizar tales resultados,
pero también implica estudiar a la totalidad de los casos de la población. Para evitar
un costo muy alto para el estudio o debido a que en ocasiones llega a ser
prácticamente imposible el estudio de todos los casos, entonces se busca un
porcentaje de confianza menor. Comúnmente en las investigaciones sociales se
busca un 95%.

APLICACIÓN
PARÁMETRO Y
ESTIMADOR
TAMAÑO DE LA MUESTRA
Probabilidad de que la estimación efectuada se ajuste a la realidad.

Se encuentre dentro de un intervalo determinado basado en el estimador y que


capte el valor verdadero del parámetro a medir.

El error o porcentaje de error equivale a elegir una probabilidad de aceptar una


hipótesis que sea falsa como si fuera verdadera, o la inversa: rechazar a hipótesis
verdadera por considerarla falsa. Al igual que en el caso de la confianza, si se quiere
eliminar el riesgo del error y considerarlo como 0%, entonces la muestra es del
mismo tamaño que la población, por lo que conviene correr un cierto riesgo de
equivocarse.

Comúnmente se aceptan entre el 4% y el 6% como error, tomando en cuenta de


que no son complementarios la confianza y el error.

14
4.5 Intervalos de confianza para la media con el uso de la
distribución normal y “t” student

Dada una variable aleatoria con distribución Normal N (μ, σ), el objetivo es la
construcción de un intervalo de confianza para el parámetro μ, basado en una
muestra de tamaño n de la variable.

Desde el punto de vista didáctico hemos de considerar dos posibilidades sobre la


desviación típica de la variable: que sea conocida o que sea desconocida y
tengamos que estimarla a partir de la muestra. El caso de σ conocida, ya comentado
anteriormente, no pasa de ser un caso académico con poca aplicación en la
práctica, sin embargo es útil desde el punto de vista didáctico.

Caso de varianza conocida

Dada una muestra X1, ..., Xn, el estadístico

15
Se distribuye según una Normal estándar. Por tanto, aplicando el método del pivote
podemos construir la expresión

donde zα/2 es el valor de una distribución Normal estándar que deja a su derecha
una probabilidad de α/2, de la que se deduce el intervalo de confianza

Puede repasarse la construcción más detallada.

Caso de varianza desconocida

Dada una muestra X1, ..., Xn, el estadístico

Se distribuye según una t de Student de n − 1 grados de libertad. Por tanto, y


siguiendo pasos similares a los del apartado anterior, el intervalo de confianza
resultante es

Donde tα/2 es el valor de una distribución t de Student con n − 1 grados de libertad


que deja a su derecha una probabilidad de α/2.

Con el programa siguiente podemos calcular el intervalo de confianza para la media


de una distribución Normal con desviación típica desconocida.

16
4.5.1 Determinación del tamaño de la muestra con grado de confianza y
estimación de µ

Un estimador puntual de la proporción P en un experimento binomial está dado por


la estadística P=X/N, donde x representa el número de éxitos en n pruebas. Por
tanto, la proporción de la muestra p =x/n se utiuñlizará como estimador puntual del
parámetro P.

Si no se espera que la proporción P desconocida esté demasiado cerca de 0 ó de


1, se puede establecer un intervalo de confianza para P al considerar la distribución
muestral de proporciones.

Al despejar P de esta ecuación nos queda:

17
En este despeje podemos observar que se necesita el valor del parámetro P y es
precisamente lo que queremos estimar, por lo que lo sustituiremos por la proporción
de la muestra p siempre y cuando el tamaño de muestra no sea pequeño.

Cuando n es pequeña y la proporción desconocida P se considera cercana a 0 ó a


1, el procedimiento del intervalo de confianza que se establece aquí no es confiable,
por tanto, no se debe utilizar. Para estar seguro, se debe requerir que np ó nq sea
mayor o igual a 5.

El error de estimación será la diferencia absoluta entre p y P, y podemos tener el

nivel de confianza de que esta diferencia no excederá .

Ejemplos:

1. Un fabricante de reproductores de discos compactos utiliza un conjunto de


pruebas amplias para evaluar la función eléctrica de su producto. Todos los
reproductores de discos compactos deben pasar todas las pruebas antes de
venderse. Una muestra aleatoria de 500 reproductores tiene como resultado
15 que fallan en una o más pruebas. Encuentre un intervalo de confianza de
90% para la proporción de los reproductores de discos compactos de la
población que no pasan todas las pruebas.

Solución:

n=500

p = 15/500 = 0.03

Z (0.90) = 1.645

0.0237<P<0.0376

18
Se sabe con un nivel de confianza del 90% que la proporción de discos
defectuosos que no pasan la prueba en esa población está entre 0.0237 y
0.0376.

4.6 Intervalo de confianza para la diferencia entre dos medias µ1-


µ2 con 𝟏𝟐 y 𝟐𝟐 𝟏𝟐 = 𝟐𝟐 pero conocidas con el uso de la
distribución normal y la “t” student

Caso de varianza desconocida y común

Supondremos la existencia de dos poblaciones sobre las que una variable


determinada sigue una distribución Normal con idéntica varianza en las dos. Sobre
la población 1, la variable sigue una distribución N(µ1, σ) y, sobre la población 2,
sigue una distribución N(µ2, σ). Igualmente supondremos que disponemos de
dos muestras aleatorias independientes, una para cada población, de tamaños
muéstrales n1 y n2 respectivamente.

El objetivo es construir un intervalo de confianza, con nivel de confianza (1 − α) ·


100 %, para la diferencia de medias

µ1 − µ2

El método se basa en la construcción de una nueva variable D, definida como la


diferencia de las medias muéstrales para cada población

Esta variable, bajo la hipótesis de independencia de las muestras, sigue una


distribución Normal de esperanza

µ1 − µ2

y de varianza

La estimación conjunta, a partir de las dos muestras, de la varianza común viene


dada por la expresión

19
Y, utilizando la propiedad de que la variable

Sigue una distribución χ2 con n1 + n2 − 2 grados de libertad, podemos construir un


estadístico pivote que siga una distribución t de Student y que nos proporciona la
fórmula siguiente para el intervalo de confianza para la diferencia de medias:

Donde tα/2 es el valor de una distribución t de Student con n1 + n2 − 2 grados de


libertad que deja a su derecha una probabilidad de α/2.

4.7 Una sola muestra: estimación de la proporción


Sea X una variable binomial de parámetros n y p (una variable binomial es el
número de éxitos en n ensayos; en cada ensayo la probabilidad de éxito (p) es la
misma, por ejemplo: número de diabéticos en 2000 personas).
Si n es grande y p no está próximo a 0 ó 1 (np ³ 5) X es aproximadamente normal

con media np y varianza npq (siendo q = 1 - p) y se puede usar el estadístico


(proporción muestral), que es también aproximadamente normal, con error

típico dado por


en consecuencia, un IC para p al 100(1 - a)% será

20
es decir, la misma estructura que antes:
Obsérvese que para construirlo, ¡se necesita conocer p!. Si n es grande (>30) se
pueden substituir p y q por sus estimadores sin mucho error, en cualquier caso,
como pq £ 0,25 si se substituye pq por 0,25 se obtiene un intervalo más
conservador (más grande).
Ejemplo: En una muestra de 100 pacientes sometidos a un cierto tratamiento se
obtienen 80 curaciones. Calcular el intervalo de confianza al 95% de la eficacia del
tratamiento.

La verdadera proporción de curaciones está comprendida entre, aproximadamente,


72% y 88% con un 95% de probabilidad.
Ejemplos:
Un fabricante de reproductores de discos compactos utiliza un conjunto de pruebas
amplias para evaluar la función eléctrica de su producto. Todos los reproductores
de discos compactos deben pasar todas las pruebas antes de venderse. Una
muestra aleatoria de 500 reproductores tiene como resultado 15 que fallan en una
o más pruebas. Encuentre un intervalo de confianza de 90% para la proporción de
los reproductores de discos compactos de la población que no pasan todas las
pruebas.
Solución:
n=500
p = 15/500 = 0.03
z(0.90) = 1.645

0.0237<P<0.0376
Se sabe con un nivel de confianza del 90% que la proporción de discos defectuosos
que no pasan la prueba en esa población está entre 0.0237 y 0.0376.

21
4.8 Tamaño de la muestra como una estimación de P y un grado
de confianza (1-)100%
En una población cuya distribución es conocida, pero desconocemos algún
parámetro, podemos estimar dicho parámetro a partir de una muestra
representativa.
Un estimador es un valor que puede calcularse a partir de los datos muestrales y
que proporciona información sobre el valor del parámetro. Por ejemplo, la media
muestral es un estimador de la media poblacional, la proporción observada en la
muestra es un estimador de la proporción en la población.
Una estimación es puntual cuando se obtiene un sólo valor para el parámetro. Los
estimadores más probables en este caso son los estadísticos obtenidos en la
muestra, aunque es necesario cuantificar el riesgo que se asume al considerarlos.
Recordemos que la distribución muestral indica la distribución de los valores que
tomará el estimador al seleccionar distintas muestras de la población. Las dos
medidas fundamentales de esta distribución son la media que indica el valor
promedio del estimador y la desviación típica, también denominada error típico de
estimación, que indica la desviación promedio que podemos esperar entre el
estimador y el valor del parámetro.
Más útil es la estimación por intervalos en la que calculamos dos valores entre los
que se encontrará el parámetro, con un nivel de confianza fijado de antemano.
Llamamos Intervalo de confianza al intervalo que, con un cierto nivel de confianza,
contiene al parámetro que se está estimando.
Nivel de confianza es la "probabilidad" de que el intervalo calculado contenga al
verdadero valor del parámetro. Se indica por 1-a y habitualmente se da en
porcentaje (1-a)100%. Hablamos de nivel de confianza y no de probabilidad ya que
una vez extraída la muestra, el intervalo de confianza contendrá al verdadero valor
del parámetro o no, lo que sabemos es que si repitiésemos el proceso con muchas
muestras podríamos afirmar que el (1-a)% de los intervalos así construidos
contendría al verdadero valor del parámetro.

1. INTERVALO DE CONFIANZA PARA LA MEDIA

De una población desconocemos la media m y deseamos estimarla a partir de la


media x obtenida en una muestra de tamaño n
Sabemos que si la población es normal N(m,s) y extraemos de ella muestras de
tamaño n, o sin ser la población normal es n>30,

22
La distribución muestral de medias es ,
por tanto, si fijamos una probabilidad 1-a, sabemos que la

es decir, el (1-a)% de las x está a una distancia de m inferior a

Entonces para un nivel de confianza 1-a, m pertenece al

intervalo:
donde za/2 es el llamado valor crítico, valor tal que P(-za/2 £ z £za/2 )=1-a, y x la
media de la muestra.
Si la desviación típica de la población es desconocida, lo que suele ocurrir en la
práctica, la aproximaremos por la de la muestra siempre que n>100

2. INTERVALO DE CONFIANZA PARA LA PROPORCIÓN

Si deseamos estimar la proporción p con que una determinada característica se


da en una población, a partir de la proporción p' observada en una muestra de
tamaño n, sabemos que
la distribución muestral de proporciones sigue una distribución

normal con q=1-p


Como la proporción p de la población es desconocida, se aproxima por la de la
muestra siempre que n>100.
Entonces para un nivel de confianza 1-a, p pertenece al

intervalo:

3. INTERVALO DE CONFIANZA Y TAMAÑO DE LA MUESTRA

La amplitud del intervalo de confianza depende del valor de

23
Con un nivel de confianza del (1-a)100% admitimos que la diferencia entre la
estimación para la media a partir de la muestra y su valor real es menor que E,
que llamaremos error máximo admisible.
El tamaño de la muestra depende del nivel de confianza que se desee para los
resultados y de la amplitud del intervalo de confianza, es decir del error
máximo que se esté dispuesto a admitir. Fijados estos, 1-a y E, podemos calcular
el tamaño mínimo de la muestra que emplearemos.

En el caso de estimar proporciones con lo que

5.1 Hipótesis estadísticas. Conceptos generales


Una hipótesis puede definirse como una solución provisional (tentativa) para
unproblema dado. El nivel de verdad que se le asigne a tal hipótesis dependerá de
lamedida en que los datos empíricos recogidos apoyen lo afirmado en la hipótesis.
Esto es lo que se conoce como contrastación empírica de la hipótesis o bien proceso
de validación de la hipótesis. Este proceso puede realizarse de uno o dos modos:
mediante confirmación (para las hipótesis universales) o mediante verificación
(páralas hipótesis existenciales).En general, en un trabajo de investigación se

24
plantean dos hipótesis mutuamente excluyentes: la hipótesis nula o hipótesis de
nulidad y la hipótesis de investigación Además, es posible plantear hipótesis
alternas o hipótesis alternativas. El análisis estadístico de los datos servirá para
determinar si se puede o no aceptar Ho. Cuando se rechaza Ho, significa que el
factor estudiado ha influido significativamente en los resultados y es información
relevante para apoyar la hipótesis de investigación planteada. Es muy importante
tener presente que la hipótesis de investigación debe coincidir con la hipótesis
alternativa. Plantear hipótesis de investigación que coincidan con Ho supondría una
aplicación incorrecta del razonamiento estadístico. Las hipótesis son proposiciones
provisionales y exploratorias y, por tanto, su valor de veracidad o falsedad depende
críticamente de las pruebas empíricas. En este sentido, la replicabilidad de los
resultados es fundamental para confirmar una hipótesis como solución de un
problema. La hipótesis es el elemento que condiciona el diseño de la investigación
y responde provisionalmente al problema, verdadero motor de la investigación. El
propósito de la prueba de hipótesis es determinar si el valor supuesto (hipotético de
un parámetro poblacional, como la medida de la población, debe aceptarse como
verosímil con base en evidencia muéstrales. Recuerda que sobre la distribución
demuestreo, se dijo que, en general, una media muestral diferirá en valor de la
media poblacional. Si el valor observado de una estadística muestral, como la media
muestral, el valor de la media poblacional.

5.2 Errores tipo I Y II

Ninguna prueba de hipótesis es 100% cierta. Puesto que la prueba se basa en


probabilidades, siempre existe la posibilidad de llegar a una conclusión incorrecta.
Cuando usted realiza una prueba de hipótesis, puede cometer dos tipos de error:
tipo I y tipo II. Los riesgos de estos dos errores están inversamente relacionados y
se determinan según el nivel de significancia y la potencia de la prueba. Por lo tanto,

25
usted debe determinar qué error tiene consecuencias más graves para su situación
antes de definir los riesgos.
Error de tipo I
Si usted rechaza la hipótesis nula cuando es verdadera, comete un error de tipo I.
La probabilidad de cometer un error de tipo I es α, que es el nivel de significancia
que usted establece para su prueba de hipótesis. Un α de 0.05 indica que usted
está dispuesto a aceptar una probabilidad de 5% de estar equivocado al rechazar
la hipótesis nula. Para reducir este riesgo, debe utilizar un valor menor para α. Sin
embargo, usar un valor menor para alfa significa que usted tendrá menos
probabilidad de detectar una diferencia si está realmente existe.

Error de tipo II
Cuando la hipótesis nula es falsa y usted no la rechaza, comete un error de tipo II.
La probabilidad de cometer un error de tipo II es β, que depende de la potencia de
la prueba. Puede reducir el riesgo de cometer un error de tipo II al asegurarse de
que la prueba tenga suficiente potencia. Para ello, asegúrese de que el tamaño de
la muestra sea lo suficientemente grande como para detectar una diferencia práctica
cuando está realmente exista.

5.3 Pruebas unilaterales y bilaterales

Al realizar una prueba de hipótesis nuestro interés puede estar en el valor extremo
de un solo lado de la distribución, o en ambos lados. En el primer casi, las pruebas
se denominan unilaterales o de una cola; en el segundo caso se conoce como
bilaterales o de dos colas. En los ensayos unilaterales la región de rechazo es única
a un lado de la distribución con un área determinada por el valor de α. En las
bilaterales la región de rechazo el área se determina dividiendo el nivel de
significancia en dos partes iguales.

26
27
Un contraste bilateral adopta en general la forma:

H0: θ = θ0 contra H1: θ ≠ θ0

En determinadas ocasiones el experimentador prefiere plantear directamente un


contraste de la forma:

H0: θ = θ0 contra H1: θ > θ0

conocido como contraste unilateral derecho. Obviamente, otra posibilidad es


el unilateral izquierdo:

H0: θ = θ0 contra H1: θ < θ0

En estos tres casos, el contraste de hipótesis es simple contra compuesta.

En la mayoría de situaciones aplicadas, se desean realmente resolver contrastes


unilaterales que comportan hipótesis compuestas. El unilateral derecho es
entonces:

H0: θ ≤ θ0 contra H1: θ > θ0

y el izquierdo es:

H0: θ ≥ θ0 contra H1: θ < θ0

Aunque esta última formulación está relacionada con los contrastes


unilaterales simple contra compuesta anteriores, las dos hipótesis no son
técnicamente equivalentes Para simplificar la interpretación de los contrastes
unilaterales, atendiendo a los casos de los que se ocupa Statmedia, se formulan los
contrastes de esta última manera (compuesta contra compuesta) y se toma el nivel
de significación como si fuera el del contraste simple contra compuesta.

En cualquier caso, es importante entender que sólo debe resolverse uno de los tres
contrastes (bilateral o unilateral) con un conjunto de datos concreto.

5.4 Prueba de una hipótesis: referente a la media con varianza


desconocida utilizando la distribución normal y “t” student
Ciertamente sospechamos que las pruebas sobre una media poblacional m con s 2
desconocida, debe incluir el uso de la distribución t de Student. La estructura de la
prueba es idéntica a la del caso de s conocida, con la excepción de que el valor s
en la estadística de prueba se reemplaza por la estimación de s calculada y la
distribución normal estándar se reemplaza con una distribución t. Ejemplos: 1. El

28
Instituto Eléctrico Edison publica cifras del número anual de Kilowatt-hora que
gastan varios aparatos eléctrodomésticos. Se afirma que una aspiradora gasta un
promedio de 46 kilowatt-hora al año. Si una muestra aleatoria de 12 hogares que se
incluye en un estudio planeado indica que las aspiradoras gastan un promedio de
42 kilowatt-hora al año con una desviación estándar de11.9 kilowatt-hora, ¿esto
sugiere con un nivel de significancia de 0.05 que las aspiradoras gastan, en
promedio, menos de 46 kilowatt-hora anualmente? Suponga que la población de
kilowatt-hora es normal

29
5.5 Dos muestras: pruebas sobre medias utilizando la distribución
normal y “t” student

PROBLEMA RESUELTO DE PRUEBA DE HIPOTESIS PARA 1  2 CON


VARIANZA POBLACIONAL CONOCIDA O MUESTRA GRANDE
DISTRIBUCION NORMAL

Transfer Trucking transporta remesas entre Chicago y Kansas City por dos rutas.
Delmer el despachador de Transfer Trucking quiere saber si hay una diferencia en
el tiempo promedio entre estas dos rutas alternas. Pruebe con un nivel de
significancia de 0.05.
Los datos son los siguientes:

30
Solución Ruta 1 Ruta 2

Datos n1 = 100 n2 = 75

x1 = 17.2 horas x2
= 19.4 horas

s1 = 5.3 horas s2 = 4.5 horas

1. Establecer la hipótesis

Ho: 1  2

Ha: 1  2

2. Establecer la estadística de prueba

( x1  x2 )  ( 1   2 )
( 12 / n1 )  ( 22 / n2 )
Z=

3. Definir nivel de significancia y zona de rechazo

-1.96 1.96

Nivel de significancia = 0.05

31
Zona de rechazo = { Z/Z  -1.96 ó Z/Z  1.96}

4. Calcular la estadística de prueba

( x1  x2 )  ( 1   2 )
( 12 / n1 )  ( 22 / n2 )
Z = como las medias poblacionales están bajo la
hipótesis nula entonces

Cuando se desconocen las desviaciones estándar poblacionales, podemos



usar las de las muestras como estimados, y estimar x1  x 2 como sigue:

s12 s2
x1  x2   2
n1 n2
S

( 17.2  19.4)  0
(5.3) 2 (4.5) 2  2.2
   2.96
Z= 100 75 = .74222

5. Como -2.96 < -1.96 se rechaza Ho con un nivel de significancia de .05

6. Conclusión

32
Delmer el despachador de Transfer Tracking puede concluir que si hay una
diferencia en el tiempo promedio entre estas dos rutas alternas.

PROBLEMA RESUELTO DE PRUEBA DE HIPOTESIS PARA 1  2 CON


VARIANZA POBLACIONAL DESCONOCIDA Y MUESTRA PEQUEÑA
DISTRIBUCION T DE STUDENT

Las negociaciones salariales entre una empresa y el sindicato de sus trabajadores


están a punto de romperse. Existe un desacuerdo considerable sobre el nivel
salarial promedio de los trabajadores en la planta de Atlanta y en la planta de
Newport News, Virginia. Los salarios fueron fijados por el antiguo acuerdo laboral
de hace tres años y se basan estrictamente en la antigüedad. Debido a que los
salarios están controlados muy de cerca por el contrato laboral, se asume que la
variación en los salarios es la misma en ambas plantas y que los salarios están
distribuidos normalmente. Pruebe la hipótesis de que no hay una diferencia entre
los niveles salariales promedio debido a los patrones de antigüedad diferentes entre
las plantas, con  = .02
Solución

Datos
Planta de Atlanta Planta de Newport News

n1 = 23 n2 = 19

x1 = US $17.53 x2
= US $ 15.50

s1 = US $ 9.59 s2 = US $9.33

1. 1. Establecer la hipótesis
Ho: 1  2

Ha: 1  2

33
2. 2. Establecer la estadística de prueba

( x1  x2 )  ( 1   2 )
s 2 (1 / n1 )  (1 / n2 )
t= con n1 + n2 - 2 grados
de libertad.

3. 3. Definir el nivel de significancia y zona de rechazo

g.l = 40
-2.423 2.423
Nivel de significancia = .02
Zona de rechazo = { t/t  -2.423 ó t/t  2.423}

4. Calcular la estadística de prueba


( x1  x2 )  ( 1   2 )
s 2 (1 / n1 )  (1 / n2 )
t = como las medias poblacionales están bajo la
hipótesis nula entonces tenemos

(n1  1) s12  (n2 1) s22


s2 
n1  n2  2

34
(9.59) 2 ( 22)  (9.33) 2 (18)
s2 
23  19  2 = 89.85

(17.53  15.50)  (0)


t
(89.85) 89.85 2.03

23 19 = 2.93 = .6928

5. Como .6928 esta entre -2.423 y 2.423 no se rechaza la hipótesis nula con
 = .02.

6. Conclusión:
No existe diferencia en los salarios de las dos plantas.

35
5.6 Una muestra: prueba sobre una sola proporción

Las pruebas de hipótesis con proporciones son necesarias en muchas áreas del
conocimiento y en especial en la administración. Se considerará el problema de
probar la hipótesis de que la proporción de éxito en un experimento binomial sea
igual a un cierto valor especifico. Es decir, se probará la hipótesis nula de que p =
p0, donde p es el parámetro de la distribución binomial. La información de que suele
disponerse para la estimación de una porción real o verdadera (porcentaje o
x
probabilidad) es una proporción muestral , donde x es el número de veces que
n
ha ocurrido un evento en n ensayos. Por ejemplo, si una muestra aleatoria de 600
compras realizadas en una tienda y 300 se realizan con tarjeta de crédito, entonces
x 300
  0.50 se puede utilizar esa cifra como estimación de punto de la proporción
n 600
real de compras realizadas en ese negocio que se abonaron a tarjetas de crédito.
De la misma forma muchas compañías podrían estimar las proporciones de muchas
transacciones. La hipótesis alterna puede ser una de las alternativas usuales
unilateral o bilateral tales como: p  p0 , p  p0 ,..o.. p  p0 .

El proceso de prueba de hipótesis para la proporción poblacional p es muy similar


al de μ. Un valor Zc calculado a partir de la muestra se compara con un valor critico

p p
de Z dados en las tablas. Zc se obtiene asi: Z c  . O también se puede utilizar:
p.q
n
x  np
Z
npq

EJEMPLO 1: Se afirma que, de todas las familias que salen de Cumana por lo
menos el 30 % se mudan a Maracaibo. Si una muestra de 600 mudanzas tomada
al azar de los registros de la Alcaldía de Cumana revela que de los permisos de
mudanza autorizados 153 fueron para Maracaibo, pruebe la hipótesis nula p = 0.30
contra la hipótesis alternativa p < 30 con un nivel de significancia del 1 %.

SOLUCIÓN: Para calcular la proporción p lo primero que se ha de hacer es


determinar la proporción, luego se plantea una hipótesis unilateral con un nivel de
significancia al 1%.

 153
n  800,.. p   0.255,.. p  0.30,..q  0.70,..Z  2.33,.x  153.
600

36
Hipótesis:

H 0 : p  0.30
H1 : p  0.30

Regla de decisión o Región crítica: Se rechaza la Hipótesis nula si: Z c   Z es


decir, Z c  2.33 .

Aplicando formula se tiene:

O también Aplicando:

p p 0.255  0.300 0.045 0.045
Zc      Z c  2.41
p.q 0.3x0.7 0.00035 0.0187
n 600

x  np 153  600(0.30) 153  180 27


Z     2.41
npq 600(0.30)(0.70) 126 11,225

Conclusión: Como Z c es menor que Z , es decir, Z c  2.41  2.33 , se rechaza


H 0 : p  0.30 con un nivel de significancia de 0.01. Esto se puede observar en la
grafica

D en donde Z c  2.41 cae fuera del área de aceptación, por lo tanto, se cumple
que H1 : p  0.30 , es decir, menos del 30 % de las familias que salen de Cumana,
se mudan a Maracaibo.

5.7 Dos muestras: prueba sobre dos proporciones


Existen variedad de problemas en los que se debe decidir si la diferencia observada
entre dos proporciones muestrales se pueden atribuir a la casualidad o si es
indicativo del hecho de que las dos proporciones de la población correspondientes
son desiguales. Por ejemplo, se quisiera decidir, tomando en cuenta los datos de
una muestra, si una publicidad determinada produciría en realidad una diferencia de
respuesta con respecto a otra, ese es una de las muchas interrogantes con que se
enfrenta un administrador hoy en día.

Problemas como el antes mencionado se pueden tratar como un problema de


contraste de hipótesis del tipo:

37
H 0 : p1  p 2
H1 : p1  p 2
En donde p1.. y.. p2 son las dos proporciones de poblaciones de la característica
analizada. Si se señala con N1.. y..N 2 el tamaño de las muestras y p1.. y.. p2 como
las proporciones obtenidas de las muestras, entonces la variable que se debe
emplear para resolver este tipo de problemas es la diferencia de proporciones
muestrales. Es decir, p1  p2 , este planteamiento al igual que en el caso de la
media, se reduce a conocer si la diferencia de las proporciones de la muestra
p1  p2 es lo suficientemente grande como para suponer que en realidad existe una
diferencia entre p1.. y.. p2 . El método que se aplicara para demostrar si una
diferencia observada entre dos proporciones de las muestras se puede atribuir a la
casualidad o si es estadísticamente significativa, se basa en la siguiente teoría: Si
x1.. y..x2 son los números de aciertos obtenidos en n1 ensayos de un tipo y n2 de
otro, donde todos los ensayos son independientes, y las probabilidades
correspondientes de alcanzar un acierto son p1.. y.. p2 ,entonces la distribución de
x x
muestreo de 1  2 tiene una media p1  p2 .
n1 n2
Afortunadamente, basándonos en el teorema del límite central que expresa que
p1  p2 posee una distribución normal o aproximadamente normal con un promedio
igual a la diferencia de proporción de población, es decir p1  p2 y con una
desviación estándar, llamada error estándar de la diferencia entre dos
p1q1 p2 q2
proporciones, igual a  p1  p 2  p12  p22   se debe expresar que
n1 n2
cuando no se conozca p1..ni.. p2 , que es lo que por lo general ocurre, se deben
estimar sus valores por medio de los valores de las muestras; aunque los valores
poblacionales sean desconocidos, se supondrán iguales bajo la hipótesis nula
planteada, es decir H 0 : p1  p2 por consiguiente si el valor común se indica por p,
1 1
el error estándar será  p1  p  pq    donde p suele estimarse mediante
2
 n1 n2 
la combinación de los datos; o sea, al sustituir p por las proporciones de la muestra
x  x2
combinada de 1 .
n1  n2
El estadístico para calcular la diferencia entre proporciones es:

38
x1 x2

n1 n2 x1  x2 x x
Zc  ,..donde.. p  .. y.. 1  p1 ,.. 2  p 2 ..Entonces..setiene..que
1 1 n1  n2 n1 n2
p(1  p)   
 n1 n2 

p1  p 2
Zc 
1 1 
pq   
 n1 n2 
5.8 Dos muestras: pruebas pareadas
Prueba de hipótesis para muestras pareadas.

Una de las hipótesis sobre las que habitualmente se fundamentan las pruebas
estadísticas de comparación es que las observaciones pertenecientes a cada una
de las muestras son independientes entre sí, no guardan relación; siendo
precisamente ese uno de los objetivos de la aleatorización (elección aleatoria de los
sujetos o unidades de observación). Sin embargo, la falta de independencia entre
las observaciones de los grupos puede ser una característica del diseño del estudio
para buscar fundamentalmente una mayor eficiencia del contraste estadístico al
disminuir la variabilidad. En otras ocasiones con este tipo de diseño pareado lo que
se busca es dar una mayor validez a las inferencias obtenidas, controlando o
eliminando la influencia de variables extrañas cuyo efecto ya es conocido o
sospechado, y no se desea que intervenga en el estudio actual pudiendo
enmascarar el efecto del tratamiento o de la variable de interés.

Las muestras apareadas se obtienen usualmente como distintas observaciones


realizadas sobre los mismos individuos. Un ejemplo de observaciones pareadas
consiste en considerar a un conjunto de n personas a las que se le aplica un
tratamiento médico y se mide por ejemplo el nivel de insulina en la sangre antes (X)
y después del mismo (Y). En este ejemplo no es posible considerar aX eY como
variables independientes ya que va a existir una dependencia clara entre las dos
variables.

39
Conclusión:

40
Referencias bibliográficas o electrónicas.
[Link]
statistics/supporting-topics/data-concepts/about-the-central-limit-theorem/

[Link]/academic/industrial/estadistica1/[Link]

[Link]

[Link]/Material/[Link]

[Link]/calidad/archivos/Metodos/[Link]

[Link]

[Link]/academic/industrial/estadistica1/[Link]

[Link]/stat/GrupsInnovacio/Statmedia/demo/Temas/Capitulo8/[Link]

[Link]/bioest/esti_propor.html

[Link]

[Link]

[Link]

[Link]
300&id_d=10

41

También podría gustarte