Distribución de la media,
varianza, proporción y
tamaño de muestra
ESTADÍSTICA I
Distribución t-
student
Y si 𝜎 2 es desconocida.
¿Cómo estudiar 𝑋? ത
Distribución t-student
¿Qué es una distribución t-student?
Se dice que 𝑇 sigue una distribución t-student con 𝑣 = 𝑛 − 1 grados de
libertad si:
𝑋ത − 𝜇
𝑇= ~𝑡(𝑛 − 1)
𝑆/ 𝑛
Donde 𝑋ത es la media de una muestra aleatoria de tamaño 𝑛 tomada de
una distribución normal con media 𝜇 y desviación estándar 𝑆.
Propiedades de la distribución t-
student
Cada curva 𝑡𝑣 tiene forma de campana y con su centro en 0.
Cada curva 𝑡𝑣 está más esparcida que la curva normal estándar.
Conforme 𝑣 incrementa, la dispersión de 𝑡𝑣 disminuye.
A medida que 𝑣 incrementa la secuencia de las curvas 𝑡𝑣 tiende a la
normal estándar.
Curva de la distribucón t-student
Ejemplo
Se está realizando un estudio sobre la calidad del aire en la zona A de una
Ciudad. Un indicador de la calidad es el número de 𝑚𝑖𝑐𝑟𝑜𝑔𝑟𝑎𝑚𝑜𝑠 de
partículas en suspensión por 𝑚3 de aire, que suponemos sigue una
distribución normal con media 62.237. En la zona A se realizan 12 mediciones,
obteniéndose una varianza de 8.44 𝑚𝑖𝑐𝑟𝑜𝑔𝑟𝑎𝑚𝑜𝑠 2 .
a. Obtener la probabilidad de que la media muestral en A sea mayor que 75
𝑚𝑖𝑐𝑟𝑜𝑔𝑟𝑎𝑚𝑜𝑠.
b. Calcular la probabilidad de que la media muestral en A se encuentre
entre 50 y 70 𝑚𝑖𝑐𝑟𝑜𝑔𝑟𝑎𝑚𝑜𝑠.
Ejercicio
los valores de las matriculas de estudiantes en una universidad privada
tienen un comportamiento aproximadamente normal, donde el promedio es
de 2100. Se seleccionan 8 liquidaciones, obteniendo los siguientes valores:
1950, 2100, 2250, 1890, 2250, 1950, 2050, 2350. Determine la probabilidad de
que:
a. El promedio muestral sea menor de 2000
b. El promedio muestral se encuentre entre 2000 y 2200
c. El promedio muestral sea mayor o igual a 2500
Distribución de la varianza
La variabilidad en la muestra refleja cómo se dispersan las observaciones a
partir del promedio.
La varianza muestral se define como:
𝑛
1
𝑆2 = 𝑋𝑖 − 𝑋ത 2
𝑛−1
𝑖=1
Distribución chi-cuadrado
Si 𝑆 2 es la varianza de una muestra aleatoria de tamaño 𝑛 que se toma de
una población normal que tiene varianza 𝜎 2 entonces el estadístico:
𝑛
𝑛 − 1 𝑆2 1
𝜒= 2
= 2
𝑋𝑖 − 𝑋ത 2 ~𝜒 2
𝑣
𝜎 𝜎
𝑖=1
Se dice que 𝜒 2 tiene una distribución chi-cuadrada con 𝑣 = 𝑛 − 1 grados de
libertad.
Distribución chi-cuadrado
El valor 𝜒 2 por arriba del cual se encuentra
un área 𝛼 se representa con 𝜒𝛼2 :
Ejemplo
Considere una medición física proporcionada por un instrumento de
precisión, en donde el interés recae en la variabilidad de la lectura. Por
estudio previos se sabe que es una variable aleatoria normalmente
distribuida con media 10 y desviación estándar 0.1 unidades. Si se toma una
muestra aleatoria de tamaño 25. ¿Cuál es la probabilidad de que el valor de
la varianza muestral sea mayor de 0.014 unidades cuadradas?
Ejercicio
Suponga que los tiempos requeridos por un cierto autobús para alcanzar un
de sus destinos en una ciudad grande, forman una distribución normal con
una desviación estándar = 1 minuto. Si se elige al azar una muestra de 17
tiempos, encuentre la probabilidad de que la varianza muestral sea mayor
que 2.
Distribución muestral de la proporción
Existen ocasiones en las cuales no estamos interesados en la media de
una muestra, sino que queremos investigar la proporción de individuos u
objetos con cierta preferencia. La distribución muestral de proporciones
es la adecuada para dar respuesta a estas situaciones.
𝑥
Una proporción muestral se define como 𝑝Ƹ = 𝑛, donde 𝑥 es el número de
elementos en la muestra que poseen cierta característica y 𝑛 total de
elementos de la muestra.
Distribución muestral de la proporción
Cuando se desea estimar una proporción, el tamaño de la muestra siempre debe
ser grande, es decir, 𝑛 > 40.
Si la muestra se obtiene con reemplazo, 𝑥 tiene distribución binomial y debido a
que la muestra es grande, por el teorema central del límite se aproxima a una
distribución normal; por con siguiente:
𝑝𝑞
𝑝~𝑎𝑝𝑟𝑜𝑥
Ƹ 𝑁 𝑝, ; 𝑑𝑜𝑛𝑑𝑒 𝑞 = 1 − 𝑝.
𝑛
Entonces,
𝑝Ƹ − 𝑝
~𝑎𝑝𝑟𝑜𝑥 𝑁 0, 1
𝑝𝑞
𝑛
Ejemplo
Se ha determinado que el 85.1% de los estudiantes de una universidad
fuman cigarrillos. Se toma una muestra aleatoria de 200 estudiantes.
a. Calcular la probabilidad de que no más del 80% de los alumnos de la
muestra fume.
b. Calcular la probabilidad de que más del 90% de los alumnos de la
muestra fume.
Ejercicio 1-2
1. Supongamos que el 30% de la población viviendas de un país tienen más
de un cuarto de aseo. Con el fin de obtener una información más precisa
se toma una muestra aleatoria de tamaño 400 viviendas. Obtener:
𝑃(0.25 < 𝑝Ƹ < 0.32) y 𝑃(𝑝Ƹ > 0.33).
2. Supóngase que 𝑝 = 0.4 representa la proporción de familias que poseen
un determinado electrodoméstico. Si se toma una muestra de tamaño
225 familias, calcular la probabilidad de que en esta muestra se
encuentren más de 100 familias que posean tal electrodoméstico.
Ejercicio 3
Un medicamento para malestar estomacal tiene la advertencia de que
algunos usuarios pueden presentar una reacción adversa a él, más aún, se
piensa que alrededor del 3% de los usuarios tienen tal reacción. Si una
muestra aleatoria de 150 personas con malestar estomacal usa el
medicamento, encuentre la probabilidad de que la proporción de la
muestra de los usuarios que realmente presentan una reacción adversa
exceda el 4%.
Nivel de confianza
Mide la fiabilidad del intervalo de probabilidad, esto es, la probabilidad
de acertar. Habitualmente se toman valores como 0.90, 0.95 o 0.99,
correspondientes a valores de (nivel de significancia) de 0.10, 0.05 y 0.01,
probabilidad de equivocarse.
Por ejemplo: un 95% de confianza implica que el 95% de todas las
muestras daría un intervalo que incluye el parámetro que se esté
estimando y que sólo el 5% de las muestras darían un intervalo erróneo.
Estimación
La estimación estadística se divide en dos grandes grupos: la estimación
puntual y la estimación por intervalos.
La estimación puntual consiste en obtener un único número, calculado a
partir de las observaciones muestrales y que es utilizado como estimación
del valor del parámetro poblacional .
En la estimación por intervalos se obtienen dos puntos (un extremo inferior
y otro superior) que definen un intervalo sobre la recta real, el cual
contendrá con cierta seguridad el valor del parámetro (𝜃).
Propiedades de los estimadores
Insesgado: un estimador es insesgado si su valor esperado es igual al
parámetro poblacional. Es decir, no tiene sesgo (E(𝜃)=
መ 𝜃)
Eficiencia: un estimador es más eficiente o preciso que otro, si la varianza
del primero es menor que la del segundo.
Consistencia: también llamada robustez, se utiliza cuando no es posible
emplear estimadores de mínima varianza. El requisito mínimo deseable
para un estimador es que a medida que el tamaño de muestra crece, el
valor del estimador tiende a ser el valor del parámetro.
Muestreo
¿Qué entienden por muestreo?
¿Por qué se aplica un muestreo?
Muestreo
El muestreo es aquella rama de la estadística que estudia los procesos
estadísticos para seleccionar un subconjunto de observaciones o muestra
de una población de interés, con el propósito de obtener conclusiones
sobre toda la población.
Cuando el muestreo se realiza siguiendo un plan probabilístico o una
función de determinadas características, se dice que es un muestreo
probabilístico.
Muestreo
Por esto, en un muestreo probabilístico se deben cumplir las siguientes
condiciones:
Se puede definir el total de muestras posibles que pueden seleccionarse de
la población de acuerdo con el procedimiento de muestreo.
Toda muestra del universo o población debe tener una probabilidad 𝑝(𝑠) de
selección mayor que cero.
𝑝(𝑠) debe ser conocida y preestablecida como parte del diseño.
Importancia del muestreo
Ospina (2001) enuncia tres situaciones principales donde conviene seleccionar
una muestra:
Cuando la población es grande y su estudio completo excede los recursos
disponibles.
Cuando las unidades poblacionales son suficientemente homogéneas con
respecto a la característica o variable a medir.
Cuando el proceso de medición es destructivo.
Definiciones de interés
Universo: conjunto de todos los elementos o individuos bajo estudio o sobre los
cuales se va a extender las conclusiones a partir de la muestra. Comúnmente el
universo es identificado como la población objetivo.
Población de muestreo: es el universo accesible, o parte del universo al cual
realmente se puede acceder en el estudio. Es decir, es el conjunto de
elementos susceptibles de ser medidos u observados.
Población estadística: conjunto de mediciones hechas sobre los elementos de
un universo. Cada variable medida tiene una población estadística distinta. Si un
conjunto de variables son medidas simultáneamente sobre cada elemento,
entonces la población estadística es una población estadística multivariada.
Definiciones de interés
Unidad elemental: unidad, elemento o individuo sobre el cual se desea realizar
una observación, medición o conteo.
Variables de estudio: características a ser medidas, observadas o contadas en las
unidades o elementos de la población de interés. Pueden ser cuantitativas
(discretas o continuas) o cualitativas (atributos, categorías).
Tamaño de muestra: el total de unidades elementales que serán seleccionadas
de la población de acuerdo con el diseño muestral. El tamaño muestral será
indicado por 𝑛 y el de la población por 𝑁.
Muestra piloto: es una pequeña muestra extraída para obtener información y que
sirve de guía para el diseño del estudio principal; puede servir para estimar las
cantidades necesarias para el cálculo del tamaño de la muestra final a tomar.
Sesgos y errores en el muestreo
Una muestra perfecta debería ser una versión a escala de la población,
pero tal muestra no existe para poblaciones complejas, y aún si existiera
no podríamos determinar que es perfecta sin medir a toda la población
(Lohr, 2000).
La muestra será considerada como una muestra representativa, en el
sentido de que cada unidad muestreada representará las características
de una cantidad conocida de unidades en la población.
Sesgos en el muestreo
Cuando la muestra no es representativa, corresponde a una muestra sesgada. Los
sesgos posibles en el muestreo son:
Sesgo de selección: ocurre cuando alguna parte de la población objetivo no
está representada en la muestra. Casos de muestreo con este tipo de sesgo
son las muestras de conveniencia, en éstas se incluyen las unidades que son
fáciles de elegir o que probablemente responderán una encuesta.
Sesgo de medición: ocurre cuando el instrumento con el que se mide tiende a
desviarse del valor verdadero en alguna dirección. En encuestas suele suceder
porque las personas mienten, no entienden las preguntas, olvidan, cambian su
respuesta según quien pregunta, o dicen lo que el entrevistador quiere oír.
Errores en el muestreo
Errores de muestreo: es el resultado de considerar una muestra y no a
toda la población. Estos errores se reportan en términos probabilísticos.
Errores que no son de muestreo: imprecisiones que no se pueden atribuir a
la variabilidad entre las muestras. Los dos tipos de sesgos mencionados
previamente ocasionan errores que no son de muestreo.
¿Cuántas unidades muestrear?
En general se observa que:
Con 𝑛 grande y 𝜎 2 pequeño, se obtienen estimaciones más precisas de los
parámetros.
Si 𝑁 es relativamente grande, influye poco en la precisión de los estimadores.
Para una precisión dada, 𝑛 está relacionado con la variabilidad poblacional.
El tamaño muestral depende del parámetro a estimar.
La confiabilidad deseada afecta directamente el tamaño muestral.
Tamaño de muestra para variables
cuantitativas
Para una población infinita: cuando se desconoce el total de unidades de
observación que la integran.
𝑍 1−𝛼 𝜎 2
2
𝑛=
𝑑
Para una población finita: cuando se conoce el total de unidades de
observación que la integran
𝑁𝑍 2 𝛼 𝜎2
1− 2
𝑛=
𝑑2 𝑁 − 1 + 𝑍 2 𝛼 𝜎2
1− 2
Donde
𝑛 = tamaño de la muestra.
𝑁 = tamaño de la población.
𝑍 𝛼
1− 2
= valor crítico, calculado en las tablas del área de la curva normal
𝜎 2 = varianaza de la población en estudio (puede obtenerse de estudios similares o
pruebas piloto.
𝑑 = 𝑒 = nivel de precisión absoluta con la que se desea estimar el parámetro.
También, conocido como error estándar (𝜀) o error máximo prefijado y está dado
por:
𝜎
𝑑= 𝑍 𝛼
𝑛 1− 2
Tamaño de muestra para variables
cualitativas
En las investigaciones donde la variable principal es de tipo cualitativo, que se
reporta mediante la proporción del fenómeno en estudio en la población de
referencia, la muestra se calcula a través de las fórmulas:
Para una población infinita
𝑍2 𝛼 𝑝𝑞
1− 2
𝑛=
𝑑2
Para una población finita
𝑁𝑍 2 𝛼 𝑝𝑞
1− 2
𝑛=
𝑑2 𝑁 − 1 + 𝑍2 𝛼 𝑝𝑞
1− 2
Donde
𝑝 = proporción aproximada del fenómeno en estudio en la población de
referencia
𝑞 = 1 − 𝑝 proporción de la población de referencia que no presenta el
fenómeno en estudio
𝑍, 𝑁 𝑦 𝑑 se explicaron en los tamaños de muestras para variable cuantitativas.
Nota: La suma de 𝑝 y 𝑞 siempre debe dar uno.
Ejemplo
Se desea estimar el peso promedio de los sacos que son llenados por un
nuevo instrumento en una industria. Se conoce que el peso de un saco que
se llena con este instrumento es una variable aleatoria con distribución
normal. Si se supone que la desviación típica del peso es de 0.5 kg.
Determine el tamaño de muestra necesario para determinar una
probabilidad igual a 0.95 de que el estimado y el parámetro se diferencien
en menos de 0.1 kg.
Ejercicios
1. De una población de 1176 adolescentes, de la ciudad de Manizales, se
pretende conocer la aceptación de un nuevo producto dietario. Se desea
tomar una muestra para saber la cantidad de adolescentes a entrevistar y con
ello tener una información adecuada, con un error standard de 1.5% al 90% de
confiabilidad.
2. ¿A cuántas familias tendríamos que estudiar para conocer la preferencia del
mercado en cuanto a las marcas de shampoo para bebé, si se desconoce la
población total?. Con: seguridad = 95%; precisión = 3%; proporción esperada =
asumamos que puede ser próxima al 5%. Nota: si no tuviésemos ninguna idea de
dicha proporción utilizaríamos el valor 𝑝 = 0.5(50%) que maximiza el tamaño
muestral.
Ejercicios
3. ¿A cuántas familias tendríamos que estudiar para conocer la preferencia del
mercado en cuanto a las marcas de shampoo para bebé, si se conoce que el
número de familias con bebés en el sector de interés es de 15,000?. Con:
seguridad = 95%; precisión = 3%.
4. Queremos ajustar una máquina de refrescos de modo que el promedio del
líquido dispensado quede dentro de cierto rango. La cantidad de liquido
vertido por la máquina sigue una distribución normal con desviación estándar
0.15 decilitros. Deseamos que el valor estimado que se vaya a obtener
comparado con el verdadero no sea superior a 0.2 decilitros, y considere una
confianza del 95%. ¿De qué tamaño debemos escoger la muestra?.
Diseños muestrales o métodos de
muestreo
La elección depende de los objetivos de la investigación y del tipo de
análisis que se quiera implementar. Pero cualquier método de muestreo que
se seleccione deberá estar supeditado al principio básico de conocer a
priori la probabilidad de seleccionar un elemento de la población a fin de
incluirlo en la muestra.
Cabe mencionar los siguientes
métodos básicos
Muestreo aleatorio simple (M.A.S), con o sin reemplazo.
Muestreo aleatorio estratificado (M.A.E).
Muestreo por conglomerados.
Muestreo sistemático.
Diseños muestrales avanzados (muestreos polietápicos)