INFERENCIA
ESTADÍSTICA
Universidad Mariano Gálvez de Guatemala
Facultad de Ciencias Médicas y de la Salud
Sede Quetzaltenango
Bioestadística Sección C
DISTRIBUCIONES
MUESTRALES
Muestreo
Existen 2 tipos de muestreo, el muestreo probabilístico y el
muestreo no probabilístico.
Muestreo probabilístico
Definición
Una muestra probabilística es una muestra extraída de una
población de tal manera que todo miembro de esta última tenga
una probabilidad conocida de estar incluido en la muestra.
Muestreo aleatorio
simple
Definición
Si se extrae una muestra de tamaño n de
una población de tamaño N, de tal
manera que cada muestra posible de
tamaño n tenga la misma probabilidad de
ser seleccionada, la muestra recibe el
nombre de muestra aleatoria simple
Cuando se utiliza el muestreo con reemplazo, cada miembro de la
población está disponible para la extracción.
Ejemplo:
Suponga que se extrae, una muestra de una población de pacientes
antiguos de un hospital, con lo par te de un estudio de duración de
la internación. Supóngase que el muestreo comprende l a selecci6n
de una muestra tomada de los expedientes del depar tamento de
archivo médico de los pacientes dados de alta.
En el muestreo con reemplazo se procedería como sigue: se
selecciona un expediente para formar par te de la muestra, se
registra la duración de la internación y se regresa el expediente el
al estante.
Muestreo sin reemplazo, el expediente extraído no se regresaría
al estante después de haber registrado la duración de la
internación, sino que se separaría hasta que se extrajera la
muestra completa.
Si se sigue este procedimiento, un expediente dado aparecería
en la muestra sólo una vez.
Ejemplo
Se desea seleccionar una muestra aleatoria simple utilizando la
siguiente tabla. La población de interés consta de los 150
valores de concentración de azúcar en la sangre que se ha
extraído en ayunas.
Se desea extraer de esta población, una muestra aleatoria simple
de tamaño 10 utilizando los números aleatorios de la tabla.
Se debe localizar un punto de partida aleatorio en la tabla
Tabla de la muestra del ejemplo anterior
Ejercicio:
Utilice la tabla anterior de 150 pacientes, para generar una
muestra aleatoria simple de tamaño 10.
Distribuciones
muestrales
Definición
La distribución de todos los
valores posibles que pueden tomar
alguna estadística, calculados a
partir de muestras del mismo
tamaño extraídas al azar de la
misma población, se conoce como
distribución muestral de esa
estadística.
Para construir pueden construirse
empíricamente cuando se obtienen de una
población finita, discreta. Para construir
una distribución muestral:
1. De una población finita de tamaño N, se
extraen al azar todas las muestras
posibles de tamaño n.
2. Se calcula la estadística de interés para
cada muestra.
3. Se enlistan en una columna los
diferentes valores observados de la
estadística y en otra columna, la
frecuencias correspondiente de
ocurrencia de cada uno de esos valores.
Distribución de la media de la muestra
Es una importante distribución para la distribución
muestral.
σ 𝑥𝑖
Media: 𝜇= 𝑁
σ (𝑥 𝑖 − 𝜇) 2
Varianza: 𝜎2 =
𝑁
σ (𝑥 𝑖 − 𝜇) 2
𝑆2 = 𝑁−1
Ejemplo:
Se tiene una población de tamaño N=5
que consta de las edades de 5 niños,
pacientes externos de un centro de
enfermedades. Las edades son las
siguientes:
X1=6
X2=8
X3=10
X4=12
X5=14
Ejemplo /Solución:
Se extraerán de esta población todas las muestras posibles de
tamaño n=2.
Encuentre la media, varianza.
σ 𝑥𝑖 50
Media: 𝜇= = = 10
𝑁 5
σ (𝑥 𝑖 − 𝜇) 2 40
Varianza: 𝜎2 = 𝑁
= 5
=8
2 σ (𝑥 𝑖 − 𝜇) 2 40
𝑆 = = = 10
𝑁 −1 4
En este ejemplo se observa que cuando el muestreo es con
reemplazo, hay 25 muestras posibles.
Cuando el muestreo es con reemplazo, el número de muestras
posibles es igual a 𝑁 𝑛
Puede construirse la distribución de muestreo de 𝑥ഥ enumerando
los diferentes valores de 𝑥ഥ en una columna y su frecuencia de
ocurrencia en otra.
Distribución muestral de 𝒙
ഥ calculada a
partir de la tabla anterior
Se observa que las probabilidades
individuales son mayores que 0 y
su suma es igual a 1.
Media de la media
Ahora se calcula la media, que se denotará como 𝜇 𝑥ത , de la
distribución muestral.
Para hacerlo, se suman las 25 medias de las muestras y se
divide entre 25:
σ 𝑥𝑖 6+7+7+8+⋯14 250
𝜇 𝑥ത = = = = 10
𝑁𝑛 25 25
Se observa que la media de la distribución muestral de 𝑥ത
tiene el mismo valor que la media de la población original.
Varianza
Se calcula la varianza de 𝑥ഥ ,que se denotará por 𝜎𝑥ഥ2 como:
σ 2
(𝑥 𝑖 − 𝜇 ഥ
𝑥 )
𝜎𝑥ഥ2 =
𝑁𝑛
100
𝜎𝑥ഥ2 = =4
25
Se observa que la varianza de la distribución muestral no es igual que la
varianza de la población.
Pero si es igual a la varianza de la población dividida entre el tamaño de la
muestra utilizada para obtener la distribución muestral:
𝜎2 8
𝜎𝑥ഥ2 = = =4
𝑛 2
Media de las medias muestrales
Ecuación general:
σ 𝑥ഥ𝑖
𝜇 𝑥ത = 𝑛
𝑁
Varianza
Ecuación:
σ (𝑥 𝑖 − 𝜇 𝑥ഥ ) 2
𝜎𝑥ത2 = 𝑁𝑛
Error estándar
La raíz cuadrada de la varianza de la distribución muestral
se le conoce como error estándar de la media o
simplemente error estándar:
𝜎2
𝜎𝑥2ത =
𝑛
Importante:
Cuando el muestreo es a partir de una población con
distribución normal, la distribución de la media de la muestra
tendrá las siguientes propiedades:
1. La distribución de 𝑥ത será normal.
2. La media, 𝜇 𝑥ത , de la distribución de 𝑥ത será igual a la media de
la población de la cual se extrajeron las muestras-
3. La varianza, 𝜎𝑥ത 2 , de la distribución de 𝑥ത será igual a la
varianza de la población dividida entre el tamaño de la
muestra.
Teorema de límite central
Dada una población de cualquier forma funcional no normal
con una media, 𝜇 y varianza finita, 𝜎 2 , la distribución
muestral de x, calculada a partir de muestras de tamaño n
de esta población, estará distribuida en forma
𝜎2
aproximadamente normal con media 𝜇 y varianza ,
𝑛
cuando el tamaño de la muestra es grande.
Surge una pregunta sobre: ¿qué tan grande debe ser la muestra
para que pueda aplicarse el teorema del límite central? No existe
una respuesta firme y rápida, debido a que el tamaño de la
muestra depende del grado de no normalidad presente en la
población . Una regla empírica señala que, en la mayoría de las
situaciones prácticas, resulta satisfactoria una muestra de
tamaño 30.
Cuando se extraen sin reemplazo muestras de tamaño n a partir de
una población finita de tamaño N y se ignora el orden en el que
fueron extraídos los valores de la muestra, el número de muestras
posibles está dado por la combinación de N cosas, tomadas a la vez.
𝑁 𝑁!
=
𝑛 𝑛! 𝑁 − 𝑛 !
Para las medias de las muestras:
σ 𝑥𝑖
𝜇 𝑥ഥ = 𝑁
𝑛
Para el ejemplo anterior…
𝑁 𝑁! 5!
= = = 10 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑠 𝑝𝑜𝑠𝑖𝑏𝑙𝑒𝑠
𝑛 𝑛! 𝑁 − 𝑛 ! 2! 3!
La media de las 10 medias de las muestras (medias sin
reemplazo) es:
σ 𝑥𝑖 7+8+9+⋯13 100
𝜇 𝑥ഥ = 𝑁 = = = 10
𝑛
10 10
Cuando se muestra sin reemplazo a partir de una población
finita, la distribución de muestreo de 𝑥ഥ tendrá media 𝜇 y
varianza:
𝜎2 𝑁 − 𝑛
∙
𝑛 𝑁−1
𝑁 −𝑛
El factor se conoce como corrección por población finita y
𝑁 −1
puede ignorarse cuando el tamaño de la muestra es pequeño en
comparación con el tamaño de la población .
Para un muestreo CON reemplazo, se toman las siguientes
ecuaciones:
𝜇 𝑥ഥ = 𝜇
2
𝜎2
𝜎𝑥ഥ =
𝑛
𝜎
Error estándar: 𝜎𝑥ഥ = 𝑛
Ejemplo:
De la población con elementos:
4, 5, 6, 8
Extraiga todas las muestras de tamaño 3, con reemplazo y
obtenga las distribuciones muestrales de la media y varianza.
Distribución de las muestras
de tamaño 3 obtenidas de la
población N.
Para la población la media y varianza:
σ 𝑥𝑖 4+5+6+8
Media: 𝜇= = =5.75
𝑁 4
σ (𝑥 𝑖 − 𝜇 ) 2 8.75
Varianza: 2
𝜎 = = = 2.1875
𝑁 4
Para las distribuciones
muestrales:
σ 𝑥𝑖
𝜇 𝑥ഥ =
𝑁𝑛
σ (𝑥 𝑖 − 𝜇 𝑥ഥ ) 2
𝜎𝑥ഥ2 =
𝑁𝑛
Se realizan los cálculos y se
realiza la tabla con el resumen de
los datos
Resultados:
σ 𝑥𝑖
𝜇 𝑥ഥ = =5.75
𝑁𝑛
σ (𝑥 𝑖 − 𝜇 𝑥ഥ ) 2
𝜎𝑥ഥ2 = = 0.7267
𝑁𝑛
Por el teorema del límite central :
2
𝜎2
𝜎𝑥ഥ =
𝑛
𝜎 2 = 𝜎𝑥ഥ 2 n = 3*(0.7267) = 2.1801
El teorema del límite central establece la relación que guarda la muestra
con respecto a la población y cómo a par tir de la muestra podemos obtener
valores puntuales para los parámetros de la población.
Tarea:
(Realice el ejercicio anterior utilizando una muestra de 2).
De la población con elementos:
4, 5, 6, 8
Extraiga todas las muestras de tamaño 2, con reemplazo y
obtenga las distribuciones muestrales de la media y varianza
INTERVALOS
DE
CONFIANZA
Introducción
➢ Un inter valo de conf ianza es una técnica de estimación utilizada
en inferencia estadística que permite acotar un par o varios pares
de valores, dentro de los cuales se encontrará la estimación
puntual buscada (con una determinada probabilidad) .
➢ Permitir calcular dos valores alrededor de una media muestral (uno
superior y otro inferior). Estos valores van a acotar
un rango dentro del cual, con una determinada probabilidad, se va
a localizar el parámetro poblacional.
Intervalo de confianza del 95% para µ
Intervalos de confianza para muestras
pequeñas
Ejemplo:
S u p o n ga q u e un i nv est i ga d o r, i nt er es a d o e n o b t en e r u na e s t i ma ci ó n d el ni v el p ro m ed i o
d e a l gu na en z i ma e n ci e r t a p o b l a ci ó n h um a na , t o ma u na mu e s t ra d e 1 0 i nd i v i d uo s ,
d et er mi na el ni v el d e l a e n zi ma e n ca d a u no y ca l c ul a l a m e d i a m u es t ra 1 X = 2 2 .
S u p ó n ga s e q u e s e sa b e a d e má s q u e l a va ri a b l e d e i nt er é s p r e s e nt a un a d i s t ri b u ci ó n
a p r ox i ma d a m e nt e n o rma l co n u na va r i a n za d e 4 5 . U n i nt er va l o d e c o n f i a n za d e
a p r o x i m a d a me n t e e l 9 5 p o r c i e n t o p a ra µ e s t á d a d o p o r :
ഥ ± 𝟐𝝈 𝒙ഥ
𝒙
45
22 ± 2
10
17.76 , 26.24
La ecuación anterior contiene:
❑ Centro la estimación puntual de µ.
❑ Se reconoce al 2 como un valor de la distribución normal unitaria
que dice dentro de cuántos errores están aproximadamente el 95
por ciento de los valores posibles de X.
❑ z se conoce como coeficiente de confiabilidad.
❑ 𝜎𝑥ഥ es el error estándar, o desviación estándar, de la distribución de
muestreo de X.
Una estimación de intervalo está dado por:
estimador ± (coeficiente de confiabilidad) X (error estándar)
C uando el m ues treo s e realiza a p ar tir d e una d is trib uc ió n no rm al con
varianc ia cono c id a, una es tim ac ió n po r inter valos p ara ,µ p ued e
exp resarse c o m o :
Estimac ió n= 𝒙
ഥ ± 𝒛 (𝟏− 𝜶 ) 𝝈 𝒙ഥ
𝟐
Inte r pretació n :
En el muestreo repetido, a partir de una población con distribución
normal, el 100 (1 - 𝛼 ) por ciento de todos los intervalos de la
ഥ ± 𝒛 (𝟏− 𝜶 ) 𝝈 𝒙ഥ incluirán, a la larga, la media de la población, µ.
forma 𝒙
𝟐
La cantidad 1 – 𝛼 , en este caso 0.95, se conoce como coeficiente
de Confianza
El intervalo 𝒙
ഥ ± 𝒛 (𝟏− 𝜶 ) 𝝈 𝒙ഥ se conoce como intervalo de confianza
𝟐
para µ. Cuando (1 – 𝛼 ) = 0.95, el intervalo recibe el nombre de
intervalo de confianza del 95 por ciento para µ.
Ejemplo 2:
Un fisioterapeuta desea estimar, con el 99 por ciento de confianza,
la media de fuerza máxima de un músculo particular en cierto
grupo de individuos. Se inclina a suponer que los valores de dicha
fuerza muestran una distribución aproximadamente normal con
una varianza de 144. Una muestra de 15 individuos, quienes
participaron en el experimento, proporcionaron una media de 84.3.
En la tabla F, el valor de z que corresponde a un coeficiente de
confianza de .99 es de 2.58. Este es el coeficiente de confiabilidad.
El error estándar es de
En la tabla F, el valor de z que corresponde
a un coeficiente de confianza de 0.99 es de
2.58. Este es el coeficiente de
confiabilidad.
El error estándar es:
144
𝝈 𝒙ഥ = 15
12
𝜎𝑥 = = 3.10
15
El intervalo de confianza de 99% para µ es:
83.4 ± 2.58(3.10)
76.3, 92.3
R. Se dice que se tiene el 99 por ciento de
confianza de que la media de la población esté
entre 76.3 y 92.3
Intervalos de confianza para muestras
grandes
No siempre será posible suponer que la población de interés
muestra una distribución normal. Gracias al teorema del límite
central, esto no será un problema si puede seleccionarse una
muestra lo suficientemente grande.
Se ha aprendido que, para muestras grandes, la distribución
muestral de 𝑥ഥ presenta una distribución aproximadamente
normal sin importar cómo está distribuida la población original.
Ejemplo:
En un estudio del flujo de pacientes a través de las oficinas de
médicos generales, se encontró que, en promedio, una muestra
de 35 pacientes llegaban 17.2 minutos tarde a las citas. Una
investigación previa había demostrado que la desviación
estándar era de 8 minutos aproximadamente.
Se tuvo la sensación que la distribución de la población no era
normal. ¿Cuál es el intervalo de confianza del 90% para µ, la
cantidad de tiempo promedio verdadera de llegada tarde a las
citas?.
Dado que el tamaño de la muestra es bastante grande (mayor de
30) y se conoce la desviación estándar de la población, la
situación se aproxima al teorema del límite central y se supone
que la distribución muestral de 𝑥ഥ presenta una distribución
aproximadamente normal.
Utilizando la tabla F, se encuentra que el coeficiente de
confiabilidad que corresponde a un coeficiente de confianza de
0.90, se aproxima a 1.65
Importante:
Para calcular el valor de z se realiza el siguiente paso:
95% 0.95
𝛼 = 1 − 0.95 El valor 0.975 se busca en la tabla
𝛼 =0.05 el valor de z es de: 1.96
0.05
1 – 2
0.975
Intervalos de confianza para proporción
poblacional
Muchas cuestiones de interés para quien trabaja en el campo de la
salud se relacionan con la proporción de las poblaciones .
Qué proporción de los pacientes que reciben un tipo particular de
tratamiento se recupera?
Qué proporción de alguna población tiene cierta enfermedad?
Qué proporción de una población es inmune a cierta enfermedad?
Para estimar la proporción de una población se procede en la misma
forma que cuando se estima la media de una población. Se extrae
una muestra de la población de interés y se calcula su proporción, 𝑝.
Esta proporción de la muestra se utiliza como el estimador puntual de
la proporción de la población. Se obtiene un intervalo de confianza a
través de la fórmula general:
estimador ± (coeficiente de confiabilidad) X (error estándar)
Intervalos de confianza para la
diferencia de 2 medidas muestrales
Ejercicios: