Técnicas de Muestreo I
Patricia Isabel Romero Mares
Departamento de Probabilidad y Estadı́stica
IIMAS UNAM
noviembre 2018
1 / 28
Ejemplos Muestreo Bietápico
2 / 28
Ejemplo 1
Ejemplo tomado del libro Model Assisted Survey Sampling, de
Särndal, C.E. et. al, Springer Series in Statistics, 1991.
En Suecia hay 284 municipios que se agrupan en 50 conjuntos
(UPM), se toma una m.a.s. de n = 5 conjuntos y dentro de cada
uno de estos se toma una m.a.s. de mi = 3 municipios. Se
desea estimar Y = población total en todo el paı́s.
Los datos son:
(i) Mi mi yij , j = 1, 2, 3 ȳi
19 5 3 41,49,49 46.33
45 8 3 49,49,45 47.67
47 5 3 31,31,35 32.33
50 9 3 39,41,61 47.00
31 7 3 49,51,33 44.33
3 / 28
Ejemplo 1
(yij −ȳi )2
(i) Ŷi = Mi ȳi 2 = 3
Ŝwi Mi2 1
− M1i Ŝwi
2
∑j=1 2 mi
19 231.65 21.33 71.10
45 381.36 5.33 71.07
47 161.65 5.33 17.77
50 423 148 2992.89
31 310.33 97.33 908.41
4 / 28
Ejemplo 1
N n 50
Ŷ = N Ŷ¯ = ∑ Ŷi = (1507.99) = 15, 079.90
n i=1 5
El estimador del total poblacional es 15,080 personas en el
paÌs.
Para calcular la varianza estimada de este estimador,
necesitamos calcular primero la varianza entre UPM.
1 n 2
Ŝb2 = ∑ Ŷi − Ŷ¯ = 11, 413.71, Ahora sı́
n − 1 i=1
N n 2 1
2 1 1 2 1 2
V̂ Ŷ = N − Ŝb + ∑ Mi − Ŝwi
n N n i=1 mi Mi
2 1 1 50
= 50 − (11413.71) + (4061.24)
5 50 5
= 5136169.50 + 40612.40
V̂ Ŷ = 5176781.90
5 / 28
Ejemplo 1
q
V̂ Ŷ = 2275.25
Observe que,
5136169.50
= 0.99
5176781.90
Es decir, el 99 % del valor de la varianza estimada del
estimador del total lo compone la parte de varianza entre UPM.
El intervalo aproximado del 95 % de confianza para el total de
habitantes es:
q
Ŷ ± 1.96 V̂ Ŷ
(10620.41 , 19539.39)
6 / 28
Ejemplo 2
Una empresa que manufactura ropa tiene 90 plantas
localizadas por todo EEUU y quiere estimar el número
promedio de horas que las máquinas de coser estuvieron fuera
de servicio el mes pasado.
Debido a que las plantas están muy diseminadas, se decidió
hacer un muestreo de conglomerados, definiendo a cada
planta como un conglomerado de máquinas de coser y
seleccionar una muestra aleatoria simple de plantas.
Cada planta tiene muchas máquinas y checar el registro de
reparación de cada una de ellas es muy tardado. Por lo tanto,
se usó un muestreo bietápico, es decir, se decidió seleccionar
una muestra aleatoria simple de máquinas en cada una de las
plantas seleccionadas.
7 / 28
Ejemplo 2
Se dispone de suficiente tiempo y dinero para muestrear n = 10
plantas y aproximadamente el 20 % de las máquinas de cada
planta.
El dueño sabe que tiene un total de 4500 máquinas en todas
las plantas.
8 / 28
Ejemplo 2
Planta en horas fuera
muestra Mi mi de servicio ȳi 2
Ŝwi
1 50 10 5,7,9,0,11,2,8,4,3,5 5.40 11.38
2 65 13 4.00 10.67
3 45 9 5.67 16.75
4 48 10 4.80 13.29
5 52 10 4.30 11.12
6 58 12 3.83 14.88
7 42 8 5.00 5.14
8 66 13 3.85 4.31
9 40 8 4.85 6.13
10 56 11 5.00 11.80
9 / 28
Ejemplo 2
Primera forma de solución.
Ya que conocemos M = total de máquinas en la población,
usamos:
Ŷ N ∑ni=1 Mi ȳi 90
Ȳˆ e = = = (240.059) = 4.80
M M n 4500
Con varianza estimada:
1
V̂ Ȳˆ e
= 2
V̂ Ŷ
M
N2 1 1 N n 2 1
2 1 2
= − Ŝb + 2 ∑ Mi − Ŝwi
M2 n N M n i=1 mi Mi
10 / 28
Ejemplo 2
!2
1 n ¯ 2= 1
n
1 n
Ŝb2 = ∑ Ŷi − Ŷ ∑ Mi ȳi − ∑ Mi ȳi = 768.38
n − 1 i=1 n − 1 i=1 n i=1
Por lo tanto,
902
1 1 90
V̂ Ȳˆ e = 2
− (768.38) + (21987.06)
4500 10 90 45002 10
= 0.02732 + 0.009772
= 0.037092
r
V̂ Ȳˆ e = 0.1925
11 / 28
Ejemplo 2
El intervalo aproximado del 95 % de confianza para el número
promedio de horas que las máquinas de coser estuvieron fuera
de servicio el mes pasado es:
4.80 ± 1.96(0.1925)
4.80 ± 0.3775
(4.42 , 5.18)
12 / 28
Ejemplo 2
Segunda forma de solución.
Si no conocemos M = total de máquinas en la población, o no
queremos usar ese dato, estimamos el promedio de horas
fuera de servicio por máquina con un estimador de razón:
Ŷ ∑n Mi ȳi 2400.59
Ȳˆ e = = i=1 = = 4.598
M̂ ∑ni=1 Mi 522
Con varianza estimada:
2
ˆ
n Mi2 ȳi − Ȳ
n 1 e
V̂ Ȳˆ e = 1− ∑ n−1
N nM̄ ˆ 2 i=1
n
1 mi
+ ∑ Mi 1 − Mi Ŝwi2
ˆ 2 i=1
nN M̄
2
13 / 28
Ejemplo 2
ˆ 10 1
V̂ Ȳe = 1− (1236.572)
90 10(52.2)2
1
+ (21987.06)
10(90)(52.2)2
= 0.040339 + 0.008966
= 0.049305
r
V̂ Ȳˆ e = 0.22205
14 / 28
Ejemplo 2
El intervalo aproximado del 95 % de confianza para el número
promedio de horas que las máquinas de coser estuvieron fuera
de servicio el mes pasado es:
4.60 ± 1.96(0.2221)
4.60 ± 0.4352
(4.16 , 5.04)
15 / 28
Ejemplo 3
La misma firma quiere estimar la proporción de máquinas que
han requerido reparaciones mayores. Los datos son de las
máquinas muestreadas en el ejercicio anterior.
Planta Mi mi p̂i = proporción de máquinas
con reparaciones mayores
1 50 10 0.40
2 65 13 0.38
3 45 9 0.22
4 48 10 0.30
5 52 10 0.50
6 58 12 0.25
7 42 8 0.38
8 66 13 0.31
9 40 8 0.25
10 56 11 0.36
16 / 28
Ejemplo 3
∑ni=1 Mi p̂i 176.08
P̂ = = = 0.34
∑ni=1 Mi 522
Con varianza estimada:
n 1 ∑ni=1 Mi2 (p̂i − p̂)2
V̂ P̂ = 1−
N nM̄ ˆ2 n−1
n
1 2 mi p̂i (1 − p̂i )
+ ∑ i M 1 −
ˆ 2 i=1
nN M̄ Mi mi − 1
10 1 1
= 1− (18.44827) + (505.91)
90 10(52.2)2 10(90)(52.2)2
= 0.000602 + 0.000206
= 0.00081
q
V̂ P̂ = 0.0285
17 / 28
Ejemplo 3
El intervalo aproximado del 95 % de confianza para la
proporción de máquinas que han requerido reparaciones
mayores es:
0.34 ± 1.96(0.0285)
0.34 ± 0.056
(0.284 , 0.396)
18 / 28
Ejemplo 4
Con el propósito de conocer la condición de las carreteras y el
costo de su reparación, el Departamento de Transportes de
California dividió a las carreteras que tiene bajo su jurisdicción
en tramos de 1 milla.
Posteriormente se seleccionó una muestra de tramos de 1
milla utilizando muestreo bietápico.
En la primera etapa, se selecciona por m.a.s. una muestra de
carreteras de la lista de todas las carreteras del Departamento
del Estado.
En la segunda etapa, se seleccionan un número de tramos de
1 milla por m.a.s. del total de tramos que tiene cada carretera
seleccionada.
19 / 28
Ejemplo 4
Una vez seleccionada la muestra, los ingenieros expertos en
carreteras visitaron los tramos seleccionados, estudiaron la
condición del pavimento, calificaron la condición del segmento
y estimaron el costo de las reparaciones necesarias.
Para los propósitos de este ejercicio, suponga que hay 352
carreteras en el estado, con una longitud total de 28,950 millas.
Se selecciona una muestra aleatoria simple de 7 carreteras.
Para cada carretera seleccionada, aproximadamente el 10 %
de los tramos de 1 milla que la forman fueron seleccionados.
Los resultados de las evaluaciones fueron los siguientes:
20 / 28
Ejemplo 4
Carretera Longitud Tramos No. de tramos Costo
No. (millas) seleccionados en excelentes condiciones (en miles)
155 102 10 1 96
489 144 14 3 120
283 56 6 0 60
698 118 12 2 108
311 41 4 1 36
358 76 8 1 50
423 69 7 0 38
Por ejemplo, la carretera 155 tiene una longitud de 102 millas.
Se seleccionaron e inspeccionaron 10 tramos de 1 milla de
esta carretera.
Uno de estos tramos fue calificado excelente.
El costo total de las reparaciones de los 10 tramos fue de
$96,000.
21 / 28
Ejemplo 4
a) Estime la proporción de millas de las carreteras del estado
que están en excelentes condiciones. Obtenga un intervalo del
95 % de confianza para esta proporción.
N = 352
n = 7
M = 28950
22 / 28
Ejemplo 4
p̂ (1−p̂ )
Carret Long Tramos No. tramos p̂i Mi p̂i Mi2 (p̂i − P̂)2 Mi2 (1 − mi /Mi ) im −1i
i
No. (millas) seleccionados excelentes
155 102 10 1 0.1 10.2 11.19 93.84
489 144 14 3 0.214 30.86 137.70 242.45
283 56 6 0 0 0 55.30 0
698 118 12 2 0.167 19.67 15.98 157.93
311 41 4 1 0.25 10.25 23.09 94.81
358 76 8 1 0.125 9.5 0.35 80.75
423 69 7 0 0 0 83.96 0
606 80.47 327.57 669.78
n
b = ∑i=1 Mi p̂i = 80.47 = 0.133
P
∑ni=1 Mi 606
2
n 1 ∑ni=1 Mi2 p̂i − P̂
V̂ P̂ = 1−
N nM̄ ˆ2 n−1
n
1 2 mi p̂i (1 − p̂i )
+ ∑ Mi 1 − Mi
ˆ 2 i=1
nN M̄ mi − 1
23 / 28
Ejemplo 4
V
b Pb = 0.00102
+0.0000363
= 0.00106
EE
c P b = 0.0325
Precisión observada: 0.064
Intervalo del 95 % de confianza para la proporción de
segmentos de milla en excelentes condiciones en las
carreteras es:
(0.069, 0.196)
24 / 28
Ejemplo 4
b) Estime el costo promedio por milla y el costo total de las
reparaciones. Obtenga intervalos de 95 % de confianza para
estos costos.
2
b¯
Carret Long Tramos Costo ȳi Mi ȳi Ybi − Y
No. (millas) seleccionados (miles) Y
bi
155 102 10 96 9.6 979.2 66147.64
489 144 14 120 8.57 1234.29 262428.3
283 56 6 60 10 560 26246.64
698 118 12 108 9 1062 115594.4
311 41 4 36 9 369 124614.8
358 76 8 50 6.25 475 61013.03
423 69 7 38 5.43 374.57 120712.3
606 5054.06 776757.1
25 / 28
Ejemplo 4
b = N n b N n
Y =
∑ i n ∑ Mi ȳi
Y
n i=1 i=1
1 1
V
b Yb = N2 − Sb2
b
n N
N n 2 1
1 b2
+ ∑ Mi − Swi
n i=1 mi Mi
1 n b b¯ 2
Sb2 =
b ∑ Yi − Y
n − 1 i=1
1 mi
2
Swi
b = ∑ (yij − ȳi )2
mi − 1 j=1
26 / 28
Ejemplo 4
b = 352
Y (5054.06) = 254146.87
7
1
Sb2 =
b (776757.1) = 129459.5
6
2 1 1
V Y
b b = (352) − (129459.5) = 2245937686
7 352
EE
c Y b = 47391.33
precisión observada: 92886.99
Intervalo del 95 % de confianza para el costo total de
reparaciones en las 352 carreteras del estado:
(161259.88, 347033.87)
27 / 28
Ejemplo 4
Para estimar el costo promedio por milla, sabemos que
M = 28950, entonces usaremos la expresión:
b̄ = Y = 8.78
b
Y e
M
con estimación de su varianza:
254146.87
Vb Yb̄ = = 2.68
e
(28950)2
EE
c Yb̄ = 1.637
e
Precisión observada: 3.209
Intervalo del 95 % de confianza para el costo promedio de
reparaciones por milla:
(5.57, 11.99)
28 / 28