Técnicas de Muestreo I
Patricia Isabel Romero Mares
Departamento de Probabilidad y Estadı́stica
IIMAS UNAM
noviembre 2018
1 / 21
Muestreo Bietápico
2 / 21
Muestreo Bietápico
3 / 21
Muestreo Bietápico
No se censan los conglomerados en muestra, sino que se
toma una muestra de sus elementos.
Por ejemplo, se quiere estimar el número de personas
“desocupadas” en la Ciudad de México.
La población es el conjunto de personas en edad productiva,
de la cual no hay marco.
Si tuviéramos el marco y seleccionáramos una m.a.s. de
personas, serı́a muy costoso que la muestra quedara dispersa
en toda la ciudad.
Para remediar esto, se forman nuevas unidades de muestreo
llamadas Unidades Primarias de Muestreo (UPM). Para el
ejemplo, las UPM podrı́an ser las manzanas, de las cuales sı́
se tiene marco (mapas de la ciudad).
4 / 21
Muestreo Bietápico
Se selecciona al azar (m.a.s.) cierto número de manzanas y de
cada manzana seleccionada se construye el marco de
viviendas, del cual se selecciona una muestra (m.a.s.) de
viviendas que serán las Unidades de Segunda Etapa (USM)
para, posteriormente, censar las personas en edad productiva
de estas viviendas seleccionadas.
También se puede combinar con muestreo estratificado, por
ejemplo, las UPM se pueden agrupar en colonias o sectores
según nivel socioeconómico.
5 / 21
Notación
A nivel poblacional:
N Número de UPM
(se cuenta con un marco)
Mi Número de USM en la UPMi
M = ∑Ni=1 Mi Total de USM
(generalmente no se conoce)
Yij Valor de la medición en la USMj
de la UPMi
Yi = ∑M i
j=1 Yij Total de la UPMi
1 M i
Ȳi = Mi ∑j=1 Yij Promedio de la UPMi
Y = ∑Ni=1 Yi = ∑Ni=1 ∑M i
j=1 Yij Total poblacional
6 / 21
Notación
1
Ȳ = N ∑Ni=1 Yi Promedio de los totales de UPM
Y Y
Ȳe = = Media por elemento
M ∑N
i=1 Mi
M 2
2 = ∑j=1 ( ij i )
i Y −Ȳ
Swi Mi −1 Varianza entre USM de la UPMi
1
2
Sb2 = N−1 ∑Ni=1 Yi − Ȳ Varianza entre totales de UPM
Sb2 >> Swi
2
7 / 21
Notación
Si se considera una m.a.s. para UPM y una m.a.s. para USM:
A nivel muestral:
n Número de UPM en muestra
mi Número de USM muestreadas en la UPMi
yij Medición de la USMj en muestra
de la UPMi en muestra
Ȳˆ i = ȳi = 1
mi
m i
∑j=1 yij Promedio muestral de las USM de la UPMi
Ŷi = Mi Ȳˆ i Total estimado de la UPMi
Mi es conocido ya que se refiere a
la UPMi en muestra
8 / 21
Notación
2
Ŝb2 = 1
n−1 ∑ni=1 Ŷi − Ŷ¯ Varianza estimada entre UPM
2 = 1 m 2
Ŝwi mi −1
i
∑j=1 (yij − ȳi ) Varianza estimada entre
USM dentro de la UPMi
Ŷ¯ = 1n ∑ni=1 Ŷi = n1 ∑ni=1 Mi Ȳˆ i Promedio de totales
estimados de UPM
9 / 21
Estimador del Total poblacional
N n
Ŷ = N Ŷ¯ = ∑ Ŷi
n i=1
N n N n 1 mi
= M ȳ = M
∑ i i n ∑ i mi ∑ yij
n i=1 i=1 j=1
n mi
N Mi
= ∑ ∑ n mi yij
i=1 j=1
n mi
= ∑ ∑ fij yij
i=1 j=1
10 / 21
Estimador del Total poblacional
Donde, fij es el factor de expansión.
Recordando el ejemplo anterior,
P (vivienda j de la manzana i) = P (vivienda j | manzana i) ×
P (manzana i)
mi n
=
Mi N
Si mi ∝ Mi , es decir, M
mi = k el diseño es autoponderado, es
i
decir, los factores de expansión son iguales fij = f = Nn k, ∀j, ∀i.
11 / 21
Varianza del estimador del Total
N
2 1 1 N 1 1
Sb2 + Mi2 2
V Ŷ = N − ∑ − Swi
n N n i=1 mi Mi
| {z } | {z }
(1) (2)
(1) Es el 90 %-95 % del valor de V Ŷ .
(2) Es cero si mi = Mi , es decir, si se censan las UPM. Es el
caso del muestreo de conglomerados.
Es común que los valores de Yij sean semejantes dentro de
cada UPM. Esto hace que los Swi 2 sean pequeños. Los totales
Yi de UPM difieren mucho si los números Mi de USM dentro de
cada UPM son diferentes. Además, Sb2 es una varianza entre
totales, no entre valores individuales. Todo esto hace que la
primera parte de V(Ŷ) constituya gran parte de su valor.
12 / 21
Varianza del estimador del Total
Como los valores de las Yij tienden a ser parecidos dentro de
cada una de las UPM, entonces se genera una correlación,
llamada correlación intraconglomerado.
Esta correlación hace que la información tenga cierta
redundancia, lo que se refleja en varianza de los estimadores
mayor que la que se obtendrı́a con un muestreo directo
unietápico de las unidades.
13 / 21
Estimador de la varianza
La varianza del estimador del Total se estima con:
N n 2 1
2 1 1 2 1 2
V̂ Ŷ = N − Ŝb + ∑ Mi − Ŝwi
n N n i=1 mi Mi
Donde: 1 n ¯ 2
Ŝb2 = ∑ i Ŷ − Ŷ
n − 1 i=1
" #2
1 n 1 n
= ∑ Mi Ȳˆ i − n ∑ Mi ȳi
n − 1 i=1 i=1
" #2
1 n 1 n
= ∑ Mi ȳi − n ∑ Mi ȳi
n − 1 i=1 i=1
El intervalo aproximado del (1 − α)100 % de confianza para Y:
q
Ŷ ± z1−α/2 V̂ Ŷ
14 / 21
Estimador de la Media por elemento (Razón)
Ŷ
Ȳˆ e =
M̂
N n
n ∑i=1 Ŷi
= N n
n ∑i=1 Mi
∑ni=1 Ŷi
=
∑ni=1 Mi
∑ni=1 Mi ȳi
Ȳˆ e =
∑ni=1 Mi
15 / 21
Varianza del estimador de la Media por elemento
2
ˆ
n 1 N Mi2 Ȳi − Ȳe
V Ȳe = 1− ∑ N −1
N nM̄ 2 i=1
N 2
1 2 mi Swi
+ ∑ Mi 1 − Mi mi
nN M̄ 2 i=1
Con estimador
2
ˆ
n Mi2 ȳi − Ȳ
n 1 e
V̂ Ȳˆ e = 1− ∑ n−1
N nM̄ ˆ 2 i=1
n 2
1 2 mi Ŝwi
+ ∑ Mi 1 − Mi mi
ˆ 2 i=1
nN M̄
ˆ = ∑n Mi .
donde M̄ i=1 n
16 / 21
Estimador de la Media por elemento
Si se conoce M, el total de USM en la población, otra forma de
estimar la media por elemento es:
Ŷ N n
Ȳˆ e = = ∑ Mi ȳi
M Mn i=1
Con varianza y estimador de varianza:
1
V Ȳˆ e
= 2
V Ŷ
M
1
V̂ Ȳˆ e
= 2
V̂ Ŷ
M
17 / 21
Estimador de una Proporción
∑ni=1 Mi p̂i
P̂ =
∑ni=1 Mi
y
donde, p̂i es la proporción en la UPMi , es decir, p̂i = ∑m i ij
j=1 mi y
1 Uij tiene la caracterı́stica A
yij =
0 Uij no tiene la caracterı́stica A
El estimador de la varianza del estimador de la proporción es:
2
n 1 ∑ni=1 Mi2 p̂i − P̂
V̂ P̂ = 1−
N nM̄ ˆ2 n−1
n
1 2 mi p̂i (1 − p̂i )
+ ∑ i M 1 −
ˆ 2 i=1
nN M̄ Mi mi − 1
18 / 21
Tamaño de muestra
Una forma de calcular el tamaño de muestra, que se utiliza en
la práctica es la siguiente:
Si se desprecia la variación entre USM dentro de las UPM y se
fija la precisión δ y la confianza 1 − α entonces,
s
1 1
q
δ = z1−α/2 V Ŷ = z1−α/2 N 2 − Sb2
n N
despejando n:
Nz21−α/2 Sb2
n=
Nδ 2 + z21−α/2 Sb2
n es el número de UPM a muestrear.
Cuántas USM? Lo menos posible (de 2 a 5).
19 / 21
Tamaño de muestra
Raj (1998) demuestra que si Mi = M para toda i y se van a
muestrear m USM en cada una de las n UPM, y además se
tiene un costo C = C1 n + C2 nm,
entonces, los mejores valores
de n y m para los cuales V Ŷ es mı́nima para un costo C dado,
se calculan utilizando el método de multiplicadores de
Lagrange, construyendo la función
G (n, m, λ ) = V Ŷ + λ (C1 n + C2 nm − C)
derivando G con respecto a n y m, igualando a cero y
eliminando λ se tiene:
p
C1 /C2
m = MSw 1/2 ,
Sb2 − MSw2
2
Swi
donde Sw2 = ∑Ni=1 N
20 / 21
Tamaño de muestra
Y n se calcula de:
C = C1 n + C2 nm
= n (C1 + C2 m)
C
n =
C1 + C2 m
y se sustituye la expresión para m.
21 / 21