Muestreo Aleatorio Estratificado: Guía Completa
Muestreo Aleatorio Estratificado: Guía Completa
Introducción
Se ha visto el diseño muestral del muestreo aleatorio simple que es sencillo de aplicar,
aunque si la población en estudio es muy heterogénea es conveniente agrupar las unidades de
Por ejemplo, supongamos que deseamos tomar una muestra de una facultad para estimar
el número medio de horas de estudio que dedican los alumnos. Se puede observar que a priori
la muestra puede considerarse tanto por curso o en sentido global.
Ante estas dos formas de actuar, intuitivamente se puede apreciar que en ii ) la muestra va
a ser más representativa de la población, ya que va a estar formada por unidades de todas las
subpoblaciones y en consecuencia el error de muestreo será menor.
Si utilizamos i ) nos encontramos que tendremos que seleccionar n′ unidades n′ > n para
tener un error de muestreo similar al de ii ) con lo cual los costes aumentan.
1
¿Cuáles son las razones fundamentales para utilizar el muestreo estratificado?
la población.
que Lh=1 Nh = N .
P
Nh
Wh =
N
PL
para todo h = 1, . . . , L, de modo que h=1 Wh = 1.
En cada estrato se extrae una muestra sh de tamaño nh que estará formada por unidades
de Uh , de este modo, en cada estrato h se define el diseño muestral (Sh , Ph (·)) .
En consecuencia, el espacio muestral S está formado por S = S1 × S2 × · · · × SL y para todo
para todo s ∈ S.
nh
Al cociente fh = Nh
se le denomina fracción de muestreo o tasa de muestreo del estrato
h.
2
h
πkl = πkl si k y l están en el mismo estrato h.
Es decir
πk = πkh si k ∈ Uh
(
h
πkl si k, l ∈ Uh
πkl = h h′
πk πl si k ∈ Uh y l ∈ Uh′
En el caso en que en cada estrato se realice un mas(Nh , nh ) se dice que el diseño muestral
es aleatorio simple estratificado.
h nh (nh − 1)
πkl = πkl =
Nh (Nh − 1)
si k, l ∈ Uh .
nh nh′
πkl =
Nh Nh′
si k ∈ Uh y l ∈ Uh′
Parámetros a estimar
Sea X la variable a estudiar. Se denota por Xhi el valor de la variable X sobre la unidad i
del estrato h. Ası́ se identifican las unidades con dos subı́ndices: uno para el estrato y otro para
el lugar que ocupa en el estrato.
3
Varianza poblacional del estrato h
Nh
1 X 2
σh2 = Xhk − X h
Nh k=1
L
X
X= Wh X h
h=1
Demostración:
N L Nh
1 X 1 XX
X= Xi = Xhi =
N i=1 N h=1 i=1
L Nh L L
1 X Nh X 1 X X
Xhi = Nh X h = Wh X h
N h=1 Nh i=1 N h=1 h=1
es decir
Demostración:
Nh
L X
X
N σ2 = (Xhi − X)2 =
h=1 i=1
Nh
L X
X
((Xhi − X h ) + (X h − X))2 =
h=1 i=1
XL XNh Nh
L X
X
2
(Xhi − X h ) + (X h − X)2 =
h=1 i=1 h=1 i=1
L
X L
X
Nh σh2 + Nh (X h − X)2
h=1 h=1
4
Por tanto
L
X L
X
2
σ = Wh σh2 + Wh (X h − X)2
h=1 h=1
Observación: Cuanto más pequeño sea el término que mide la variabilidad dentro de los
estratos
L
X
Wh σh2
h=1
es decir, hay más homogeneidad dentro de los estratos, mayor será el término
L
X
Wh (Xh − X)2
h=1
Consideramos un diseño muestral (S, P (·)) definido sobre una población estratificada U a
es decir, se puede expresar como una suma de parámetros lineales sobre cada estrato.
De este modo, a partir de estimadores insesgados de θh obtenemos un estimador insesgado
de θ, es decir,
L
X
θb = θbh
h=1
y
L
X
Vb (θ)
b = Vb (θbh )
h=1
5
Esto lleva a la conclusión de que interesa obtener buenos diseños en los estratos que pro-
de modo que
L X
X ak X k
θb =
h=1 k∈s
πkh
h
Se tiene que
L
X
X= Wh X h
h=1
1 − fh 2
V Xh = Sh
nh
donde
nh
fh =
n
y por tanto el estimador de la varianza es
1 − fh 2
Vb X h = Sbh
nh
donde
1 X b 2
Sbh2 = Xk − X h
nh − 1 k∈s
h
6
En cuanto a las varianzas
L L
X Nh2 b X Nh2 1 − fh 2
V X =
b V Xh = Sh =
h=1
N2 h=1
N 2 nh
" L L
#
1 X Nh2 Sh2 X Nh2 nh 2
− S =
N 2 h=1 nh h=1
nh Nh h
" L L
#
1 X Nh2 Sh2 X
− Nh Sh2 =
N 2 h=1 nh h=1
" L L
#
X W 2S 2 X W h 2
h h
− Sh
h=1
n h
h=1
N
Por otro lado, el estimador del total X en el muestreo aleatorio estratificado, dado que
X = N X, se obtiene de manera directa que
L
X
X
b= Nh X
b
h
h=1
L L
X Nh2 Sbh2 X
Vb X
b = − Nh Sbh2
h=1
n h
h=1
Se tiene que
L
X
Pb = Wh Pbh
h=1
donde
1 X
Pbh = Ik
nh k∈s
h
7
Se puede demostrar que
L
X Nh2 (1 − fh )Nh
V P
b = Ph (1 − Ph ) =
h=1
N 2 nh (Nh − 1)
L
X 1 − fh Nh
Wh2 Ph (1 − Ph )
h=1
nh Nh − 1
Y el estimador de la varianza es
L
X (1 − fh ) b
Vb Pb = Wh2 Ph (1 − Pbh )
h=1
nh − 1
Ejemplo
Una empresa de publicidad, interesada en invertir en televisión, decide realizar una encuesta
para estimar el número promedio de horas por semana que se ve la televisión en los hogares de
una determinada comunidad.
mayores con pocos niños en casa. Hay 155 hogares en A, 62 en B y 93 en la zona rural. Es
decir, tenemos N1 = 155, N2 = 62 y N3 = 93 con N = 310.
Supongamos que se toma un muestreo estratificado. La firma publicitaria tiene suficiente
A B R
35 28 26 41 27 4 49 10 8 15 21 7
43 29 32 37 18 41 25 30 14 30 20 11
36 25 29 31 12 32 34 24
39 38 40 45
28 27 35 34
8
Se considera el siguiente programa en R:
9
Asignación de muestras en estratos (afijaciones)
Afijación uniforme
nh r
fh = =
Nh Nh
10
Afijación proporcional
nh n
= =f
Nh N
para todo h = 1, . . . , L.
Es decir, la fracción de muestreo en cada estrato es la misma y es igual a la fracción de
muestreo global. El valor de los pesos o ponderaciones de cada estrato se extraen de la muestra:
Nh nh
Wh = =
N n
11
Afijación óptima
Proposición
siendo C0 un coste fijo del muestreo y Ch el coste de muestrear una unidad en el estrato h.
La varianza de la media es mı́nima (fijando un valor de coste C ∗ ) y el coste es mı́nimo
(fijando una varianza de la estimación de la media V ∗ ) cuando
Wh Sh
nh ∝ √
Ch
o equivalentemente
Nh Sh
nh ∝ √
Ch
Demostración:
mı́nV (X)
b̄
nh
Se define la función
L L
! " L
#
X W 2S 2
h h
X W 2S 2
h h
X
∗
ϕ(nh , λ) = − + λ C0 + nh Ch − C
h=1
nh h=1
Nh h=1
Se toma la derivada
∂ Wh2 Sh2
ϕ(nh , λ) = − 2 + λCh = 0
∂nh nh
12
De donde se deduce que
Nh Sh
nh = √ ⇒
λCh
Nh Sh
nh ∝ √
Ch
mı́n C
nh
∂ W 2S 2
ϕ(nh , λ) = Ch − λ h2 h = 0
∂nh nh
de donde
p
λWh2 Sh2
nh = ⇒
Ch
Wh Sh
nh ∝ √
Ch
Valores exactos de nh
Estos valores dependen de cual de las dos condiciones se tienen que verificar.
Si se cumple la primera condición
L
X
C0 + nh Ch = C ∗
h=1
entonces
(C ∗ − C0 )Nh Sh
√
Ch
nh = L
P √
Nh Sh Ch
h=1
En el segundo caso, si
L L
X W 2S 2 X W 2S 2
h h
− h h
=V∗
h=1
nh h=1
Nh
13
entonces
PL √
Nh Sh Nl Sl Cl
nh = l=1
√ L
2
P
Ch N 2 V ∗ + Nh Sh
h=1
Observaciones: Con la afijación óptima se toma una muestra más grande en un estrato si:
Afijación de Neyman
En el caso de que no haya diferencias entre los costes de un estrato a otro (Ch = c para
todo h = 1, . . . , L) se tiene un caso particular de la afijación óptima con lo cual
C = C0 + nc,
Es decir, el coste total solo depende de n y no de cuál sea la afijación y no se impone ninguna
Nh Sh
nh ∝ √ = Nh Sh
Ch
y la asignación óptima para un coste fijo C ∗ se convierte en una asignación óptima para un n
fijo (si dan C ∗ , C0 y c están dando n).
se obtiene
Nh Sh
nh = n L
P
Nl Sl
l=1
Observación: No tiene sentido fijar V ∗ y calcular nh para que C sea mı́nima, pues C no
depende de nh .
14
En la afijación de Neyman la varianza de la media es
L
!2 L
1 X 1 X
V X
b̄ = Wh Sh − Wh Sh2
n h=1
N h=1
En la práctica en muy pocas ocasiones se conocen los valores de las cuasivarianzas S2h
L L
X 1 2 2 1 X
V (X)
b̄ = Wh Sh − Wh Sh2
h=1
n
b h N h=1
| nh − nbh |
M = máx
h=1,...,L n
bh
15
Formación de estratos
los valores que sirven de frontera entre un estrato y otro. No obstante la primera vez que se
realiza un estudio es preciso que consideremos algún procedimiento que nos permita construir
estratos
Una vez determinado el número de estratos hay que definirlos; para ello hay diversos pro-
cedimientos basados en una variable auxiliar (o en la variable en estudio).
Entre ellos, se encuentran:
Regla de Ekman: los extremos de los estratos se determinan de modo que el producto del
peso del estrato por su rango de variación sea constante, es decir,
Wh máx {Xhi } − mı́n {Xhi } = cte
i i
producto del peso del estrato por la cuasidesviación tı́pica sea constante, es decir,
Wh Sh = cte
16
Estos criterios tienen todos su base en que optimizan la dispersión de la varianza en los
Ejemplo
√ √
Ingresos Frecuencias Frecuencias Frecuencias Acumuladas
100-150 11 3,32 3,32
150-200 14 3,74 7,06
200-250 9 3,00 10,06
250-300 4 2,00 12,06
300-350 5 2,24 14,30
350-400 8 2,83 17,13
400-450 3 1,73 18,86
450-500 2 1,41 20,27
Utilizando el criterio del método acumulativo de la raı́z cuadrada de las frecuencias cons-
truimos la columna de la raı́z cuadrada de las frecuencias y luego construimos la columna de
√
las acumuladas siendo el T otal = Acumuladas Ni = 20,27.
Entonces dividiendo entre 3,
20,27
= 6,76
3
de modo que los lı́mites de los estratos deben estar lo más cerca posible de 6,76 y 2 × (6,76) =
13, 52.
En consecuencia, los estratos serán:
17
Comparación entre distintas afijaciones y el m.a.s.
aleatorio simple. Si los nh están muy lejos de los que proporciona la afijación óptima, no se
obtiene niguna mejora con respecto al error.
Teorema
Demostración:
Se tiene que
2
b = 1 − f S2 = N − n ≃ S
Vmas (X)
n nN n
L L
1−f X
2 1 X
Vprop Xb = Wh Sh ≃ Wh Sh2
n h=1 n h=1
L
!2 L L
!2
1 X 1 X 1 X
VN ey Xb = Wh Sh − Wh Sh2 ≃ Wh Sh
n h=1 N h=1 n h=1
y utilizando
N −1 2
σ2 = S ≃ S2
N
σh2 ≃ Sh2
18
L L
1−f X 2 1−f X 2
Vmas (X) =
b Wh Sh + Wh X h − X ≃
n h=1 n h=1
L
b + 1 − f X W X − X 2
Vprop (X) h h
n h=1
el segundo sumando siempre es positivo, por lo que obtenemos
b ≤V
Vprop X mas X
b
Análogamente,
L L
!2
1X 1 X
Vprop X − VN ey X =
b b Wh Sh2 − Wh Sh =
n h=1 n h=1
!2
L L
1 X X
Wh Sh2 − Wh Sh
n h=1 h=1
llamando
L
X
S̄ = Wh Sh
h=1
se puede observar que
L L
!2 L
X X X
Wh Sh2 − Wh Sh = Wh Sh2 − S̄ 2 =
h=1 h=1 h=1
L
X 2
Wh Sh − S̄
h=1
de modo que
1X L
b −V 2
Vprop X N ey X
b = Wh Sh − S̄
n h=1
con lo que obtenemos
b ≤V
VN ey X prop X
b
19
que mide la heterogeneidad entre los estratos. Es decir, la estratificación está justificada cuando
que muestra si la variación dentro de cada estrato (Sh ) cambia de uno a otro. Si sucede esto,
entonces la ganancia de la afijación de Neyman será apreciable con respecto a la afijación
proporcional.
Tamaño de la muestra
donde
nh
wh =
n
son los pesos muestrales.
En este caso
nh Nh
wh = = = Wh
n N
de donde se deduce que
L
Wh Sh2
P
N
h=1
n= L
Wh Sh2
P
N e2 +
h=1
En este caso
nh 1 Nh Sh Nh Sh
wh = = n L = L
n n P P
Nk Sk Nk Sk
k=1 k=1
20
de donde se deduce que
L
2
P
N Wh Sh
h=1
n= L
Wh Sh2
P
N e2 +
h=1
Ejemplo
Una población se divide en dos estratos de igual tamaño de los que se obtienen muestras
aleatorias simples. En el supuesto de afijación proporcional y una fracción de muestreo global
igual al 5 %, ¿qué tamaño n de muestra es necesario tomar para obtener una desviación tı́pica
para el estimador de la media igual a 0.5? Un estudio piloto ha mostrado los siguientes valores
para las cuasivarianzas de los estratos: S12 = 25 y S22 = 15.
N1 N2 1
N1 = N2 ⇒ W1 = N
= N
= 2
= W2 .
(1 − 0,05) 1
0,52 = (25 + 15) ⇒
n 2
0,95 · 40
n= = 76
0,25 · 2
Ejemplo
En una población constituida por 1500 familias de cierta localidad, se desea estimar los
21
Supongamos que se extrae una m.a.e de tamaño n = 30 con n1 = 10, n2 = 13 y n3 = 7.
Estrato 1: X̄1 = 6866,7 y V X̄1 = 74278,65
Estrato 2: X̄2 = 8244,54 y V X̄2 = 21981,05
Estrato 3: X̄3 = 10041,29 y V X̄3 = 105279,05
Entonces
X 1
X
b̄ = Wh X
b̄ =
h [517 · 6866,7 + 633 · 8244,54 + 350 · 10041,29] =
h
1500
8188,88
L
X 1 2
Wh2 V X 517 · 74278,65 + · · · + 3502 · 105279,05 =
Vb X
b̄ = b̄ =
h
h=1
1500
18469,56
Supongamos ahora que n = 40. Como no se conocen los Sh2 , utilizamos las correspondientes
Sx2 de la variable X auxiliar que se refiere a los ingresos, siendo estos:
S1 = 2138,3
S2 = 1683,58
S3 = 2334,79
Ası́,
Sh Nh
nh = n P
Nh Sh
h
de modo que
X
Nh Sh = 517 · 2138,3 + 633 · 1683,58 + 350 · 2334,79 =
h
2988243,60
22
40 · 2138,03 · 517
n1 = = 14,8 ⇒ n1 = 15
2988243,60
40 · 1683,58 · 633
n2 = = 14,27 ⇒ n2 = 14
2988243,60
40 · 2334,79 · 350
n3 = = 10,93 ⇒ n3 = 11
2988243,60
Con este tamaño muestral y la afijación de Neyman, ¿qué error de muestreo se obtiene?
!2
b̄ = e2 = 1 1 X
X
V X Wh Sh − Wh Sh2
n h
N h
Ası́,
2
2 1 517 350
e = 2138,03 + · · · + 2334,79 −
40 1500 1500
1 517 2 350 2
2138,03 + · · · + 2334,79 = 96522,03
1500 1500 1500
Ası́
e = 310,68
para la construcción de los estratos, o incluso conocidos estos, es difı́cil identificar si una unidad
poblacional pertenece o no a un estrato dado, hasta que no se le pregunte a la persona en
cuestión.
torias para h = 1, . . . , L, pues varı́an de una muestra a otra. Ello produce un aumento del error
de la estimación.
23
Se extrae una m.a.s. de tamaño n de la población y se puede asignar o clasificar nh en el
estrato h una vez que la muestra ha sido extraı́da. De este modo nh para h = 1, . . . , L son v.a.
que suman n.
La distribución de los tamaños muestrales en cada estrato es una variable aleatoria hiper-
Nh
E(nh ) = n
N
Nh Nh N − n
V (nh ) = n 1−
N N N −1
donde
b = 1 XX
X h k
nh k∈s
h
Se puede observar que la varianza aproximada tiene dos componentes: La primera compo-
nente coincide con la varianza de la estimación de la media X
b mediante muestreo aleatorio
Observación: hay textos en que teniendo en cuenta un desarrollo de Taylor se llega a que
L L
1−f X 1−f X S2
V X P ost ≈
b 2
Wh Sh + Wh (1 − Wh ) h
n h=1 n h=1 nh
24
Ejemplo con R
# Datos artificiales
set.seed (666)
unosdatos = rbind ( matrix ( rep ( " nc " ,530) , 530 , 1 , byrow = TRUE ) ,
matrix ( rep ( " sc " ,270) , 270 , 1 , byrow = TRUE ))
unosdatos = c b in d . d a t a . f r a m e ( unosdatos , c ( rep (1 ,350) , rep (2 ,150) , rep (3 ,50) , rep (1 ,100) ,
rep (2 ,150)) , rnorm (800 ,100 ,10))
names ( unosdatos ) = c ( " provincia " , " region " , " ingresos " )
# head ( unosdatos )
1 2 3
450 300 50
Tamaños de los estratos en las variables n1, n2 y n3 que luego definen los pesos.
library ( sampling )
s = strata ( unosdatos , " region " , size = c (50 ,30 ,20) , method = " srswor " )
Se genera una nueva variable que contiene al lado de cada elemento el tamaño del estrato
al que pertenece y se calculan los pesos que varı́an según cada estrato.
library ( survey )
summary ( dstrata )
25
Stratified Independent Sampling design
svydesign ( id = ∼1 , weights = ∼mispesos , fpc = ∼pobtamano ,
strat = ∼region , data = strat _ cosa )
Probabilities :
Min. 1 st Qu. Median Mean 3 rd Qu. Max.
0 .1000 0 .1000 0 .1111 0 .1656 0 .1111 0 .4000
Stratum Sizes :
1 2 3
obs 50 30 20
design.PSU 50 30 20
actual.PSU 50 30 20
Data variables :
[1] " provincia " " ingresos " " region " " ID _ unit " " Prob " " Stratum "
[7] " pobtamano " " mispesos "
mean SE
ingresos 99 .294 0 .9384
region ingresos se
1 1 98 .33096 1 .340274
2 2 100 .69394 1 .455315
3 3 99 .55878 1 .922938
total SE
ingresos 79435 750 .74
$ quantiles
0 .25 0 .5 0 .75
ingresos 93 .82295 99 .21559 105 .5731
$ CIs
, , ingresos
0 .25 0 .5 0 .75
( lower 91 .52617 97 .12242 103 .1760
upper ) 95 .18418 101 .80955 107 .6897
26
svyhist (∼ingresos , dstrata , main = " Sample " , col = " pink " )
27
svyboxplot ( ingresos ∼ as.factor ( region ) , dstrata , col = " peachpuff " )
28
plot ( svysmooth (∼ingresos , design = dstrata ))
29