Notas de Técnicas de Muestreo: Luis Valdivieso Serrano
Notas de Técnicas de Muestreo: Luis Valdivieso Serrano
TÉCNICAS
DE MUESTREO
Luis Valdivieso Serrano
Departamento
Académico de Ciencias
NOTAS DE TÉCNICAS
DE MUESTREO
Luis Valdivieso Serrano
Departamento
Académico de Ciencias
Autor
Luis Valdivieso Serrano
ISBN: 978-612-47757-2-7
Hecho el Depósito Legal en la Biblioteca Nacional del Perú: 2021-11437
Derechos reservados, prohibida la reproducción de este libro por cualquier medio, total
o parcialmente, sin permiso expreso de los editores.
Presentación
Este texto, que fue inicialmente redactado como material de apoyo para los estudiantes
de la maestrı́a en Estadı́stica de la Pontificia Universidad Católica del Perú, ofrece una
introducción al estudio de las principales técnicas de muestreo probabilı́stico.
Si bien en la literatura existen varios textos clásicos sobre muestreo como el de Cochran
(1977), Mendenhall et al. (2007) y Lohr (2000) y más avanzados como el de Tillé (2006)
y Lumley (2010), falta todavı́a, a mi humilde opinión, un texto de nivel intermedio que
integre estos enfoques y que a su vez incluya más aplicaciones a datos reales de dominio p
úblico. Este texto, en su segunda edición corregida y aumentada, pretende cubrir tal vacı́o
presentando no solo las técnicas de muestreo probabilı́stico clásicas, sino también tópicos de
muestreo complejo y una implementación computacional que actúe transversalmente a lo
largo de los diferentes temas del curso. Para ello usaremos principalmente los paquetes survey
y sampling escritos en el software libre R. Información sobre estos se puede consultar,
respectivamente, en los siguientes enlaces:
[Link]
[Link]
o en los textos de Lumley (2010) y Tillé (2006). Otra excelente referencia en el espı́ritu de
estas notas, y que incluye al paquete PracTools de R, es Valliant et al. (2013).
El texto está dividido en cinco capı́tulos. En el primer capı́tulo introducimos algunos
conceptos básicos de estadı́stica y ponemos énfasis en la diferencia que existe entre los en-
foques basados en el modelo y en el diseño. En el segundo capı́tulo presentamos la teorı́a
del muestreo aleatorio simple (MAS) e introducimos aquı́ no solo los conceptos teóricos per-
tinentes, sino también su implementación computacional y aplicación a datos reales. En el
tercer capı́tulo definimos el muestreo aleatorio estratificado como el agregado de un MAS
aplicado a subconjuntos relativamente homogéneos de la población, a los cuales denomina-
remos estratos. En el capı́tulo cuatro abordamos el muestreo por conglomerados, el cual es
quizás el esquema clásico más utilizado para grandes poblaciones. A diferencia del diseño
anterior, este esquema resulta ser más eficiente cuando los subconjuntos de la población (que
denominaremos conglomerados) muestran una marcada heterogeneidad en su interior pero
gran similitud entre ellos. Un tema central y unificador en este capı́tulo será el estudio de
los estimadores de Horvitz-Thompson para totales en diseños de conglomerados de una o
más etapas con probabilidades de selección no siempre constantes. De este se derivan casi
todos los esquemas anteriores, como el de conglomerados de una etapa y su caso particular
el muestreo sistemático. En el último capı́tulo nos dedicamos al estudio de muestras com-
plejas. Estas se originan cuando debido a la configuración y al tamaño de la población en
estudio se hace necesario restringir o combinar dos o más técnicas, ya sea que cada selección
se haga con igual probabilidad o no. Aquı́ nos interesará no solo obtener estimaciones pun-
tuales de los parámetros de interés, al expandir apropiadamente la muestra a la población,
sino fundamentalmente estimar la variabilidad de las estimaciones. Para ello discutiremos
diversas técnicas como la linealización y el remuestreo y nos apoyaremos, al igual que en los
capı́tulos anteriores, en los paquetes survey y sampling de R. Este capı́tulo brindará también
una introducción al análisis estadı́stico bajo muestras complejas. Como ilustración, veremos
aquı́ el análisis de datos categóricos, el de regresión y los contrastes de hipótesis para una,
dos o más poblaciones. El capı́tulo incluye algunos diseños muestrales y sus correspondiente
análisis para las bases de datos introducidas en el curso.
El texto se complementa con diversos ejercicios propuestos y algunas sugerencias o solu-
ciones a estos en un anexo final. Tales ejercicios son de nivel teórico y práctico y se usan, en
muchos de ellos, bases de datos de dominio público tanto locales como foráneas.
1. Introducción 1
1.1. Enfoques basados en el diseño y el modelo . . . . . . . . . . . . . . . . . . . 1
1.2. Estimadores puntuales y por intervalos . . . . . . . . . . . . . . . . . . . . . 3
1.3. Distribuciones importantes asociadas al muestreo . . . . . . . . . . . . . . . 5
1.3.1. La distribución binomial . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3.2. La distribución multinomial . . . . . . . . . . . . . . . . . . . . . . . 6
1.3.3. La distribución hipergeométrica . . . . . . . . . . . . . . . . . . . . . 8
1.3.4. La distribución hipergeométrica multivariada . . . . . . . . . . . . . . 9
1.4. Esperanza, varianza y covarianza condicional . . . . . . . . . . . . . . . . . . 11
1.5. Selección de muestras al azar con y sin reemplazamiento . . . . . . . . . . . 13
1.6. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3
3.6. Uso del paquete survey . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
3.6.1. MAE con la base de datos api . . . . . . . . . . . . . . . . . . . . . . 75
3.6.2. MAE con la evaluación censal de estudiantes 2019 . . . . . . . . . . . 78
3.6.3. MAE para la población penitenciaria 2016 . . . . . . . . . . . . . . . 80
3.7. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
Bibliografı́a 243
Capı́tulo 1
Introducción
1
2 CAPÍTULO 1. INTRODUCCIÓN
θ̂n debe ser eficiente; i.e, debe tener varianza pequeña, por lo usual mı́nima bajo una
clase de estimadores insesgados
P
θ̂n debe ser consistente; i.e, θ̂n → θ, conforme n → ∞
Si bien el error estándar de estimación de θ̂n , definido como la desviación estándar de θ̂n ,
podrı́a resumir la calidad del estimador, la estimación puntual no nos brinda información
de cuán cerca o lejos se pueda encontrar la estimación de θ̂n de θ. Por tal motivo, surge la
llamada estimación por intervalos.
Un intervalo de confianza (IC) al 100(1 − α) % para un parámetro poblacional θ de una
v.a. X es un intervalo con estadı́sticas L1 y L2 en sus extremos (IC = [L1 , L2 ]), tal que
P (L1 ≤ θ ≤ L2 ) = 1 − α.
Una técnica para obtener un IC es utilizar alguna variable pivote de distribución conocida
que dependa de la m.a. y de solo θ como valor desconocido. Por ejemplo, si deseamos estimar
la media de una v.a. X ∼ N (µ, σ 2 ) con varianza conocida, podrı́amos utilizar como variable
pivote a
X̄ − µ
Z= √ ∼ N (0, 1).
σ/ n
Tomando luego dos valors de esta v.a., cuyas áreas en las colas sean iguales a α2 (¿por qué?),
obtendremos el siguiente intervalo de confianza al 100(1 − α) % para µ:
σ σ
IC = [X̄ − z1− α2 √ , X̄ + z1− α2 √ ] .
n n
4 CAPÍTULO 1. INTRODUCCIÓN
Cabe destacar que, gracias al teorema del lı́mite central (TLC), este IC es aún válido para
la media de cualquier distribución, siempre que n sea lo suficientemente grande y se tenga,
de no conocerse σ, una estimación consistente de esta desviación estándar.
Otro parámetro recurrente en diversas aplicaciones lo constituye la proporción p de ele-
mentos en la población que comparten cierta caracterı́stica. A fin de obtener un intervalo de
confianza aproximado al 100(1 − α) % para p, tomemos al azar n elementos de la población
fı́sica y consideremos las v.a. Xi definidas como 1 si es que en la i-ésima selección se en-
cuentra un elemento con la caracterı́stica buscada y como 0 en caso contrario. Note que los
elementos de esta muestra solo podrán garantizarse distintos si es que la muestra se toma sin
reemplazamiento. Esto ocasiona que las variables X1 , X2 , . . . , Xn no sean más independien-
tes; sin embargo, si el tamaño N de la población es grande o infinito, se podrı́a garantizar
una casi independencia (veremos un tratamiento más formal en el capı́tulo 2). En la prácti-
ca, si N es grande, estas variables se consideran independientes, por lo que la distribución
de X = ni=1 Xi , que representa al número de elementos en la muestra que comparten la
caracterı́stica buscada, puede asumirse que tiene aproximadamente una distribución bino-
mial de parámetros n y p. Más aún, si n es grande, podremos utilizar la aproximación de la
distribución binomial por la normal y usar:
X − np p̄ − p
Z= = ∼ N (0, 1),
np(1 − p) p(1−p)
n
X
con p̄ = n
,
como variable pivote para la construcción del IC para p. En efecto, tomando
simétricamente valores −z1− α2 y z1− α2 en la tabla normal estándar, podemos afirmar que
p̄ − p
P (−z1− α2 ≤ ≤ z1− α2 ) = 1 − α.
p(1−p)
n
n
o
2 2
z1− α z1− α
P (p2 (1 + 2
) − p(2p̄ + 2
) + p̄2 ≤ 0) = 1 − α.
n n
Esta probabilidad puede escribirse como
P ((p − p1 )(p − p2 ) ≤ 0) = 1 − α,
donde p1 y p2 constituyen las raı́ces de la ecuación cuadrática asociada a la inecuación
anterior, las cuales vienen explı́citamente dadas por
2
z1− 2
z1− 2
z1− 2
z1− 4
z1−
α α α α z1− α α
2p̄ + n
2
− (2p̄ + n
2
)2 − 4p̄2 (1 + n
2
) p̄ + 2n
2
− √ 2
n
p̄(1 − p̄) + n2
2
p1 = 2
z1−
= 2
z1−
α α
2(1 + n
2
) 1+ n
2
1.3. DISTRIBUCIONES IMPORTANTES ASOCIADAS AL MUESTREO 5
y
2
z1− 2
z1− 2
z1− 2
z1− 4
z1−
α α α α z1− α α
2p̄ + n
2
+ (2p̄ + n
2
)2 − 4p̄2 (1 + n
2
) p̄ + 2n
2
+ √ 2
n
p̄(1 − p̄) + n2
2
p2 = 2
z1−
= 2
z1−
.
α α
2(1 + n
2
) 1+ n
2
Del análisis de los signos de la inecuación al interior de la probabilidad anterior se sigue que
P (p1 ≤ p ≤ p2 ) = 1 − α
y, por tanto, [p1 , p2 ] es un intervalo de confianza al 100(1−α) % para p . Este se conoce como
2
z1− α
el intervalo de Wilson. Si, por otro lado, para simplificar despreciamos aquı́ al término n 2 ,
por ser este pequeño cuando n es grande, obtendremos para p el IC = [p1 , p2 ] al 100(1− α) %
siguiente:
p̄(1 − p̄) p̄(1 − p̄)
IC = [p̄ − z1− α2 , p̄ + z1− α2 ].
n n
Este se conoce como el intervalo de Wald para p.
b) E(X) = np
c) V (X) = np(1 − p)
Demostración: a) Note que el conjunto de posibles valores que X pueda tomar (rango de
X) es RX = {0, 1, 2, · · · , n}, ya que puede ocurrir que nunca se presente el éxito, en cuyo
caso X valdrá 0; ocurra una sola vez, en cuyo caso X valdrá 1, y ası́ sucesivamente hasta
el caso extremo en que el éxito siempre esté presente, en cuyo caso X será n. Ahora bien,
que el éxito se presente en x oportunidades especı́ficas y que el fracaso ocurra en los (n − x)
experimentos restantes tiene la siguiente probabilidad:
x términos (n − x) términos
(p.p. · · · .p) (1 − p)(1 − p) · · · (1 − p) = px (1 − p)n−x .
Dado que en total hay Cxn casos como este (piense en el número total de x posiciones que
se podrı́an escoger de las n para que en ellas ocurra el éxito), se tiene que P (X = x) =
Cxn px (1 − p)n−x , siendo x un valor cualesquiera de RX = {0, 1, 2, · · · , n}.
b) Haciendo en la sumatoria de abajo el cambio de variable k = x − 1, se tiene que
n
n
E(X) = xCxn px (1 − p)n−x = n n−1 x
Cx−1 p (1 − p)n−x
x=0 x=1
n−1
= np Ckn−1 pk (1 − p)n−1−k = np(p + 1 − p)n−1 = np.
k=0
b) Xi ∼ B(n, p), ∀i = 1, 2, . . . , k
Xi + Xj ∼ B(n, pi + pj ).
Ası́,
n(pi + pj )(1 − pi − pj ) = V (Xi + Xj ) = V (Xi ) + V (Xj ) + 2Cov(Xi , Xj )
Cabe comentar que las variables aleatorias δi definidas en (1.2), que denotan el número
de veces en que la i-ésima unidad de la población fı́sica de tamaño N es seleccionada en
una muestra al azar y con reemplazamiento de tamaño n, son todas v.a. con distribución
8 CAPÍTULO 1. INTRODUCCIÓN
B(n, N1 ). Más aún, si se tuviera interés en las frecuencias de selección de los elementos i = j
de la población, entonces no es difı́cil verificar que
1 1 2
(δi , δj , δ0 ) ∼ M ul(n; , , 1 − ),
N N N
donde δ0 denota la frecuencia de selecciones de otras unidades distintas a i y j. Note que
estas v.a. no son independientes, desde que, por ejemplo:
P (δi = x, δj = y, δ0 = n − x − y) 1 1
P (δj = y | δi = x) = = Cyn−x ( )y (1 − )n−y
P (δi = x) N −1 N −1
1 y 1
= Cyn (
) (1 − )n−y = P (δj = y), ∀x, y ∈ {0, 1, . . . , n} con x + y ≤ n.
N N
De manera general se cumple que
1 1 1
(δ1 , δ2 , . . . , δN ) ∼ M ul(n; , , . . . , ).
N N N
b) E(X) = n M
N
−n
c) V (X) = n M
N
(1 − M
N
)( N
N −1
)
n−1
M M −1 CkM −1 Cn−1−k
N −M
M M −1 M
= C = N Cn−1 =n ,
CnN n−1 k=0 M −1
Cn−1 Cn N
donde la última suma en la ecuación anterior es 1, pues se está sumando allı́ la función de
probabilidad de una v.a. con distribución H(N − 1, M − 1, n − 1).
b) Xi ∼ H(N, Mi , n), ∀i = 1, 2, . . . , k
nMi Mj N −n
c) Cov(Xi , Xj ) = − N2
( N −1 ), ∀i = j ∈ {1, 2, . . . , k}
M1 M2 Mk
(X1 , X2 , . . . , Xk ) ∼ M ul(n; , ,..., )
N N N
Demostración: a) El espacio muestral asociado a esta selección está constituido por todos
los conjuntos de n elementos que se pueden formar con los N y, por tanto, tiene CnN ele-
mentos. El evento de interés tiene, por otro lado, en base al principio de multiplicación,
CxM1 1 CxM2 2 . . . CxMkk elementos. Ası́, por la definición clásica, la probabilidad pedida es el co-
ciente de estas cantidades.
b) Basta observar que de segmentarse la problación en solo dos clases: la clase Ai de Mi
elementos y la clase Aci de N − Mi elementos, entonces Xi ∼ H(N, Mi , n).
c) Como en el multinomial, si juntamos juntamos dos categorı́as Ai y Aj (con i = j) en una
sola, se tendrá que Xi + Xj ∼ H(N, Mi + Mj , n). Ası́,
M i + Mj M i + Mj N − n
n( )(1 − )( ) = V (Xi + Xj )
N N N −1
Mi Mi N − n Mj Mj N − n
= n( )(1 − )( ) + n( )(1 − )( ) + 2Cov(Xi , Xj ).
N N N −1 N N N −1
−n nM M
Un despeje directo en esta ecuación nos lleva a que Cov(Xi , Xj ) = − Ni2 j ( N N −1
).
d) Si se admitiera reemplazamiento, cada selección generarı́a un experimento con k posibles
resultados, siendo pi = M N
i
la probabilidad de que en el i-ésimo experimento se obtenga un
elemento de la categorı́a Ci . Además, dada la independencia de estos experimentos por el
reemplazo, el vector aleatorio (X1 , X2 , . . . , Xk ) que cuenta las veces que ocurren cada una de
estas k categorı́as en los n experimentos tendrá la distribución multinomial descrita.
Por último, note que las v.a. δi discutidas en (1.2) tienen una naturaleza completamente
distinta si la muestra se toma sin reemplazamiento. En efecto, si esta fuera la situación y
se tuviera interés en la selección, por decir, de las unidades i = j de la población fı́sica,
1.4. ESPERANZA, VARIANZA Y COVARIANZA CONDICIONAL 11
entonces para la distribución conjunta del vector (δi , δj , δ0 ), que denota respectivamente a
las frecuencias de selección de las unidades i, j u otras en la muestra, se cumplirı́a que
Aprecie que las v.a. δi y δj de este vector están ahora restringidas a tomar solo dos valores
(0 o 1) y no son independientes desde que
P (δi = 1, δj = 1, δ0 = n − 2) n−1 n
P (δj = 1 | δi = 1) = = = = P (δj = 1),
P (δi = 1) N −1 N
Proposición 1.5. Si X, Y son dos v.a. con varianza finita y Z es un vector aleatorio,
entonces:
E(X) = E (E(X | Z))
y
Cov(X, Y ) = E (Cov(X, Y | Z)) + Cov (E(X | Z), E(Y | Z)) .
En particular,
V (X) = E (V (X | Z)) + V (E(X | Z)) .
Demostración: Para probar la primera afirmación asumamos, sin pérdida de generalidad, que
Z es un vector aleatorio discreto (que es el caso más recurrente en el muestreo). Entonces,
sumando sobre todo valor posible del vector aleatorio Z, se tiene que
E (E(X | Z)) = E(X | Z = z)P (Z = z) = xP (X = x | Z = z)P (Z = z)
z z x∈RX
= xP (X = x, Z = z) = x P (X = x, Z = z) = xP (X = x) = E(X).
z x∈RX x∈RX z x∈RX
Cov (E(X | Z), E(Y | Z)) = E (E(X | Z)E(Y | Z)) − E (E(X | Z)) E (E(Y | Z))
= E (E(X | Z)E(Y | Z)) − E(X)E(Y ).
Sumándose ambos términos, el resultado es E(XY ) − E(X)E(Y ), que no es sino la cova-
rianza entre X e Y .
Ejemplo 1.1. Un almacén contiene 6 cajas con la siguiente distribución:
Caja (i) 1 2 3 4 5 6
Número de artı́culos (Ni ) 60 43 97 80 120 100
Número de defectos (Mi ) 5 4 6 5 15 10
Si para estimar la proporción de defectos en este almacén usted selecciona al azar una caja
y extrae aleatoriamente y sin reemplazamiento un 20 % de sus artı́culos,
Solución: a) Denotemos por δi a la variable indicadora que nos dice si la caja i ha sido
(δi = 1) o no (δi = 0) seleccionada. Entonces, (δ1 , δ2 , δ3 , δ4 , δ5 , δ6 ) ∼ M ul(1; 16 , 16 , 16 , 16 , 16 , 16 ).
El estimador propuesto se puede escribir luego como p̂ = 6i=1 p̄i δi , donde p̄i = X ni
i
denota la
proporción muestral de defectos en la caja i; Xi ∼ H(Ni , Mi , ni ) denota el número de defectos
en la muestra de la caja i, y ni es el tamaño de muestra para la caja i, el cual es igual al 20 %
de Ni o a su entero superior, pensando como es racional que se desean minimizar costos.
Para el insesgamiento usaremos, tal como se ilustra seguidamente, la proposición 1.5:
6
6
6
E(Xi ) Mi 1
E(p̂) = E (E(p̂ | δ1 , δ2 , . . . , δ6 )) = E( δi ) = E(δi ) = pi ,
i=1
ni i=1
Ni 6 i=1
Mi
siendo pi = Ni
la proporción de defectos en la caja i. Dado que en general
6 6
1 Mi Mi
E(p̂) = i=1
= 6 = p,
6 i=1 Ni i=1 Ni
p̂ no es un estimador insesgado de p.
Note que si conociéramos la distribución dada para este ejemplo (lo cual probablemente
no ocurra y por eso se hace el muestreo), se tendrı́a que E(p̂) = 0.0876, valor que difiere de
la verdadera proporción de defectos en el almacén que es de p = 0.09.
b) Por la proposición 1.5, V (p̂) = E (V (p̂ | δ1 , . . . , δ6 )) + V (E(p̂ | δ1 , . . . , δ6 )). Como las
muestras en cada caja se pueden asumir independientes, se tendrá que
6
6
1 Mi Mi Ni − ni 2
V (p̂ | δ1 , . . . , δ6 ) = V (p̄i )δi2 = (1 − )( )δ ,
i=1 i=1
n i N i Ni Ni − 1 i
1.5. SELECCIÓN DE MUESTRAS AL AZAR CON Y SIN REEMPLAZAMIENTO 13
y ası́
6 6
1 1 Mi Mi Ni − ni 1 1 pi (1 − pi )(Ni − ni )
E (V (p̂ | δ1 , . . . , δ6 )) = (1 − )( )= .
6 i=1 ni Ni Ni Ni − 1 6 i=1 ni ni (Ni − 1)
6
Por otro lado, como E(p̂ | δ1 , . . . , δ6 ) = i=1 pi δi , se tiene que
6
6
6 6 6 6
5 2 1
V (E(p̂ | δ1 , . . . , δ6 )) = p2i V (δi ) + pi pj Cov(δi , δj ) = pi − pi pj .
i=1 i=1 j=1
36 i=1 36 i=1 j=1
i=j i=j
modificando. Una manera de realizar esto es procediendo de forma secuencial; es decir, em-
pezando por generar independientemente n números aleatorios u1 , u2 , . . . , un en el intervalo
[0, 1] y obteniendo, como antes, el primer elemento de la muestra mediante
donde x denota un vector con los valores de alguna variable de interés que se evaluó en
cada elemento de la población; size es el tamaño de muestra; replace es TRUE o FALSE,
dependiendo si la muestra es con o sin reemplazamiento, respectivamente (argumento que
por defecto es sin reemplazamiento), y prob es un vector con las probabilidades de selección
para cada elemento en x (argumento opcional que por defecto asume que todos los elementos
en la población tienen la misma probabilidad de selección). Si los valores de la variable en x
no son de interés, sino que solo deseamos elegir n elementos de esta, el primer argumento de
esta función puede también ser N , que es el tamaño de la población. Si escribimos en R
[Link](12345)
(m = sample(80, 10))
## [1] 58 70 60 69 35 13 25 38 53 71
1.6. Ejercicios
1. Obtenga los intervalos de confianza de Wald y Wilson al 95 % para la proporción p de
defectos de los artı́culos de una lı́nea continua de producción, si al seleccionarse al azar 100
artı́culos de esta lı́nea se encontraron 4 artı́culos defectuosos.
2. Juan, Pepe, Rosa, Luis y Marı́a participan en un sorteo donde se han de repartir entre
ellos 4 vales de 50 soles cada uno.
a) Si Juan desea ganar algo, ¿qué le convendrı́a más: un sorteo con o sin reemplazamiento?
b) Si la selección se hace con reemplazamiento, ¿qué probabilidad hay de que Juan gane 1
vale y Rosa 2? ¿Es esta probabilidad la misma a que Juan gane los cuatro vales?
c) Bajo reemplazamiento, ¿con qué probabilidad solo Rosa y Luis ganarán vales?
d) Halle, en el caso de que el sorteo se haga con reemplazamiento, el monto que esperará ob-
tener Juan en el sorteo.
4. La producción diaria de una fábrica, que es de 200 artı́culos, contiene 12 artı́culos con
un defecto de tipo A y 8 artı́culos con un defecto de tipo B. Si usted adquiere al azar y
sin reemplazamiento 20 de estos artı́culos y sabe que cada artı́culo bueno le reportará una
utilidad de 25 soles; mientras que cada artı́culo con defectos de tipo A y B le reportará una
pérdida de 5 y 10 soles, respectivamente,
a) ¿Con qué probabilidad obtendrá una utilidad de 400 soles al vender los 20 artı́culos?
b) Halle el valor esperado y la desviación estándar de la utilidad de venta de los 20 artı́culos.
5. En un experimento se colocan, uno a uno, 20 ratones en una caja con 8 puertas idénticas.
Dos de las puertas conducen a un premio; una a un castigo, y las otras son neutras. Sean
XP , XC y XN el número de estos ratones que eligen la puerta con premio, castigo y neutra,
respectivamente, en su primer intento.
a) ¿Cuál es la distribución conjunta de estas variables aleatorias?
b) Halle e interprete la correlación de Pearson entre XP y XN .
16 CAPÍTULO 1. INTRODUCCIÓN
7. Un encuestador tiene asignado un área de trabajo de 100 viviendas, donde se sabe que el
10 % de estas presentan cierta caracterı́stica que solo podrá conocerse durante la entrevista.
El entrevistador visitará casa por casa y aplicará una encuesta más larga a las viviendas que
poseen la caracterı́stica. Suponga que el encuestador tiene una cuota de 5 viviendas con la
caracterı́stica de interés, luego de lo cual será reemplazado por otro encuestador.
a) Halle la función de probabilidad del número de entrevistas que realizará el entrevistador.
b) Suponga que el tiempo en minutos que emplea el entrevistador en realizar una encuesta
a una vivienda, sin y con la caracterı́stica de interés, es una v.a. con distribución normal
de media 8 minutos y desviación estándar de 2 minutos y media 15 minutos y desviación
estándar de 4 minutos, respectivamente. Halle el tiempo efectivo que se espera le tome al
entrevistador realizar todas sus encuestas.
e) Halle la función de probabilidad del número de cajas que contendrá alguna cápsula del
medicamento genérico.
1.6. EJERCICIOS 17
9. Un peaje tiene 10 casetas de pago, 3 de las cuales son exclusivas para buses y camiones
y el resto se destina a solo autos. Suponga que el 20 % de los vehı́culos que pasan por este
peaje son buses o camiones y el resto autos, y que los vehı́culos tienen igual probabilidad de
escoger cualquier caseta que les corresponda. Si la administradora le informa que en un dı́a
pasaron por el peaje 800 vehı́culos, que en las 3 casetas para buses y camiones se registraron
56, 65 y 60 unidades, pero no le informa sobre la distribución del número de autos en las
demás casetas,
a) ¿Cuál será la distribución conjunta del número de autos que pasaron durante ese dı́a por
las casetas correspondientes?
b) ¿Que tán probable fué que se hayan obtenido estos resultados para las casetas de buses o
camiones?
c) ¿Cuántos autos se espera que hayan pasado por la caseta 4 (de autos) durante ese dı́a?
10. Sea (X1 , X2 , . . . , Xk ) ∼ HM ul(n; M1 , M2 , . . . , Mk ) y supongamos seleccionamos tres
componentes cualesquieras i, j y m de este vector. ¿Es cierto que el vector aleatorio
(Xi , Xj , Xm ) tiene también una distribución hipergeométrica multivariada?
11. Se ha creado una nueva agrupación polı́tica producto de la fusión de 3 partidos polı́ticos
A, B y C. En esta nueva agrupación participan 10 personas del partido A, 20 personas del
partido B y 15 personas del partido C. Para crear esta nueva agrupación cada miembro de
estos partidos aportó, respectivamente, 100, 500 y 300 u.m. Si usted selecciona al azar y sin
reemplazamiento a 10 personas de esta nueva agrupación para aplicarles una encuesta,
a) ¿Con qué probabilidad la mitad de los encuestados serán ex integrantes del partido C?
b) ¿Cuál es la probabilidad de que todas las personas encuestadas menos una hayan sido
integrantes del partido B?
c) ¿Cuál es el monto total de aporte que se esperará reporten las personas en la encuesta?
d) Si le informan, luego de tomarse la muestra, que solo 3 personas que pertenecieron al
partido A fueron encuestadas, ¿cuántas personas del otrora partido B se espera hayan sido
encuestadas?
e) Suponga que el 80 %, 50 % y 60 % de las personas de los otrora partidos A, B y C tenı́an
interés en formar parte del Ejecutivo.
e.2) En general, ¿cuántas de las personas seleccionados para la encuesta espera que tengan
interés en el Ejecutivo?
12. Proponga, para el ejemplo 1.1, un estimador insesgado de la proporción buscada y calcule
su varianza.
13. En este ejercicio, tomado de Valdivieso (2017), una empresa recibe lotes de 500 artı́culos
de un fabricante y utiliza el siguiente plan de muestreo doble para la inspección de recibo:
b) El gasto esperado por inspección de un lote por parte de la empresa y del fabricante.
Institución (i) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Número de
participantes (Mi ) 17 8 3 4 6 9 12 14 1 2 1 4 2 10 2 5
15. Con el fin de obtener una muestra al azar y sin reemplazamiento que corresponda exacta-
mente al 20 % de una población de tamaño N = 100, un alumno ha desarrollado el siguiente
algoritmo: simular 100 números aleatorios en el intervalo [0, 1] y tomar como muestra aque-
llas unidades i ∈ P = {1, 2, . . . , 100}, tales que sus correspondientes números aleatorios sean
menores o iguales a 0.2. ¿Es correcto este algoritmo de muestreo para los propósitos de este
muestreo? Justifique.
16. Un gran complejo turı́stico tiene 12 parques temáticos que se pueden visitar uno por dı́a.
Un turista solo tiene 4 dı́as de estadı́a, por lo cual elige al azar 4 de estos parques. Tiempo
después de comprar sus entradas se entera de que 3 de los parques cobran parqueo.
a) Halle la función de probabilidad del número de parqueos que tendrá que pagar el turista
y calcule su valor esperado.
b) Simule el número de parqueos que tendrá que pagar el turista durante su estadı́a.
c) Si se propone el siguiente algoritmo de muestreo:
En un muestreo aleatorio simple (MAS) toda muestra de tamaño n tiene la misma proba-
bilidad de ser seleccionada, lo cual corresponde teóricamente a la noción de muestra aleatoria
dada en la sección anterior si la población es infinita. En la práctica las poblaciones son fi-
nitas, digamos con N elementos. Aquı́ veremos cómo tomar en cuenta este hecho y nos
interesará encontrar tamaños de muestra y errores de estimación para tres de los paráme-
tros más frecuentemente referidos en un estudio inferencial, la media poblacional µ, el total
poblacional τ y la proporción de elementos p de la población que comparten alguna carac-
terı́stica particular. Para ser más precisos enfatizaremos sobre todo el primero y último de
estos parámetros, pues el análisis para el total poblacional
τ = Nµ o τ = Np
21
22 CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE
una variable estadı́stica y para generar la población estadı́stica Py constituida por todos los
valores de y en P; es decir,
Py = {y1 , y2 , . . . , yN },
siendo yi el valor de y para la unidad i. Note que algunos de estos valores pueden repetirse,
lo cual no ocurre en P. Sea n < N el tamaño de muestra a seleccionarse.
En un esquema MASc, las unidades se seleccionan al azar una a una de la población,
con la peculiaridad de que estos son repuestos o reemplazados en cada etapa de selección.
Ası́, una unidad cualesquiera j ∈ P podrı́a ser elegida en más de una oportunidad. Por otro
lado, en el esquema MASs, las unidades seleccionadas no se reponen y, por tanto, una unidad
cualesquiera j ∈ P podrı́a ser elegida en a lo más una oportunidad. En este caso, seleccionar
las unidades una a una hasta completar la muestra equivale a seleccionar toda la muestra de
una sola vez. La ventaja del diseño MASc es que las variables aleatorias definidas en (1.1)
y asociadas a los valores de y en las unidades seleccionadas son independientes. En efecto,
esto se sigue desde que para cualquier par de selecciones j < k y cualquier par de elementos
yp , yq ∈ Py de la población estadı́stica:
En un MASs, por otro lado, lo anterior no siempre se cumple, ya que, por ejemplo,
1 1
P (Y2 = yq | Y1 = yp ) = = = P (Y2 = yq )
N −1 N
en el que caso de que los elementos de la población estadı́stica sean todos distintos.
Si bien la falta de independencia en un MASs puede acarrear problemas técnicos, este es
en la práctica el esquema más utilizado pues garantiza siempre distintas selecciones en P.
Enfaticemos ahora el estudio y las propiedades de dos de los estimadores más recurrentes
en el muestreo, la media y la varianza muestrales
N N
1 1
Ȳ = yi δ i y S2 = (yi − Ȳ )2 δi ,
n i=1 n − 1 i=1
donde recordemos que δi es una variable aleatoria que cuenta el número de veces que la
unidad i de P es seleccionada en la muestra.
Tanto en el MASc como en el MASs, estas estadı́sticas constituyen los estimadores na-
turales de la media poblacional
N
1
µN = yi
N i=1
y varianza poblacional
N N
2 1 1
σN = (yi − µN )2 o 2
σN −1 = (yi − µN )2 .
N i=1 N − 1 i=1
2.1. MUESTREO CON Y SIN REEMPLAZAMIENTO 23
En adelante, para una mejor comprensión, convendremos en denotar las variables aleatorias
con letras mayúsculas (a excepción de los δi ) y con letras minúsculas las no aleatorias.
Antes de analizar algunas propiedades de los estimadores Ȳ y S 2 , es útil recordar que el
vector aleatorio de frecuencias de conteo para cada unidad de la muestra (δ1 , δ2 , . . . , δN ) tiene
una distribución multinomial o hipergeométrica multivariada, dependiendo de si el esquema
es un MASc o un MASs, respectivamente. Más aún, por lo visto en (1.2), tanto la media
como la varianza muestral podrı́an escribirse alternativamente como
n
1
Ȳ = Yi
n i=1
y
n
1
S2 = (Yi − Ȳ )2 ,
n − 1 i=1
donde Y1 , Y2 , . . . , Yn denotan los valores que secuencialmente la variable estadı́stica en estudio
y podrı́a tomar en cada selección de la muestra. La proposición siguiente nos brinda algunas
propiedades de estas últimas variables aleatorias.
Proposición 2.1.
Demostración: Supongamos, sin pérdida de generalidad, que todos los elementos en Py son
distintos.
a) La independencia ya se analizó. Que las v.a. Y1 , Y2 , . . . , Yn tengan la misma distribución
2
de media µN y varianza σN es, por otro lado, consecuencia directa de que la distribución de
cualesquiera de estas variables, digamos Yi , viene definida por la función de probabilidad
1
N
si y = y1 , y2 , y3 , . . . , yN
PYi (y) = P (Yi = y) = (2.1)
0 en otro caso
b) Claramente, como la selección es secuencial, Y1 tiene la distribución (2.1). Más aún, con-
dicionando y trabajando inductivamente, se puede probar que la distribución de cualesquiera
de las variables Y1 , Y2 , . . . , Yn , digamos Yi , tiene la función de probabilidad dada en (2.1).
Como podemos ver, para cualquier j ∈ P:
N
P (Y2 = yj ) = P (Y2 = yj | Y1 = yi )P (Y1 = yi )
i=1
24 CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE
N
N
1 1
1 1
= P (Y2 = yj | Y1 = yi ) = = .
i=1
N i=1
N −1N N
i=j i=j
Otra manera de ver lo anterior y que nos servirá también para las otras afirmaciones es
notando que la distribución conjunta del vector (Y1 , Y2 , . . . , Yn ) viene dada por
= P (Yn = yjn | Y1 = yj1 , . . . , Yn−1 = yj(n−1) ) . . . P (Y2 = yj2 | Y1 = yj1 )P (Y1 = yj1 )
1 1 1 1
= × × ... × × ,
N −n+1 N −n+2 N −1 N
cualesquiera sea k ∈ {1, 2 . . . , n} e yjk ∈ Py . De esta distribución conjunta se pueden hallar
distintas marginales, como la de la v.a. Yi , la cual se obtiene sumando la última función de
probabilidad conjunta sobre todos los valores de las demás variables. Estas sumas contienen
(N − 1)(N − 2) . . . (N − n + 1) términos, por lo cual su resultado nos dará N1 , que es preci-
samente la misma distribución que en el caso MASc. Por tal razón, las Yi tienen la misma
media y varianza anteriores. Podemos también, por otro lado, hallar la distribución conjunta
del vector (Yi , Yj ) con i = j. Esta viene dada por la suma de la distribución conjunta sobre
todos los valores de las demás n − 2 variables que no contengan los valores donde se evalúan
Yi e Yj . Estas sumas, como no es difı́cil ver, contienen (N − 2)(N − 3) . . . (N − n + 1)
términos, de aquı́ que se tenga que
(N − 2)(N − 3) . . . (N − n + 1) 1
P (Yi = yp , Yj = yq ) = = , ∀p = q ∈ P.
(N − n + 1)(N − n + 2) . . . (N − 1)N N (N − 1)
Consecuentemente,
N
N
Cov(Yi , Yj ) = E((Yi − µN )(Yj − µN )) = (yp − µN )(yq − µN )P (Yi = yp , Yj = yq )
p=1 q=1
N
N N N
1 1
= (yp − µN )(yq − µN ) = (yp − µN )( (yq − µN ) − (yp − µN ))
p=1 q=1
N (N − 1) N (N − 1) p=1 q=1
q=p
N N
= 1
N (N −1)
(( p=1 (yp − µN ))2 − p=1 (yp − µN )2 ) = − N1 σN
2
−1 .
Solución: La media y varianza poblacionales de y vienen dadas por µ7 = 23.9, σ62 = 78.1 y
σ72 = 67. En un MASc tenemos, de tomarse en cuenta el orden, un total de 73 = 343 muestras
posibles; mientras que en un MASs tenemos un total de C37 = 35. Nosotros desarrollaremos
aquı́ el caso de un MASs dejando el otro esquema como ejercicio para el lector. Como ayuda
utilizaremos el paquete combinat de R. Dado que en este problema precisamos obtener la
distribución muestral de la media y varianza muestrales, apelaremos al uso del comando
combn y obtendremos para cada posible muestra tanto su media, varianza y probabilidad de
selección. El código respectivo se muestra seguidamente y los resultados se resumen en los
cuadros 2.1, 2.2 y 2.3.
library(combinat)
options(digits=3)
ypop = c(12, 32, 18, 37, 22, 18, 28)
samplesMASs = t([Link](combn(ypop,3)))
ybar = apply(samplesMASs,1,mean)
s2 = apply(samplesMASs,1,var)
probs = rep(1/length(ybar), length(ybar))
bsamplesMASs = cbind(samplesMASs,ybar,s2,probs)
pp1 = aggregate(bsamplesMASs[,6],by = list(bsamplesMASs[,4]),sum)
colnames(pp1) = c("Media muestral","Probabilidad")
pp2 = aggregate(bsamplesMASs[,6],by = list(bsamplesMASs[,5]),sum)
colnames(pp2) = c("Varianza muestral","Probabilidad")
Cabe comentar que si la muestra fuese con reemplazamiento, podrı́amos encontrar los ı́ndices
de todas las posibles muestras con el comando [Link](rep(list(1:7),3)).
Según las tablas mostradas, los valores esperados de la media y varianza muestrales vendrán
dados, respectivamente, por
c(sum(pp1[,1]*pp1[,2]),sum(pp2[,1]*pp2[,2]))
sum(((pp1[,1] - sum(pp1[,1]*pp1[,2]))^2)*pp1[,2])
## [1] 14.9
Cuadro 2.1: Probabilidades, medias y varianzas de todas las posibles muestras en un MASs
para el ejemplo 2.1
Proposición 2.3.
2 2
b) La varianza muestral es un estimador insesgado de σN para un MASc y de σN −1 para
un MASs.
es decir, las constantes ci deben sumar 1. Por otro lado, la varianza de este estimador lineal
viene dado por
n
n
n
V (µ̂N ) = c2i V (Yi ) + ci cj Cov(Yi , Yj )
i=1 i=1 j=1
j=i
n
n n
2 1
= σN −1 ( c2i − ci cj ). (∗)
i=1
N i=1 j=1
28 CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE
Por tanto, el MELI de µN se obtendrá al hallar las constantes ci que resuelvan el siguiente
problema de optimización:
n
n n
1
mı́n
c2i − ci cj .
s.a n
i=1 ci =1
i=1
N i=1 j=1
Dada la convexidad de la función objetivo, bastará considerar las condiciones de primer orden
del lagrangiano de esta función, el cual viene dado por
n
n n n
1
l= c2i − ci cj + λ(1 − ci ).
i=1
N i=1 j=1 i=1
1 1 n 1
ck = + (1 − ) = .
N n N n
2
n σN
) −1 .
V (Ȳ ) = (1 −
N n
1
n 1
n
b) Puesto que S 2 = n−1 2
i=1 (Yi − Ȳ ) = n−1 (
2 2
i=1 Yi − nȲ ), se tiene que en un MASs
n
1
E(S 2 ) = ( E(Yi2 ) − nE(Ȳ 2 ))
n − 1 i=1
n
1
= ( (V (Yi ) + E(Yi )2 ) − n(V (Ȳ ) + E(Ȳ )2 ))
n − 1 i=1
n
1 2 n σ2
= ( (σN + µ2N ) − n((1 − ) N −1 + µ2N ))
n − 1 i=1 N n
1 N −1 2 n σ2
= (n( σN −1 + µ2N ) − n((1 − ) N −1 + µ2N )) = σN
2
−1 .
n−1 N N n
2.2. TAMAÑOS DE MUESTRA Y ERRORES DE ESTIMACIÓN 29
Ȳ − µN D
Z= n σ√
→ N (0, 1),
1− N n N −1
2 N p(1−p)
con p̄ igual a la proporción muestral, desde que σN −1 = N −1
. Ası́, si tomamos simétrica-
30 CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE
o
P (p2 (1 + a) − p(2p̄ + a) + p̄2 ≤ 0) = 1 − α,
2 N −n
donde a = z1− α
n(N −1)
. Esta probabilidad puede escribirse como
2
P ((p − p1 )(p − p2 ) ≤ 0) = 1 − α,
# Estudio de simulación:
cover <- function(n,N,p,alpha,tipo) {
nsim = 1000
count = 0
for (i in 1:nsim) {
x = rhyper(1,N*p,N*(1-p),n)
if(tipo==1){ci = IC(x,alpha,n,N,1)}
else {ci = IC(x,alpha,n,N,2)}
if(p >= ci[1] & p <= ci[2]) {count = count + 1}
}
cover = count/nsim
cover}
p = seq(0.005,0.995,by=0.01)
np = length(p)
cc1 = 0
cc2 = 0
N = 400
n = 30
for(j in 1:np){cc1[j] = cover(n,N,p[j],0.05,1)}
for(j in 1:np){cc2[j] = cover(n,N,p[j],0.05,2)}
Note que si N → ∞:
(z1− α2 σ)2
n= .
e2
32 CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE
1.0
0.8
Proporción
0.6
0.4
IC de Wald
IC de Wilson
0.2
De manera similar, podemos deducir la siguiente fórmula del tamaño de muestra n para
la estimación de p con un error máximo de estimación de e y un nivel de confianza del
100(1 − α) %:
2
(z1− α p̄(1 − p̄))N
2
n= 2 ,
z1− α p̄(1 − p̄) + e2 (N − 1)
2
y si N → ∞:
2
z1− α p̄(1 − p̄)
2
n= .
e2
Cabe agregar que la consideración de tamaños de muestra sobre la base de los errores máxi-
mos de estimación prefijados, también llamados errores absolutos e, no es universal. En la
literatura es también común encontrar la consideración del coeficiente de variación o de los
errores relativos. Recordemos que el coeficiente de variación poblacional (CV) de una varia-
ble estadı́stica y se define como el cociente entre la desviación estándar y la media de esta
variable, siendo este cociente usualmente expresado en porcentajes. La adimensionalidad de
este indicador facilita claramente la determinación de valores objetivos sin que interese la
escala en que uno mida la variable. Una regla práctica (que se debe de tomar con precaución)
nos dice que un estimador no es confiable si su CV estimado supera 30 %; contrariamente,
estimadores con un CV del 10 % o menos se suelen catalogar como confiables. Otra cantidad
citada en el cálculo del tamaño de muestra es el error relativo, el cual se define como
er = z1− α2 CV (θ̂),
2.2. TAMAÑOS DE MUESTRA Y ERRORES DE ESTIMACIÓN 33
siendo θ̂ el estimador de interés para θ. Para su interpretación, basta notar que si θ̂ es un es-
timador insesgado y la muestra es suficientemente grande, tendremos que aproximadamente,
con una confianza del 100(1 − α) %:
P (|θ̂ − θ| ≤ z1− α2 V (θ̂)) = 1 − α
o
θ̂ − θ V (θ̂) θ̂ − θ θ̂ − θ
P (| | ≤ z1− α2 ) = P (| | ≤ z1− α2 CV (θ̂)) = P (| | ≤ er ) = 1 − α.
θ E(θ̂) θ θ
Ası́, todas las fórmulas dadas en esta sección sobre n se satisfacen si, en lugar de especificarse
e, uno especifica un error relativo er o un coeficiente de variación CV0 para el estimador de
interés a través de la siguiente relación:
Estimar estas cantidades mediante un muestreo piloto (es decir, con una réplica previa,
pero en escala menor del muestreo final).
Tomar p̄ = 12 . Esta es una regla conservadora que simplemente asigna el valor de p̄,
que maximiza el tamaño de muestra. Ası́, uno podrá siempre garantizar, al margen del
verdadero p̄, un error de estimación de a lo más e.
Ejemplo 2.2. La facultad de Ingenierı́a de una universidad cuenta con 1200 alumnos y
está interesada en realizar una encuesta con el fin de determinar, entre otros, el número
de alumnos que tienen una PC en casa. El coordinador de la facultad desea estimar este
34 CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE
total con un error máximo no mayor a los 30 alumnos y una confianza del 95 % ¿A cuántos
alumnos de la facultad se les deberı́a aplicar la encuesta?
Solución: Se desea estimar τ = número de alumnos de la facultad que poseen una PC en
casa con un margen de error no mayor a los 30 alumnos y un nivel de confianza del 95 %.
Dado que la población de alumnos en la facultad es finita (N = 1200) y τ = N p, donde
p denota la proporción de alumnos de la facultad que poseen una PC en casa, el problema
30
equivale a estimar p con un margen de error no mayor a e = 1200 = 0.025 y un nivel de
confianza del 95 %. Dado que p̄ se desconoce, tomaremos la regla conservadora p̄ = 12 . Con
ello, el tamaño de muestra requerido será de
Observaciones
Dado que los tamaños de muestra se han basado en el estudio de un solo parámetro,
es lógico preguntarse qué pasarı́a si en una investigación existen varios parámetros
o variables de interés. En tal caso se sugiere ubicar, según los objetivos del estudio,
cuáles son los parámetros de relevancia. Hecho esto, uno puede obtener tantos tamaños
de muestra como parámetros de interés tenga y tomar el mayor valor de estos. Tal
estrategia garantiza que en todos los casos relevantes uno obtenga a lo más los errores
de estimación pre establecidos.
Los tamaños de muestra calculados deben siempre aproximarse por exceso a un núme-
ro entero; de lo contrario, no satisfacerı́amos el requerimiento del máximo error pre-
establecido. Por otro lado, es importante en la práctica inflar estos tamaños por no
respuesta. La información de tasas de no respuesta en estudios previos, pilotos o simi-
lares es en muchas situaciones fácil de obtener.
Hemos priorizado en el curso el muestreo bajo el contexto que nos interesa estimar
ciertos parámetros poblacionales. Sin embargo, en algunas aplicaciones el estudio es
comparativo o correlacional y más que estimar puntualmente parámetros con una pre-
cisión determinada nos podrı́a interesar, por ejemplo, poder detectar ciertas diferencias
entre las medias o proporciones de las poblaciones a comparar o estimar el efecto de
ciertas variables en un análisis de regresión. Estos análisis estadı́sticos se introducirán
en el capı́tulo 5.
2.3. ASPECTOS COMPUTACIONALES Y EL PAQUETE SURVEY 35
[Link]
Nosotros usaremos, aparte del siempre útil Excel y de ciertas rutinas de R, los paquetes
survey y sampling de R. Del segundo nos ocuparemos en los capı́tulos posteriores. En cuanto
al primero, este tiene esencialmente dos propósitos principales:
El primer paso para realizar un análisis con el paquete survey consiste en crear un objeto
diseño apropiado que contenga la data y la metada necesarias. Esto se hace con la función
svydesign o svrepdesign en caso de que se den pesos de replicación. Las funciones de
análisis usualmente toman como argumento el objeto diseño y una fórmula modelo que
especifica las variables que se usarán. Los nombres de las funciones de análisis para los
objetos creados con svydesign y svrepdesign comienzan con svy y svr, respectivamente.
Seguidamente brindaremos una introducción al uso del paquete survey y de paso presen-
taremos algunas bases reales de datos censales que utilizaremos a lo largo del curso.
[Link]
Cabe comentar, como resumen, que el estado de California exige anualmente una evaluación
de sus escuelas públicas. En tal sentido, el departamento de educación de este estado registra
anualmente el ı́ndice api (de academic performance index), que mide cuán bien va una escuela
36 CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE
library(survey)
data(api)
head(apipop,4)
Aquı́ mostramos los cuatro primeros registros de la base de datos api (que está en
apipop). Consideremos ahora un MASs de escuelas públicas de tamaño 100, donde hemos
fijado la semilla aleatoria anteriormente comentada para que usted pueda replicar los mismos
resultados aquı́ obtenidos.
2.3. ASPECTOS COMPUTACIONALES Y EL PAQUETE SURVEY 37
[Link](12345)
N = dim(apipop)[1]
n = 100
index1 = sample(N,n)
sample1 = apipop[index1,]
Por razones que comentaremos luego, será también interesante agregar a esta base dos
nuevas variables: fpc y pp. La primera es el tamaño de la población (6194); y la otra, la
probabilidad de selección de cada elemento en la población pp = Nn . Ello se hace con
Definamos ahora el siguiente objeto diseño apropiado que contenga la data y metada
necesarias:
El argumento ids es para indicar las variables de conglomeración, las cuales en nuestro
caso no existen y es por ello que colocamos ids=~[Link] argumento fpc (de factor de correc-
ción para poblaciones finitas) indica el tamaño de la población, con lo cual implı́citamente
asumimos que se deben aplicar las formulaciones de corrección para poblaciones finitas y que
se está realizando un muestreo sin reemplazamiento. La notación ∼ indica que la variable
fpc está ya definida en la muestra sample1. Si el argumento fpc se omite, entonces deben
indicarse las probabilidades de selección o los pesos de muestreo, en cuyo caso se estarı́a
asumiendo implı́citamente un muestreo con reemplazamiento. Tanto ids como fpc, aparte
de los valores por defecto, conforman la metadata del diseño.
Otro diseño que podrı́a aplicarse en este mismo ejemplo es un MASc, para lo cual de-
berı́amos tomar formalmente la muestra aleatoria con reemplazamiento mediante
[Link](12345)
sample2 = apipop[sample(N,100, replace=TRUE),]
sample2 = cbind(sample2,aux)
diseMASc
svytotal(~enroll,diseMASs)
## total SE
## enroll NA NA
svymean(~stype, diseMASs)
## mean SE
## stypeE 0.68 0.05
## stypeH 0.20 0.04
## stypeM 0.12 0.03
means1 = svymean(~api00+api99,diseMASs)
means1
## mean SE
## api00 652 12.6
## api99 628 12.9
svycontrast(means1,c(api00=1,api99=-1))
## contrast SE
## contrast 24.5 2.96
svytotal(~enroll,diseMASs,[Link]=T)
## total SE
## enroll 4115727 291390
2.3. ASPECTOS COMPUTACIONALES Y EL PAQUETE SURVEY 39
svytotal(~enroll,diseMASc,[Link]=T)
## total SE
## enroll 3979335 303578
Tenemos también
svymean(~stype, diseMASc)
## mean SE
## stypeE 0.70 0.05
## stypeH 0.11 0.03
## stypeM 0.19 0.04
(means1 = svymean(~api00+api99,diseMASc))
## mean SE
## api00 678 11.6
## api99 648 12.1
svycontrast(means1,c(api00=1,api99=-1))
## contrast SE
## contrast 30.4 2.84
Una justificación formal del último resultado, se puede encontrar en los ejercicios 20 y 28
de este capı́tulo.
por casos pérdidos, que se incluyen para replicar los resultados dados por la UMC. Las va-
riables de interés para esta base de datos serán los puntajes de evaluación en las áreas de
Lectura, Matemáticas y Ciencia y Tecnologı́a (todas en una escala Rasch normalizada a 500
puntos). Para el Ministerio, los niveles de logro son de particular interés. Estos se obtienen
al categorizar los puntajes anteriores en cuatro niveles: previo al inicio, en inicio, en proceso
y satisfactorio.
Luego de instalar el paquete foreign, podremos operacionalizar la base de datos nacional
mediante
library(foreign)
ece19 = [Link]([Link](), [Link]=TRUE)
#[Link]() permite buscar en su hardware el archivo ECE_2S_2019_WEB.sav
setwd("~/Documents/TextoMuestreo2020") # fija el directorio de trabajo (DT)
save(ece19,file='[Link]') # graba el archivo [Link] en su DT
setwd("~/Documents/TextoMuestreo2020")
load("[Link]")
# Filtrando la base de datos para Cajamarca
ece19Am = ece19[ece19$Departamento==levels(ece19$Departamento)[1],]
#save(ece19Am,file='[Link]')
head(ece19Am,3)
Note que, a diferencia de la base de datos api, las unidades en esta base son alumnos y
no colegios.
Supongamos ahora que nuestro interés sea estimar el rendimiento medio de los alumnos
tanto en Lectura (L), Matemáticas (M) y Ciencia y Tecnologı́a (CT), con un margen de error
no mayor a 5 puntos y un nivel de confianza del 95 %. Para encontrar el tamaño de muestra
requeriremos de estimaciones de la varianza de estos puntajes, las cuales las podrı́amos
obtener de la ECE 2018 o a través de un estudio piloto. Si optamos por un piloto de 30
alumnos, la selección correspondiente, ası́ como la estimación de las varianzas requeridas, se
hará como sigue.
[Link](12345)
N = dim(ece19Am)[1]
index1 = sample(N,30)
mp19Am = ece19Am[index1,]
dismp = svydesign(id=~1,fpc=rep(N,30),data=mp19Am)
sigmae2_L = coef(svyvar(~M500_L,dismp,[Link]=T))
sigmae2_M = coef(svyvar(~M500_M,dismp,[Link]=T))
sigmae2_CT = coef(svyvar(~M500_CT,dismp,[Link]=T))
Dado que tenemos tres variables, optaremos, como comentamos, por seleccionar el mayor
tamaño de muestra bajo estas utilizando un redondeo por exceso.
d = 25*N/(qnorm(0.975)^2)
n1 = N*sigmae2_L/(d + sigmae2_L)
n2 = N*sigmae2_M/(d + sigmae2_M)
n3 = N*sigmae2_CT/(d + sigmae2_CT)
(n = ceiling(max(n1,n2,n3)))
## [1] 1662
[Link](12345)
index = sample(N,n)
m19Am = ece19Am[index,]
disem = svydesign(id=~1,fpc=rep(N,n),data=m19Am)
svymean(~M500_L,disem,[Link]=T)
## mean SE
## M500_L 536 1.62
svymean(~M500_M,disem,[Link]=T)
## mean SE
## M500_M 533 2.29
svymean(~M500_CT,disem,[Link]=T)
## mean SE
## M500_CT 469 2.59
meanp_L = svymean(~grupo_L,disem,[Link]=T)
meanp_M = svymean(~grupo_M,disem,[Link]=T)
meanp_CT = svymean(~grupo_CT,disem,[Link]=T)
pr = rbind(meanp_L,meanp_M,meanp_CT)
colnames(pr) = c("Previo al inicio","Inicio","En proceso","Satisfactorio")
pr
La versión de esta base de datos, que utilizaremos a lo largo del texto, se encuentra en el
archivo [Link]. Ella está en formato SPSS y contiene todos los 76 180 registros de personas
privadas de libertad en el paı́s consignadas en el censo y la gran mayorı́a de preguntas de la
encuesta, la cual también se encuentra disponible en la página web del INEI. Para utilizar
la base de datos en R, debemos instalar el paquete foreign y luego invocar los comandos
library(foreign)
#cp16b <- [Link]([Link](), [Link]=TRUE)
cp16b <- [Link]("[Link]", [Link]=TRUE)
cp16 = [Link](cp16b)
cp16_labels <- attr(cp16b, "[Link]")
cp16_cat <- attr(cp16b, "[Link]")
save(cp16,file='[Link]')
La base de datos a utilizar es cp16; mientras que los archivos cp16_labels y cp16_cat
contienen información de, respectivamente, las etiquetas y categorı́as de las variables selec-
cionadas. Como se aprecia, la base de datos cp16 ha sido también grabada para uso futuro
en el formato de R. Esta base tiene, como seguidamente se aprecia, 189 variables, de las
cuales mostramos las primeras 18.
head(cp16[,1:18])
que redondeando nos da un valor de 1053 internos. Si bien usaremos este número, cabe
comentar que ello es si asumimos que todos responderán a la encuesta. En encuestas similares
para la región se han encontrado tasas de no respuesta de entre el 21 y 22 %. Una práctica
que comentamos es la de inflar este número ante la posibilidad de no respuesta. Ello nos
sugerirı́a encuestar a 1285 internos. Para efectos de este ejercicio tomaremos solo 1053, ya
que en nuestro caso es posible acceder a toda la información. Tomada la muestra, estimemos
la edad promedio de los internos, la proporción de internos sentenciados y la proporción de
estos que tienen un abogado. Los códigos siguientes nos permitarán hacer todo ello.
[Link](12345)
load('[Link]')
N = dim(cp16)[1]
index = sample(N,1053)
sample = cp16[index,]
diseMASs = svydesign(id=~1,fpc=rep(N,1053),data = sample)
svymean(~EDAD, diseMASs,[Link]=T)
## mean SE
## EDAD 35.8 0.35
2.3. ASPECTOS COMPUTACIONALES Y EL PAQUETE SURVEY 45
Cuadro 2.4: Distribución de frecuencias del número de internos, condición de género (CG)
y capacidad de los establecimientos penitenciarios en cada oficina regional y departamento
del Perú
46 CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE
svymean(~SITUACION_JURIDICA,diseMASs,[Link]=T)
## mean SE
## SITUACION_JURIDICAProcesado 0.222 0.01
## SITUACION_JURIDICASentenciado 0.778 0.01
svymean(~ABOGADO,diseMASs,[Link]=T)
## mean SE
## ABOGADOSı́ 0.53 0.02
## ABOGADONo 0.47 0.02
Otro análisis de interés podrı́a ser determinar si existe relación entre si el interno consumı́a
drogas o no y el tipo de delito que ha cometido. Antes de analizar ello será conveniente
recodificar la tipicidad del delito a los delitos más comunes, creando la variable DGEN.
Como la prueba indica y se visualiza en la figura 2.2 de barras agrupadas, no encontramos
evidencia de una asociación entre el consumo de drogas y la tipificación del delito.
DGEN = cp16$DEL_GENERICO_CD
levels(DGEN)[c(1,2,3,4,5,7,8,9,10,11,14,16,17,18,19)] = "OTROS"
DGEN = DGEN[index]
DGEN = factor(DGEN,levels(DGEN)[c(2,3,4,5,1)])
[Link](DGEN,sample$DROGAS)
##
## Pearson's Chi-squared test
##
## data: DGEN and sample$DROGAS
## X-squared = 3, df = 4, p-value = 0.6
tab = table(sample$DROGAS,DGEN)
Sí
No
300
250
200
150
100
50
0
Tipos de delito
obtenerse en formato Excel o SPSS desde la página web de esta institución. Una mirada a
la base de datos
library(foreign)
reniec18 = [Link]("BD_Pob_Identificada_2018_Spss.sav")
reniec18 = [Link](lapply(reniec18, trimws))
head(reniec18,3)
revela que la última variable, CANTIDAD, contiene la frecuencia de casos que comparten las
demás variables. Como ilustración, en 2018 se tenı́an 336 varones registrados en el distrito
48 CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE
Cantidad = [Link](paste(reniec18$CANTIDAD))
(N = sum(Cantidad))
## [1] 34894246
(n = qnorm(0.975)^2*0.5^2*N/(qnorm(0.975)^2*0.5^2 + 0.02^2*(N-1)))
## [1] 2401
Para tomar esta muestra requeriremos expandir antes la base de datos de individuos por
la variable CANTIDAD. Esto puede hacerse con el siguiente comando en R, en el cual
generaremos la base de datos expandida [Link]:
reniec18x = reniec18[rep(1:nrow(reniec18),Cantidad),]
reniec18x = cbind(id=1:N,reniec18x)
save(reniec18x,file='[Link]')
load('[Link]')
[Link](12345)
indexp = sample(N,2401)
sampleDNI = reniec18x[indexp,]
sampleDNI[1:7,c(1,8:12)]
diseDNI = svydesign(ids=~1,fpc=rep(N,nrow(sampleDNI)),data=sampleDNI)
Edad=[Link](paste(sampleDNI$EDAD))
diseDNI = update(diseDNI,Edad)
svymean(~Edad>=18,diseDNI)
## mean SE
## Edad >= 18FALSE 0.309 0.01
## Edad >= 18TRUE 0.691 0.01
50 CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE
2.4. Ejercicios
1. Considere una población conformada por 6 personas, a las que se les ha medido el nivel de
hemoglobina en gramos por decilitro, y en las que se ha encontrado las siguientes mediciones
2. Una manera de estimar el tamaño N de una población consiste en usar métodos de captura-
recaptura. Estos empiezan seleccionándose al azar m elementos de la población para que sean
marcados y luego repuestos a la población. Seguidamente se tienen dos estrategias. El método
directo consiste en seleccionar al azar y sin reemplazamiento una muestra de n elementos de
la población para registrar el número de elementos marcados X que se encuentren en ella. El
segundo método, llamado muestreo inverso, consiste en seleccionar secuencialmente al azar
y con reemplazamiento (podrı́a también analizar el caso sin reemplazamiento) elementos
de la población hasta ubicar r elementos marcados. Con ello se tienen los siguientes dos
estimadores de N :
nm mY
N̂1 = y N̂2 = ,
X r
donde Y denota el número de intentos hasta obtener la cuota de r elementos marcados.
a) Usando una expansión de Taylor adecuada, muestre que aproximadamente se cumple que
−m)(N −n) 2 −m)(N −n)
E(N̂1 ) = N + 2N (N
nm(N −1)
y V (N̂1 ) = N (N
nm(N −1)
.
b) Como se aprecia en a), N̂1 es no solo un estimador sesgado de N , sino que presenta
una gran varianza si la muestra correspondiente contiene muy pocos elementos marcados.
Muestre que, contrariamente, N̂2 es un estimador insesgado de N y que tiene una varianza
igual a
N (N − m)
V (N̂2 ) = .
r
Pruebe además que
m2 Y (Y − r)
V̂ (N̂2 ) =
r2 (r + 1)
es un estimador insesgado de la varianza última. ¿Qué desventaja cree que pudiera tener
este método con respecto al muestreo directo?
2.4. EJERCICIOS 51
c) Suponga que para estimar el número de personas N que pertenecen a un gran consorcio se
han seleccionado al azar a 20 de sus trabajadores, a quienes se les ha registrado y colocado
un sello en su DNI. Tiempo después, la Dirección de Recursos Humanos tomó un MASs de
100 trabajadores, y encontro que 4 de ellos tenı́an el sello en el DNI. Por su parte, usted
optó más bien por seleccionar secuencialmente al azar y con reemplazamiento trabajadores
del consorcio hasta ubicar a 5 con el sello en el DNI, y realizó un total de 127 registros.
Obtenga las estimaciones correspondientes de N y de las varianzas de estos estimadores.
Comente.
4. Considere una población finita de tamaño N en la que se desea estudiar una variable
estadı́stica y, la cual toma un valor muy pequeño para el primer elemento del marco muestral
y1 y un valor muy grande para el último elemento del marco muestral yN . Con el propósito
de estimar la media de y para esta población, µ, se ha propuesto, sobre la base de un MASs
de tamaño n, el estimador
Ȳ + c si y1 pertence a la muestra e yN no pertence a la muestra
Ȳc = Ȳ − c si y1 no pertence a la muestra e yN pertence a la muestra
Ȳ en otro caso,
5. Suponga que desea estimar, con un error no mayor al 3 % y una confianza del 95 %, la
prevalencia de una rara enfermedad al interior de una pequeña comunidad de 500 habitantes.
Se espera que la proporción de personas de la comunidad que tengan la enfermedad sea
pequeña, lo cual se ha evidenciado en una muestra piloto realizada a 30 de sus habitantes
en la que se encontró que solo 2 de ellos tenı́an la enfermedad.
a) Halle el tamaño de muestra apropiado para este estudio.
b) Puesto que la proporción a estimar es extrema, utilice más bien un IC de Wilson para
obtener el tamaño de muestra. Comente la diferencia encontrada con a) e indique cuál de
los dos tamaños de muestra utilizarı́a para el estudio. Justifique.
CnN +n−1 .
52 CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE
7. En una empresa de 3200 empleados se realizaron dos encuestas independientes por MASs
de tamaños 100 y 64 a fin de medir, entre otras cosas, el tiempo diario que le toma a un
empleado llegar de su casa a la empresa. Las divisiones de la empresa, que realizaron estas
encuestas, no supieron que la otra lo habı́a realizado y al enterarse han decidido unir sus
bases de datos.
a) ¿Conforma la media de las 164 observaciones del tiempo de interés un estimador insesgado
del tiempo medio de transporte de un empleado a la empresa?
b) Si se define como estimador de la varianza de los tiempos de transporte a
100S12 + 64S22
S2 = ,
164
donde S12 y S2 son las varianzas muestrales de estos tiempos en las encuestas con 100 y 64
empleados, respectivamente, ¿es este un estimador insesgado?
c) Obtenga el error estándar de estimación estimado del estimador en a), si en las muestras
de tamaños 100 y 64, se obtuvieron desviaciones estándar muestrales para los tiempos de
transporte de 8.625 y 10.162 minutos, respectivamente.
8. Una ciudad cuenta con 720 fábricas, de las cuales 10, 20 y 8 pertenecen, respectivamente, a
los consorcios A, B y C. El Ministerio de Trabajo desea hacer un estudio de salud ocupacional
en las fábricas de la ciudad. Dado que muchos de los indicadores a estudiar son proporciones,
el Ministerio desea tomar un MASs de tamaño n de tal manera que pueda estimar cualquier
proporción con un margen de error no mayor a 0.1 y un nivel de confianza del 95 %.
a) ¿Cuál deberı́a ser el tamaño de muestra a tomarse?
b) ¿Con qué probabilidad se seleccionará en la muestra, del tamaño tomado en a), a alguna
de las fábricas del consorcio B?
c) Suponga que tomada la muestra en a), y dadas las caracterı́sticas especiales de los 3
consorcios en mención, el Ministerio ordena que, de ser seleccionada cualquier fábrica de
algunos de los consorcios, se seleccione igualmente a todas las fábricas del consorcio elegido.
¿Cuál serı́a el tamaño de muestra final que esperarı́a obtener a través de este procedimiento?
9. En cierta área de una ciudad, que contiene 14 848 residencias, se desea estimar el número
promedio de personas µ por residencia. Si en un MASs de tamaño 30 se obtuvieron las
siguientes cantidades de personas por residencia:
5, 6, 3, 3, 2, 3, 3, 3, 4, 4, 3, 2, 7, 4, 3, 5, 4, 4, 3, 3, 4, 3, 3, 1, 2, 4, 3, 4, 2, 4.
10. Su distrito, que cuenta con N viviendas, participará en una encuesta por MASs de
tamaño n. Suponga que existe una probabilidad constante q de que una vivienda del distrito
no responda la encuesta. Para prevenir la no respuesta, el supervisor ha decidido, de ser
necesario, seleccionar al azar y sin reemplazamiento durante un segundo dı́a un número
igual al número de viviendas sin respuesta del primer dı́a de entre las viviendas aún no
seleccionadas.
a) ¿Con qué probabilidad será encuestada su vivienda el primer dı́a?
b) Si en el primer dı́a su vivienda no es seleccionada y no hubo respuestas en M viviendas,
¿con qué probabilidad será seleccionada su vivienda el segundo dı́a?
c) Si sus padres residen en otra vivienda de su distrito, ¿qué probabilidad existe de que su
vivienda y la de sus padres sean seleccionadas?
d) ¿Con qué probabilidad no será posible completar el tamaño de muestra que ha sido
planificado para la encuesta?
e) Obtenga d) si q = 0.06 y n = 100.
11. Para realizar una encuesta de opinión a una población de 150 000 habitantes en la que
se encuentran usted y un amigo suyo, se ha diseñado un MASs de tamaño 100.
a) ¿Con qué probabilidad integrará usted la muestra?
b) Si 5 muestras como las anteriores son secuencialmente tomadas de esta población a través
de un MASs, ¿qué probabilidad existe de que ni a usted ni a su amigo se les pida su opinión?
Asuma que los encuestadores de estas muestras no toman en cuenta el registro de si una
persona fue o no seleccionada en otra de las muestras.
c) ¿Con qué probabilidad le pedirán en b) dos veces su opinión?
12. En este capı́tulo vimos que S 2 es un estimador insesgado de la varianza poblacional σN
2
2
en un MASc y de σN −1 en un MASs, pero ¿qué hay de su varianza?
a) Muestre que
n n N N
1 1
S2 = (Yi − Yj )2 = (yi − yj )2 δi δj .
2n(n − 1) i=1 j=1 2n(n − 1) i=1 j=1
13. Replique el estudio ECE 2019 de la subsección 2.3.2 para la DRE de Lima Metropolitana,
pero use, en esta ocasión, los datos de la ECE 2018 para obtener el tamaño de muestra
adecuado para el estudio. Además, dado que esta base de datos incluye un indicador de
nivel socioeconómico ISE, indique mediante un MASs si es que se puede hablar o no de una
asociación significativa entre el nivel socioeconómico y los niveles de logro en matemáticas.
Use un nivel de significación de α = 0.05.
14. Una población cuenta con un total de N personas y es de interés realizar en ella un MASc
de tamaño n = 5.
a) Halle la función de probabilidad y el valor esperado de la variable aleatoria X que denota
el número de personas distintas que contendrá la muestra.
b) Suponga que extraı́da la muestra anterior es de interés estimar el total τ de una variable
y, para lo cual usted multiplicará por una constante C la suma de todos los valores de y en
la muestra que correspondan solo a personas distintas. ¿Cuál serı́a el valor de C que haga
de este un estimador insesgado del total?
c) Halle la varianza del estimador construido en b).
d) Utilice los números aleatorios
15. En un paı́s se ha diseñado una encuesta con el fin de estimar, mediante un MASs, su
tasa de desempleo, el cual se cree que cree está en alrededor el 10 % de la PEA (población
económicamente activa). En este paı́s, la PEA se define como la población de ciudadanos de
14 años o más de edad y constituye, según el último censo, el 65 % de la población, la cual
fue calculada en 2.3 millones de habitantes. Si se quiere estimar la tasa de desempleo con un
error no mayor al 1 % y un nivel de confianza del 95 %,
a) ¿Cuál serı́a el tamaño de muestra a tomar?
b) El costo por cada encuesta se ha estimado en 3 unidades monetarias (u.m.), pero se tiene
un presupuesto de tan solo 15 000 u.m. Si se tomará en la muestra la mayor cantidad de
personas que pudieran costearse con este presupuesto, ¿cuál serı́a el margen de error que
deberı́a de reportar en este estudio?
c) Suponga que otro interés de la encuesta, es estimar el monto total mensual de ingresos
que las personas no desempleadas de la PEA destinan a su consumo. Indique cómo podrı́a
estimar este total y su correspondiente error estándar de estimación, ejemplificando esto si
en la muestra tomada se encontró una proporción muestral de desocupados del 12.5 % de
la PEA, teniendo ellos un gasto promedio de consumos de 4500 u.m. con una desviación
estándar de 1230 u.m. Sugerencia: De una mirada al siguiente ejercicio.
2.4. EJERCICIOS 55
16. En una zona rural de 3000 viviendas se tomó un MASs de tamaño 100. Un interés
del estudio es estimar el consumo total mensual de agua de los hogares que cuentan con
servicio de agua y desagüe, τd . El problema es que antes de tomarse la muestra no es posible
identificar si una vivienda de la zona tiene o no estos servicios.
a) En general, dada una población estadı́stica Py = {y1 , y2 , . . . , yN } y un MASs de ella de
tamaño n, muestre que para cierto subconjunto de esta población (dominio d) el estimador
N n
N N
τ̂d = yi γi δi o τ̂d = Yi γ i ,
n i=1 n i=1
2 1
σ∗d = ((Nd − 1)σd2 + qd Nd µ2d ) pd (σd2 + qd µ2d ),
N −1
donde: Nd es el tamaño del dominio d; µd es la media de y en el dominio d; pd es la proporción
de unidades en la población que pertenecen al dominio d, y qd = 1 − pd .
c) Halle la varianza de τ̂d .
d) Muestre que si se desea estimar τd con un error de estimación no mayor a e y una confianza
del 100(1 − α) %, el tamaño de muestra apropiado viene dado por
e) Muestre que el tamaño en d), en caso de que se desee obtener un coeficiente de variación
de a lo más CV0 para el total estimado, se puede aproximar por
CVd2 + qd
n= CVd2 +qd
,
N
+ pd CV02
donde
σd2
CVd2 =
µ2d
denota el cuadrado del coeficiente de variación de y en el dominio d.
f) Halle el tamaño de muestra necesario para una encuesta futura que desea estimar τd con
un margen de error no mayor al millón de litros y una confianza del 95 %. Suponga que en
la encuesta actual se encontró que 60 hogares contaban con servicios de agua y desagüe y
que en promedio ellos consumieron en el mes 5100 litros con una desviación estándar de 380
litros ¿Qué estimación de τd dio la actual encuesta?
56 CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE
17. Consideremos la siguiente base de datos, que llamaremos Province91, tomada del texto de
Lehtonen y Pahkinen (2004). Esta contiene información censal de las 32 municipalidades de
una de las 14 provincias (Finlandia central) en las que se dividı́a Finlandia a finales de 1991.
En esta se registran para cada municipalidad una variable de estratificación (Stratum con
1 = Urbano y 2 = Rural), de conglomeración (Cluster formado al juntar 4 municipalidades
geográficamente vecinas), de población (POP91), de fuerza laboral o población económica-
mente activa (LAB), del número de personas desempleadas (UE91) y del número de hogares
sobre la base del censo de 1985 (HOU85). La base de datos es la siguiente:
18. Usando la base de datos api, obtenga el tamaño de muestra que se requerirı́a para estimar
el ı́ndice api del 2000 de tal manera que se tenga para este un CV del 3 % con una confianza
del 95 %. Tomada la muestra, estime también el total de matriculados y la proporción de
colegios por tipo de escuela. Compare, finalmente, los verdaderos valores (que en un estudio
real se desconocen) con las estimaciones encontradas.
19. Mediante un MASs piloto de tamaño n1 se ha calculado que el tamaño final de muestra
a tomarse para estimar la media de una variable y con un máximo error de estimación de
e y una confianza del 100(1 − α) % es n. Un colega sugiere que en vez de seleccionarse las
n observaciones bastarı́a tomarse un MASs de tamaño n − n1 de la población que no ha
sido muestreada, pues argumenta que la muestra piloto ya recabó información de y y que
juntando esta con la última completarı́a el tamaño n requerido. ¿Estarı́a usted de acuerdo
con su colega? Justifique.
20. Suponga que para un MASs de tamaño n sobre una población de tamaño N se tiene
interés en estudiar dos variables estadı́sticas: x e y.
a) Muestre que la covarianza entre las medias muestrales de estas variables viene dada por
n σxy
Cov(X̄, Ȳ ) = (1 − ) ,
N n
donde σxy = N 1−1 N i=1 (xi − µx )(yi − µy ) es la covarianza poblacional entre x e y y µx y µy
son las medias poblacionales de x e y, respectivamente.
b) Proponga algún estimador insesgado para esta covarianza.
21. La Internet Movie Database (IMDb) es una base de datos en lı́nea que almacena infor-
mación relacionada con pelı́culas, personal de equipo de producción (incluidos directores y
productores), actores, series de televisión, programas de televisión, videojuegos, actores de
doblaje y, más recientemente, personajes ficticios que aparecen en los medios de entreteni-
miento visual. Recibe más de 100 millones de usuarios únicos al mes y cuenta con una versión
móvil. Una de sus secciones, “The IMDb Top 250”, es destinada a ser un listado de las 250
pelı́culas con mejor calificación, el cual se basa en calificaciones de los usuarios registrados
del sitio web. En esta sección, cada pelı́cula aparece con una estrella y un ranking de a lo
más 10 puntos. Debajo de este ranking uno puede acceder a las calificaciones otorgadas por
los usuarios en forma de un histograma. La intención de este miniproyecto es estimar, con
un margen de error de a lo más 0.035 puntos y un nivel de confianza del 95 %, la desvia-
ción estándar media (como medida de controversia) de los rankings asignados a estas 250
pelı́culas.
a) Halle el tamaño de muestra necesario para este estudio.
b) Tome la muestra respectiva y reporte la estimación pedida y con su intervalo de confianza
o error estándar de estimación estimado.
c) Según sus resultados, ¿podrı́a decir que El club de la pelea (1999) es una pelı́cula de
calificación controversial?
58 CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE
22. En esta actividad sugerida por Gnanadesikan (1997) se tiene la siguiente figura que
contiene 100 rectángulos. El objetivo es estimar el área total de todos los rectángulos tomando
una muestra de 20 rectángulos, donde se asume que cada cuadradito de la grilla tiene un
área de una unidad.
23. Luego de realizarse un MASs de tamaño n en una población de tamaño N , se encontró que
por error el marco muestral contenı́a 2 unidades que se repetı́an, respectivamente, 3 y 7 veces.
a) Halle la probabilidad de selección de cada una de las unidades en la población.
b) Halle la función de probabilidad del número de unidades que deberán descartarse en la
encuesta.
24. El sector salud está interesado en saber cuál es la estatura promedio de los habitantes
de una región particular que cuenta con 700 habitantes. De los datos de los registros de las
clı́nicas de salud de la región, se realizó un MASs con 35 registros de esta población y se
obtuvo la siguiente tabla:
a) Estime la media y varianza de las estaturas en esta población, ası́ como la proporción de
mujeres en esta. Puede hacerlo manualmente o con R.
b) ¿Cuál es el error máximo de estimación que se está asumiendo en la estimación de la
estatura media para un nivel de confianza del 95 %?
c) Si se hubiese tenido interés en estimar la estatura media de esta población con un margen
de error (o error máximo de estimación) de un centı́metro a un nivel de confianza del 95 %,
¿hubiese sido suficiente el tamaño de muestra tomado en el estudio?
d) Si en un estudio futuro se desea estimar la estatura media de esta población de tal manera
que se tenga un CV no mayor al 0.5 %, ¿cuál serı́a el tamaño de muestra? ¿Es aquı́ necesario
fijar el nivel de confianza?
60 CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE
25. En una investigación que pretende estudiar caracteriśticas de los colegios y la relación
entre la propensión al consumo de alcohol por parte de adolescentes varones del quinto grado
de secundaria y variables como el control parental, la regulación emocional y la madurez
social, se desea tomar un MASs de colegios con alumnos varones de la Unidad de Gestión
Local (UGEL) 03 de la dirección regional educativa de Lima Metropolitana. Puesto que la
propensión se medirá a nivel de colegios mediante una proporción, es de interés estimar esta
proporción con un margen de error no mayor a 0.06 y un nivel de confianza del 95 %. Usando
en lo posible el paquete survey de R,
a) Halle el tamaño de muestra requerido para este estudio. Para su marco muestral puede
usar la siguiente página web del Ministerio de Educación:
[Link] ,
la cual contiene información de todos los colegios del paı́s basada en el último censo nacional
escolar
b) Tome la muestra anterior y estime, en base a ella, el número total de alumnos varones
de quinto año de educación secundaria matriculados en la UGEL 03 y la la proporción de
colegios de gestión privada con alumnos varones de quinto año de educación secundariade
en la UGEL 03. En ambos casos obtenga el correspondiente error de estimación estimado.
26. En el conteo rápido de votos realizado a 1600 urnas seleccionadas al azar de una gran po-
blación se obtuvo que 812 votaron por el candidato opositor, 480 lo hicieron por el candidato
de gobierno, 50 votaron en blanco y el resto fueron votos inválidos. Al 95 % de confianza,
a) ¿Cuál es el el máximo error de estimación que se comete en esta encuesta al estimar la
proporción de ciudadanos que votan por el candidato opositor?
b) Mediante un intervalo de confianza, ¿podrı́a afirmar que el candidato opositor ganará las
elecciones? Para esto se requiere el 50 % de votos válidos más uno.
27. Suponga que es de su interés estimar el tiempo medio que una persona se tardarı́a en
llegar desde el campus de la PUCP al centro comercial Real Plaza Salaverry en auto. Una
manera directa de medir este tiempo es a través del aplicativo Google Maps, el cual se
puede descargar gratuitamente en cualquier PC, laptop o celular. Este aplicativo calcula,
por medio del GPS, el tiempo que una persona se demorarı́a en llegar de un lugar a otro
bajo distintos medios de transporte. Estos tiempos, sin embargo, cambian según el horario,
en especial si el medio es un auto, debido a congestiones en el tráfico, accidentes u otros. El
aplicativo también brinda varias rutas alternativas, de las cuales usted deberá tomar la de
menor tiempo. En este problema se le pide estimar el tiempo medio anterior y su intervalo
de confianza al 95 % mediante un MASs de tal manera que su error de estimación sea de a
lo más de un minuto. Para su procedimiento de selección (ignorando aspectos estacionales)
divida una semana completa de 7 dı́as en 336 perı́odos de media hora cada uno. Tome luego al
azar y sin reemplazamiento el número de perı́odos adecuados y en cada perı́odo seleccionado
2.4. EJERCICIOS 61
registre en cualquier momento de ese perı́odo la medición del tiempo en minutos dada por el
aplicativo. Reporte, finalmente, la estimación del tiempo medio y del intervalo de confianza
y compruebe si el error máximo predeterminado es el especificado.
28. En la subsección 2.3.1 obtuvimos el error estándar de estimación para la diferencia de
medias del ı́ndice de rendimiento api para 1999 y el 2000.
a) Tome en esta base de datos un MASs de tamaño n = 500 y estime con la librerı́a survey
la diferencia de medias del ı́ndice api para estos años.
b) Obtenga, con la librerı́a survey, un intervalo de confianza al 95 % para la diferencia
anterior.
c) Con la misma muestra tomada en a) obtenga el intervalo de confianza b), pero ahora sin
usar el paquete survey.
Capı́tulo 3
3.1. Introduccción
Cuando la variable de interés asume en promedio distintos valores sobre diferentes sub-
conjuntos de la población, uno podrı́a obtener estimaciones mucho más precisas de tomar
en cuenta esta segmentación. En una muestra estratificada, la población se particiona en H
subconjuntos o estratos que tienen la propiedad de ser heterogéneos entre sı́ pero homogéneos
al interior. La idea aquı́ es extraer una muestra independiente en cada estrato (usualmente
mediante un MASs) y, posteriormente, reunir esta información para obtener estimaciones
globales de la población.
Entre las razones para optar por un muestreo aleatorio estratificado podemos citar las
siguientes:
63
64 CAPÍTULO 3. MUESTREO ALEATORIO ESTRATIFICADO
Esta aproximación puede no ser adecuada si los tamaños de muestra en los estratos son
pequeños, en cuyo caso se recomienda el uso de una aproximación t dada por
ˆ Ȳ ), Ȳ + t1− α (d)SE(
[Ȳ − t1− α2 (d)SE( ˆ Ȳ )],
2
siendo ch = Nh (Nnhh−nh ) .
En el caso de la estimación de una proporción basta considerar en el desarrollo anterior
a una variable dicotómica y, ası́ el error estándar de estimación estimado para la proporción
global estimada
H
Nh
p̄ = p̄h ,
h=1
N
donde p̄h es la proporción muestral en el estrato h, se reduce a
H
Nh nh p̄h (1 − p̄h )
ˆ
SE(p̄) = ( )2 (1 − ) .
h=1
N Nh n h − 1
o como
H nh
1
Ȳ = ωhi Yhi ,
N h=1 i=1
donde ωhi es un peso o factor de expansión dado por
Nh 1
ωhi = = .
nh P (δhi = 1)
Este se puede interpretar como el número de unidades en la población del estrato h que
es representada por cada miembro de la muestra. Si, por ejemplo, la población tiene 2000
sujetos y ella está estratificada por sexo con 1200 hombres y 800 mujeres, entonces en un
MAE de 200 hombres y 200 mujeres, cada hombre de la muestra tiene un peso de 6 y cada
mujer un peso de 4. En otras palabras, cada hombre se representa a sı́ mismo y a 5 más que
no están en la muestra; mientras que cada mujer se representa a sı́ misma y a 3 más que no
están en la muestra. Luego, como cada unidad de la muestra se puede pensar que representa
a cierta cantidad de elementos de la población, la muestra completa puede pensarse que
representa a toda la población. De aquı́ el nombre alternativo para los ωhi de factores de
expansión.
Otro elemento importante a lo largo del texto lo constituirá el efecto de diseño. El efecto
de un diseño al estimar un parámetro θ mediante un estimador θ̂ se define como el parámetro
def f , que resulta del cociente entre la varianza de θ̂ bajo el diseño en estudio (c) y la
varianza de θ̂ bajo un MASs, ambos con un mismo tamaño de muestra. El diseño MASs en
el denominador es tomado aquı́ como un diseño de referencia o benchmark. Formalmente se
expresa ası́:
Vc (θ̂)
def f (θ̂) = .
VM ASs (θ̂)
Un diseño, por tanto, será más eficiente mientras su def f sea cada cada vez menor que
1. Ello, en la práctica, como más adelante veremos en el muestreo complejo, es difı́cil de
alcanzar. El efecto de diseño de un MASc en la estimación de la media es, por ejemplo:
2
VM ASc (Ȳ ) σN /n N −1
def f (Ȳ ) = = n 2
= .
VM ASs (Ȳ ) (1 − N )σN −1 /n N −n
Ası́, un MASc resulta ser más ineficiente que un MASs al estimar la media; aunque para
tamaños de población N suficientemente grandes, tal pérdida de eficiencia es mı́nima. Note
en este caso que el efecto de diseño se obtiene de forma directa, lo cual en general no es cierto,
pues tal dependerá de algunos parámetros poblacionales, los cuales requieren estimarse. El
problema con la estimación del def f es que para hacerlo solo contamos con la data del
diseño utilizado y no con la data bajo el MASs. En tal sentido, se debe ver cómo estimar
VM ASs (θ̂) con la data proveniente del diseño complejo. Una manera de hacer esto en el MAE
se muestra en el ejercicio 3.7.4.
3.3. PESOS DE MUESTREO Y EFECTOS DE DISEÑO 67
ˆ f = V̂M AE (Ȳ ) ,
def
V̂M ASs (Ȳ )
donde V̂M AE (Ȳ ) se calcula mediante (3.1) y V̂M ASs (Ȳ ) por
n σ̂ 2
V̂M ASs (Ȳ ) = (1 − ) ,
N n
siendo σ̂ 2 una estimación de la varianza de la población de la variable de interés y bajo un
MAE. Esta, obtenida a través del objeto diseño diseMAE (definido por svydesign), no es
la misma a la dada por la del ejercicio 3.7.4, ya que utiliza, como lo veremos en el capı́tulo
5, los pesos de muestreo del diseño (sea este un MAE o no) y una función de probabilidad
empı́rica ponderada derivada de tales pesos.
En un MAE, los efectos de diseño tienden por lo general a ser menores que 1 e indican la
mayor eficiencia de un MAE con respecto a un MASs, sobre todo si la variable de estratifica-
ción logra bien separar a los estratos en grupos relativamente homogéneos. Una ilustración
del cálculo de estos efectos y de sus estimaciones se presenta en el siguiente ejemplo.
Ejemplo 3.1. Considere una población de N = 8 domicilios, donde son conocidas las varia-
bles renta familiar en unidades monetarias y estrato socioeconómico (A = alto o B = bajo).
Los valores de estas variables se resumen en la siguiente tabla:
Unidad 1 2 3 4 5 6 7 8
Renta 13 17 6 5 10 12 19 6
Estrato B A B B B A A B
A fin de estimar la renta media familiar, se decide efectuar un MAE con 2 observaciones
por estrato. Obtenga el efecto de diseño de este MAE y estı́melo en caso se desconozcan los
valores de toda la población.
Solución: Calculemos primero el efecto de diseño a través del código siguiente:
N = 8
n = 4
Nh = c(3,5)
nh = c(2,2)
Renta = c(13,17,6,5,10,12,19,6)
NSE = c("B","A","B","B","B","A","A","B")
RR = [Link](Renta,NSE)
Vmae = sum((Nh/N)^2*(1-nh/Nh)*by(Renta,NSE,var)/nh)
68 CAPÍTULO 3. MUESTREO ALEATORIO ESTRATIFICADO
Vmas = (1-n/N)*var(Renta)/n
(deff = Vmae/Vmas)
## [1] 0.482
El MAE es, en este caso, mucho más eficiente que un MASs con un efecto de diseño
marcadamente menor que 1, lo cual se preveı́a dadas las marcadas diferencias de rentas
entre ambos estratos socioeconómicos. Tal efecto, sin embargo, se ha podido calcular solo
porque contamos con la data poblacional. En la mayorı́a de situaciones, esta es desconocida
y requerirá ser estimada con los valores de la muestra. Si realizamos el MAE pedido con
[Link](12345)
RRm = RR[c(sample(which(RR$NSE=="A"),2),sample(which(RR$NSE=="B"),2)),]
una manera de estimar el efecto de diseño podrı́a ser utilizando lo presentado en el ejercicio
3.7.4. Bajo este enfoque obtendremos la siguiente estimación:
Vmae_e = sum((Nh/N)^2*(1-nh/Nh)*by(RRm$Renta,RRm$NSE,var)/nh)
Ybar = sum((Nh/N)*by(RRm$Renta,RRm$NSE,mean))
s2y = by(RRm$Renta,RRm$NSE,function(x) sum(x^2))
VYbarmas_e = (N-n)/(n*(N-1))*(sum((Nh/(nh*N))*s2y) - Ybar^2 + Vmae_e)
(deff1_e = Vmae_e/VYbarmas_e)
## [1] 0.486
## Renta
## 0.447
svymean(~Renta,diseMAE,deff=T)
## mean SE DEff
## Renta 10.81 1.23 0.45
3.4. TAMAÑOS DE MUESTRA 69
o equivalentemente:
H
Nh S 2
( )2 h
h=1
N nh
o el costo total de muestreo:
H
C = c0 + ch nh
h=1
o equivalentemente:
H
C̃ = C − c0 = ch nh ,
h=1
sujeto a fijar uno de ellos. Dado que los tamaños de muestra nh por estrato serán finalmente
una fracción ah de n; vale decir
nh = ah n,
la proposición siguiente nos brinda la distribución óptima de los ah que resuelve el problema
de minimización dual anterior.
Proposición 3.1. En un MAE, con función de costo lineal, la varianza V̂est es mı́nima para
un costo total fijo o este costo es mı́nimo para una varianza V̂est fija si
N h Sh
√
ch
ah = H N j Sj
. (3.2)
j=1 √cj
70 CAPÍTULO 3. MUESTREO ALEATORIO ESTRATIFICADO
sujeto a que uno de los dos términos en este producto sea fijo. Por lo previamente desarrolla-
do, tenemos entonces que la solución de este problema se obtendrá cuando para cada estrato
h se cumpla √
ch nh
= k,
( NNh ) √Snhh
N h Sh
nh = k √ .
N ch
n n
Más aún, como n = h=1 nh , se tiene que k = H Nj Sj . Esto nos conduce a los ah descritos
√
j=1 N cj
en la proposición.
es decir, cuando los tamaños de muestra en cada estrato se toman de manera directa-
mente proporcional a la variabilidad y al tamaño del estrato. Este es un caso particular
de (3.2) si se consideran costos iguales.
Ejemplo 3.2. En el siguiente ejemplo, tomado de Mendenhall et al. (2007), una empresa
publicitaria tiene interés en determinar cómo enfatizar la publicidad televisiva en una deter-
minada región, y decide realizar un muestreo aleatorio estratificado para estimar el número
72 CAPÍTULO 3. MUESTREO ALEATORIO ESTRATIFICADO
promedio de horas por semana que se ve televisión en los hogares de la región. Esta compren-
de dos pueblos, A y B, y un área rural, los cuales serán tomados como estratos. El pueblo A
está en torno a una fábrica, y la mayorı́a de los hogares son de trabajadores industriales con
niños en edad escolar. El pueblo B es un suburbio exclusivo de una ciudad vecina y consta
de habitantes mayores con pocos niños en casa. Existen 155 hogares en el pueblo A, 62 en el
pueblo B y 93 en el área rural. Puesto que la información se recopilará mediante encuesta
con visita a los hogares, la empresa debe de tomar en cuenta el costo de una observación.
El costo por observación en cada pueblo se ha estimado en 9 dólares y en 16 dólares para el
área rural debido a costos de transporte. Si las desviaciones estándar del número de horas
que se ve televisión (aproximadas por las varianzas muestrales de una encuesta previa) son
de 5, 15 y 10, respectivamente, para el pueblo A, B y área rural, encuentre el tamaño global
n y los tamaños de muestra por estrato que permitan a la empresa estimar, con el mı́nimo
costo, el tiempo medio que se ve televisión con un lı́mite para el error de estimación de una
hora y un nivel de confianza del 95 %.
Solución: Según los datos, tenemos la siguiente tabla para los tamaños de muestra por estrato
(Nh ), costos unitarios de muestreo por estrato (ch ), desviaciones estándar estimadas por
estrato (Sh ) y, consecuentemente, asignaciones óptimas por estrato (ah ):
N h Sh
Estrato (h) Nh ch Sh √
ch
ah
Pueblo A 156 9 5 258.33333 0.32258
Pueblo B 62 9 15 310 0.3871
Área rural 93 16 10 232.5 0.29032
Suma 800.83333
Puesto que la intención en este estudio es obtener un error de estimación de a lo más una
hora (e = 1) con un nivel de confianza del 95 % y un mı́nimo costo, el tamaño de muestra
del estudio estará dado por
H Nh2 2
h=1 ah Sh
n= H = 135.6977 136.
( 1311 2
.96 ) + h=1 Nh Sh
2
Deberemos, finalmente, distribuir estas encuestas a tomar en los estratos, obteniéndose ası́,
los siguientes tamaños por estrato para, respectivamente, los pueblos A, B y el área rural:
3.5. Dominios
Supongamos que deseamos estimar la media de una variable estadı́stica y para un dominio
d bajo un MAE. Para esto podrı́amos usar un estimador de razón combinado que estime tanto
el total τd en el dominio como su número de unidades Nd ; es decir,
H nh H
τ̂d h=1 i=1 ωhi Yhi γdi|h τ̂dh
Ȳd = = H nh
= H h=1 ,
N̂d h=1 ω γ
i=1 hi di|h h=1 h p̄dh
N
siendo ωhi = Nnhh un peso o factor de expansión; γdi|h , un indicador no aleatorio 0-1 que
vale 1 si la i-ésima unidad seleccionada en el estrato h pertenece al dominio d; p̄dh = nndh h
,
la proporción muestral de unidades en el estrato h que pertenecen al dominio d, y τ̂dh el
estimador del total de y para el dominio d del estrato h, el cual describimos en el ejercicio
16 del capı́tulo 2. Puesto que este es un estimador de razón combinado, como el que se
estudiará en el capı́tulo 5, se sigue de (5.7) y de la parte b) del ejercicio 16 en el capı́tulo 2
que una aproximación de la varianza de Ȳd viene dada por
H
1 2 2
nh σ∗hz
V (Ȳd ) = N (1 − )
Nd2 h=1 h Nh n h
H
1 Nh2 nh Ndh − 1 2 Ndh Ndh 2
= 2 (1 − ) ( )σ + (1 − )(µdh − µd ) , (3.4)
Nd h=1 nh Nh Nh − 1 dh Nh − 1 Nh
2
donde σ∗hz es la varianza de todos los valores z∗ih = (yih − Nτdd )γid|h en el estrato h, µd la
media de todas las Nd unidades del dominio d, Ndh el número de unidades en el estrato h
2
que pertenecen al dominio d y µdh y σdh la media y varianza de estas últimas unidades.
Una simplificación de (3.4) puede obtenerse si asumimos que la proporción muestral p̄dh
es más o menos la misma que la proporción poblacional respectiva pdh = NNdh h
. Ello nos lleva
a la aproximación
H
Ndh 2 1 nh 2
V (Ȳd ) = ( ) (1 − ) σdh + qdh (µd h − µd )2 ,
h=1
Nd n h Nh
donde qdh = 1 − pdh . Para la consideración de los tamaños de muestra, podrı́amos fijar una
asignación a los dominios del número de unidades para la muestra del estrato h igual a
ndh = nh pdh . Ası́, si substituimos ello en la ecuación anterior, obtendremos que
H
Nh nh N (σ 2 + qdh (µdh − µd )2 )
V (Ȳd ) = ( )2 (1 − )pdh ( )2 dh .
h=1
N Nh Nd nh
2
donde σ̂∗hz denota la varianza muestral de los valores z∗hi = (yhi − θ̂)γdi|h en el estrato
h. Si bien los cálculos parecen complicados, tenemos por fortuna que estos se encuentran
implementados en el paquete survey de R a través del comando svyby. Este nos provee,
por ejemplo, de las estimaciones de las medias por dominio Ȳd y sus errores estándar de
estimación estimados, los que se obtienen como la raı́z cuadrada de (3.5). En la siguiente
sección ilustraremos el uso de tal comando.
data(api)
attach(apipop)
table(stype)
## stype
## E H M
## 4421 755 1018
[Link](12345)
index = c(sample(which(stype=="E"),100),sample(which(stype=="H"),50),
sample(which(stype=="M"),50))
sample1 = apipop[index,]
Construyamos ahora una base de datos que contenga la muestra obtenida más el agregado
de dos variables, una asociada a los pesos de muestreo (pw) y otra que especifique el tamaño
del estrato que servirá para determinar el factor de corrección por finitud (fpc). En survey uno
puede encontrar también una base de datos similar llamada apistrat. Nosotros llamaremos
a nuestra base de datos sampleMAE.
76 CAPÍTULO 3. MUESTREO ALEATORIO ESTRATIFICADO
Definamos ahora un objeto diseño apropiado que contenga la data y metada necesarias.
Esto se hace con
Note que este comando tiene con respecto al MAS dos diferencias: una obvia
strata=~stype que especifica la variable de estratificación y otra menos obvia dada por
la introducción de la variable fpc del tamaño de la población en cada estrato. Si escribimos
disMAE obtendremos:
disMAE
svytotal(~enroll,disMAE,[Link]=T)
## total SE
## enroll 3831118 121207
svymean(~api99+api00,disMAE)
## mean SE
## api99 645 10.34
## api00 679 9.75
Como se aprecia, el MAE ha reducido (con relación al MAS) el error estándar de estima-
ción. Esto es más evidente en la estimación del número total de estudiantes matriculados.
Mostremos ahora la estimación por dominios al analizar si, bajo este MAE, los colegios
que cuentan con profesores con calificaciones de emergencia o no tienen un peor o mejor
rendimiento api en el 2000. La variable emer recoge el porcentaje de profesores que tienen
una calificación de emergencia en el colegio; es decir, de profesores que no han obtenido una
especialización en educación, pero que conocen del tema y que, por tanto, podrı́an brindar
eventualmente las materias de su experticia. Note que cerca de un 80 % de los colegios posee
3.6. USO DEL PAQUETE SURVEY 77
al menos un profesor con calificaciones de emergencia, lo cual indica la dificultad que tienen
las escuelas para contratar profesores calificados.
table([Link](apipop$emer>0))
##
## 0 1
## 1270 4922
Si deseáramos estimar manualmente la media del ı́ndice api en el 2000 y su error de esti-
mación estimado en el dominio de colegios que cuentan con algún profesor con calificaciones
de emergencia, podrı́amos utilizar el siguiente código:
Nh = c(4421,755,1018)
nh = c(100,50,50)
disMAE = update(disMAE,cemer = [Link](emer>0),apicemer = api00*cemer)
Nd_e = [Link](svytotal(~cemer,disMAE))
taud_e = [Link](svytotal(~apicemer,disMAE))
(Ybard_e = taud_e/Nd_e)
## [1] 652
zh = (sampleMAE$api00-Ybard_e)*(sampleMAE$emer>0)
sigma2hz = [Link](by(zh,sampleMAE$stype,sd,[Link]=T))^2
(sed_e = sqrt(sum(Nh^2*(1-nh/Nh)*sigma2hz/nh)/Nd_e^2))
## [1] 10.6
discemer = subset(disMAE,cemer==1)
svymean(~api00,discemer)
## mean SE
## api00 652 10.6
o de manera más general, para los dos dominios en estudio, con el comando svyby mediante
78 CAPÍTULO 3. MUESTREO ALEATORIO ESTRATIFICADO
(mdom = svyby(~api00,~cemer,disMAE,svymean))
## cemer api00 se
## 0 0 776 14.4
## 1 1 652 10.6
Como se observa, y puede verificarse a través de sus intervalos de confianza, los colegios
que contratan profesores con calificaciones de emergencia obtuvieron en promedio un menor
ı́ndice de rendimiento api en el 2000 que aquellos que no contrataron a estos profesores.
load("[Link]")
Pop = ece19Am
Pop$Estrato=interaction(Pop$area,Pop$gestion2)
Pop = Pop[order(Pop$Estrato),]
table(Pop$Estrato)
##
## [Link] [Link] [Link] estatal [Link] estatal
## 5324 2434 82 50
Supongamos ahora que deseamos estimar el rendimiento medio en Matemáticas para esta
DRE con un error de no más de 5 puntos y una confianza del 95 %. Similarmente a como
lo hicimos en el MAS, tomaremos para este fin una muestra piloto de tan solo 10 alumnos
por estrato estimando con ello las desviaciones estándar iniciales por estrato. Esto también
podrı́a haberse hecho considerando las desviaciones estándar del rendimiento en Matemáticas
en la ECE 2018 u otro estudio muestral previo para esta DRE.
[Link](12345)
Nh = [Link](table(Pop$Estrato))
sigmah=sd(Pop$M500_M[Pop$Estrato=="[Link]"][sample(Nh[1],10)])
3.6. USO DEL PAQUETE SURVEY 79
sigmah[2]=sd(Pop$M500_M[Pop$Estrato=="[Link]"][sample(Nh[2],10)])
sigmah[3]=sd(Pop$M500_M[Pop$Estrato=="[Link] estatal"][sample(Nh[3],10)])
sigmah[4]=sd(Pop$M500_M[Pop$Estrato=="[Link] estatal"][sample(Nh[4],10)])
ah = Nh*sigmah/sum(Nh*sigmah)
d = dim(Pop)[1]*5/qnorm(0.975)
n = sum(((Nh*sigmah)^2)/ah)/(d^2 + sum(Nh*sigmah^2))
(n = ceiling(n))
## [1] 1020
(nh = round(ah*n))
Tomemos ahora la muestra donde, a diferencia del ejemplo anterior, utilizaremos el co-
mando strata del paquete sampling. Este nos permitirá obtener la muestra de una manera
mucho más directa. Tal comando, cabe comentar, requiere de una previa ordenación (como
lo hicimos) de la base de datos según la variable de estratificación.
library(sampling)
[Link](12345)
m=strata(Pop,c("Estrato"),size=nh,method="srswor")
me19Am = getdata(Pop,m)
table([Link](me19Am$M500_M))
##
## FALSE TRUE
## 1014 5
me19Am = me19Am[[Link](me19Am$M500_M)==0,]
nh = [Link](table(me19Am$Estrato))
nh
dis19MAE = svydesign(ids=~1,strata=~Estrato,fpc=~fpc,data=me19Am)
Este nos dará las siguientes estimaciones para los rendimientos medios y la proporción de
logros alcanzados en Matemáticas por los estudiantes del segundo año de secundaria en
Amazonas:
## mean SE DEff
## M500_M 527.79 2.88 0.92
(mpM = svymean(~grupo_M,dis19MAE,[Link]=T))
## mean SE
## grupo_MPrevio al inicio 0.4597 0.01
## grupo_MEn inicio 0.2854 0.01
## grupo_MEn proceso 0.1572 0.01
## grupo_MSatisfactorio 0.0978 0.01
Note que para el rendimiento medio en Matemáticas pedimos una estimación del efecto
del diseño, el cual, como se aprecia, demuestra una ligera mayor eficiencia del MAE en
comparación con el MASs.
variable discriminatoria podrı́a ser el nivel de hacinamiento de las cárceles, información que
si bien no está consignada en el censo, es posible obtenerla de conocerse la capacidad de los
establecimientos penitenciarios (EP). Como criterio, consideraremos que un EP se encuentra
en condición de hacinamiento si este alberga al doble o más de internos que su capacidad.
Cabe precisar que las variables de capacidad y sexo para los EP se obtuvieron de una fuente
externa al censo (Informe Estadı́stico Penitenciario Noviembre 2016. INPE). El siguiente
código define los posibles estratos que resultarán del cruce de las variables de condición de
género y hacinamiento.
load('[Link]')
ncap = c(888,65,50,150,72,1518,160,1143,1370,50,384,350,920,572,1152,1464,
768,823,644,1620,2200,288,450,548,42,3204,1142,667,67,78,222,40,214,644,42,
60,120,680,105,85,50,48,64,1074,96,788,90,248,800,62,80,590,288,60,286,600,
78,654,544,636,180,44,778,420,1,8)
sex = c(3,1,3,1,2,1,2,3,1,2,3,3,3,1,1,3,1,1,3,1,3,2,2,2,1,1,1,1,2,1,1,2,1,3,
1,1,3,1,2,2,1,1,3,3,3,3,3,3,1,2,3,1,3,3,3,1,2,3,3,1,1,2,1,3,1,1)
freq = [Link](table(cp16$EST_PENIT))
phacib = freq/ncap
hacib = [Link](phacib>=2)
table(hacib,sex)
## sex
## hacib 1 2 3
## 0 12 9 7
## 1 17 4 17
"Andahuaylas_h","Andahuaylas_m","Quillabamba_h","Quillabamba_m","Chachapoyas_h",
"Chachapoyas_m","Bagua Grande_h","Bagua Grande_m","Yurimaguas_h","Yurimaguas_m",
"Juanjui_h","Juanjui_m","Moyobamba_h","Moyobamba_m","Juliaca_h","Juliaca_m"))
EP[cp16$EST_PENIT=="Cajamarca" & cp16$GENERO=="Hombre"] <- "Cajamarca_h"
EP[cp16$EST_PENIT=="Cajamarca" & cp16$GENERO=="Mujer"] <- "Cajamarca_m"
EP[cp16$EST_PENIT=="Jaen" & cp16$GENERO=="Hombre"] <- "Jaen_h"
EP[cp16$EST_PENIT=="Jaen" & cp16$GENERO=="Mujer"] <- "Jaen_m"
EP[cp16$EST_PENIT=="Chiclayo" & cp16$GENERO=="Hombre"] <- "Chiclayo_h"
EP[cp16$EST_PENIT=="Chiclayo" & cp16$GENERO=="Mujer"] <- "Chiclayo_m"
EP[cp16$EST_PENIT=="Tumbes" & cp16$GENERO=="Hombre"] <- "Tumbes_h"
EP[cp16$EST_PENIT=="Tumbes" & cp16$GENERO=="Mujer"] <- "Tumbes_m"
EP[cp16$EST_PENIT=="Huaraz" & cp16$GENERO=="Hombre"] <- "Huaraz_h"
EP[cp16$EST_PENIT=="Huaraz" & cp16$GENERO=="Mujer"] <- "Huaraz_m"
EP[cp16$EST_PENIT=="Chimbote" & cp16$GENERO=="Hombre"] <- "Chimbote_h"
EP[cp16$EST_PENIT=="Chimbote" & cp16$GENERO=="Mujer"] <- "Chimbote_m"
EP[cp16$EST_PENIT=="Ica" & cp16$GENERO=="Hombre"] <- "Ica_h"
EP[cp16$EST_PENIT=="Ica" & cp16$GENERO=="Mujer"] <- "Ica_m"
EP[cp16$EST_PENIT=="Huacho" & cp16$GENERO=="Hombre"] <- "Huacho_h"
EP[cp16$EST_PENIT=="Huacho" & cp16$GENERO=="Mujer"] <- "Huacho_m"
EP[cp16$EST_PENIT=="Modelo Ancon II - S.M.V.C." & cp16$GENERO=="Hombre"] <- "Ancon2_h"
EP[cp16$EST_PENIT=="Modelo Ancon II - S.M.V.C." & cp16$GENERO=="Mujer"] <- "Ancon2_m"
EP[cp16$EST_PENIT=="Ayacucho" & cp16$GENERO=="Hombre"] <- "Ayacucho_h"
EP[cp16$EST_PENIT=="Ayacucho" & cp16$GENERO=="Mujer"] <- "Ayacucho_m"
EP[cp16$EST_PENIT=="Chanchamayo" & cp16$GENERO=="Hombre"] <- "Chanchamayo_h"
EP[cp16$EST_PENIT=="Chanchamayo" & cp16$GENERO=="Mujer"] <- "Chanchamayo_m"
EP[cp16$EST_PENIT=="Oroya" & cp16$GENERO=="Hombre"] <- "Oroya_h"
EP[cp16$EST_PENIT=="Oroya" & cp16$GENERO=="Mujer"] <- "Oroya_m"
EP[cp16$EST_PENIT=="Huanuco" & cp16$GENERO=="Hombre"] <- "Huanuco_h"
EP[cp16$EST_PENIT=="Huanuco" & cp16$GENERO=="Mujer"] <- "Huanuco_m"
EP[cp16$EST_PENIT=="Cerro Pasco" & cp16$GENERO=="Hombre"] <- "Cerro Pasco_h"
EP[cp16$EST_PENIT=="Cerro Pasco" & cp16$GENERO=="Mujer"] <- "Cerro Pasco_m"
EP[cp16$EST_PENIT=="Pucallpa" & cp16$GENERO=="Hombre"] <- "Pucallpa_h"
EP[cp16$EST_PENIT=="Pucallpa" & cp16$GENERO=="Mujer"] <- "Pucallpa_m"
EP[cp16$EST_PENIT=="Abancay" & cp16$GENERO=="Hombre"] <- "Abancay_h"
EP[cp16$EST_PENIT=="Abancay" & cp16$GENERO=="Mujer"] <- "Abancay_m"
EP[cp16$EST_PENIT=="Andahuaylas" & cp16$GENERO=="Hombre"] <- "Andahuaylas_h"
EP[cp16$EST_PENIT=="Andahuaylas" & cp16$GENERO=="Mujer"] <- "Andahuaylas_m"
EP[cp16$EST_PENIT=="Quillabamba" & cp16$GENERO=="Hombre"] <- "Quillabamba_h"
EP[cp16$EST_PENIT=="Quillabamba" & cp16$GENERO=="Mujer"] <- "Quillabamba_m"
EP[cp16$EST_PENIT=="Chachapoyas" & cp16$GENERO=="Hombre"] <- "Chachapoyas_h"
EP[cp16$EST_PENIT=="Chachapoyas" & cp16$GENERO=="Mujer"] <- "Chachapoyas_m"
EP[cp16$EST_PENIT=="Bagua Grande" & cp16$GENERO=="Hombre"] <- "Bagua Grande_h"
EP[cp16$EST_PENIT=="Bagua Grande" & cp16$GENERO=="Mujer"] <- "Bagua Grande_m"
EP[cp16$EST_PENIT=="Yurimaguas" & cp16$GENERO=="Hombre"] <- "Yurimaguas_h"
EP[cp16$EST_PENIT=="Yurimaguas" & cp16$GENERO=="Mujer"] <- "Yurimaguas_m"
EP[cp16$EST_PENIT=="Juanjui" & cp16$GENERO=="Hombre"] <- "Juanjui_h"
3.6. USO DEL PAQUETE SURVEY 83
cp16f[1:8,c(7:13,190:194)]
Definamos ahora el diseño MAE y tomemos la muestra. Para ello usaremos el mismo
tamaño de muestra del MASs con una asignación proporcional, lo que nos da para cada
estrato tamaños de muestra de, respectivamente, 152, 37, 838 y 27 internos.
[Link](12345)
Nh = [Link](table(cp16f$Estrato))
m = strata(cp16f,c("Estrato"),size=c(152,37,838,27),method="srswor")
sampleMAE = getdata(cp16f,m)
fpc=c(rep(Nh[1],152),rep(Nh[2],37), rep(Nh[3],838),rep(Nh[4],27))
sampleMAE=cbind(sampleMAE,fpc)
disenhoMAE = svydesign(ids=~1,strata=~Estrato,fpc = ~fpc, data = sampleMAE)
disenhoMAE
svymean(~EDAD, disenhoMAE,[Link]=T)
## mean SE
## EDAD 36.1 0.35
svymean(~SITUACION_JURIDICA,disenhoMAE,[Link]=T)
## mean SE
## SITUACION_JURIDICAProcesado 0.206 0.01
## SITUACION_JURIDICASentenciado 0.794 0.01
svymean(~ABOGADO,disenhoMAE,[Link]=T)
## mean SE
## ABOGADOSı́ 0.533 0.02
## ABOGADONo 0.467 0.02
3.7. EJERCICIOS 85
3.7. Ejercicios
1. Se desea estimar la media poblacional de una variable y mediante un MAE. Muestre que
la varianza estimada de su estimador insesgado bajo la asignación de Neyman es siempre
menor o igual que la de este estimador mediante la asignación proporcional, probando que
H H
1 Nh Nj
V̂P rop (Ȳ ) − V̂N eyman (Ȳ ) = (Sh − Sj )2 .
n h=1 N j=1
N
Explicı́te esta diferencia para H = 2 e indique qué deberı́a ocurrir para que esta diferencia
sea cada vez más grande.
3. Si se realiza un MAE para una población con 3 estratos de 50, 80 y 70 unidades, ¿cuántas
muestras distintas de tamaño 40 podrı́an obtenerse bajo una asignación proporcional?
H Nh
(N − n) 1 Nh
V̂M ASs (Ȳ ) = ( y 2 δhi − Ȳ 2 + V̂ (Ȳ )),
n(N − 1) N h=1 nh i=1 hi
5. Muestre que el estimador insesgado de la varianza de la media de una variable y bajo una
asignación proporcional en el ejercicio 4 toma la forma
(N − n) n − 1 2
V̂M ASs (Ȳ ) = ( S + V̂ (Ȳ )),
n(N − 1) n
donde S 2 denota la varianza de todos los datos en la muestra sin tomar en cuenta la estrati-
ficación. Obtenga esta estimación para los datos de la ECE 2019 de Amazonas si se toma en
ella un MAE con asignación proporcional de tamaño 1000 que busca estimar el rendimiento
medio en Matemáticas de los alumnos del segundo año de secundaria.
6. Divida los rectángulos del ejercicio 22 del capı́tulo 2 en 2 estratos según estos tengan o no
menos de 30 unidades. Tome luego una MAE de tamaño 20 con algún tipo de afijación para
estimar el área total de todos los rectángulos y su intervalo de confianza al 98 %. Compare
sus resultados con los del ejercicio 22 del capı́tulo 2.
7. Una biblioteca municipal desea estimar el porcentaje de libros infantiles que posee. La
biblioteca tiene 4 salas (Norte, Sur, Este y Oeste) con 2800, 2940, 4050 y 7900 libros, res-
pectivamente. Suponga que para este objetivo se tomó un MAE con un tamaño de muestra
correspondiente al 10 % de los libros de la biblioteca y una asignación proporcional.
a) Si en la sala Sur se ubicaron 30 libros infantiles, ¿cuál es la estimación de la proporción
de libros infantiles en dicha sala?
b) Para un nivel de confianza del 98 %, ¿cuál es el error máximo de estimación que se
está cometiendo en la estimación anterior?
c) A un nivel de confianza del 95 %, ¿qué error máximo de estimación reportarı́a usted al
estimar la proporción de libros infantiles en toda la biblioteca?
8. En ocasiones, un MAE puede no estar adecuadamente equilibrado en alguna variable
no considerada como criterio de estratificación o podrı́amos no conocer a priori el valor de
esta variable en las unidades de la población, sino hasta después de observar la muestra.
Por posestratificación entenderemos al proceso mediante el cual uno extrae un MAS de la
población y estratifica esta luego de ser observada. En consecuencia, los tamaños de muestra
en cada post-estrato resultan aleatorios. Si para la media poblacional µ de una variable
H Nh
y consideramos al estimador Ȳ = h=1 N Ȳh , donde Ȳh es la media muestral de y en el
post-estrato h, Nh el número de unidades en este post-estrato y asumimos un muestreo sin
reemplazamiento,
a) Muestre que tanto los Ȳh como Ȳ son estimadores insesgados2 de, respectivamente, µh y
µ, siendo µh la media poblacional de y en el post-estrato h y µ la media poblacional global.
b) Muestre que V (Ȳ ) = H Nh 2 2 1 1 2
h=1 ( N ) σh (E( Xh )− Nh ), donde σh y Xh denotan, respectivamente,
la varianza y el tamaño de muestra en el post-estrato h.
c) Proponga algún estimador insesgado de Nh , en caso de que este sea desconocido.
2
Bajo la condición de que los post-estratos de tamaño 0 sea excluidos.
3.7. EJERCICIOS 87
d) Use una expansión de Taylor de segundo orden para el valor esperado en b) y muestre
que aproximadamente las varianzas de Ȳh y de varianza de Ȳ vienen dadas por
(N − Nh )N (N − n)σh2
V (Ȳh ) = (1 + ) y
nNh (N − 1) nNh
H H
N − n Nh 2 1 N − n N − Nh 2
V (Ȳ ) = ( )σh + 2 ( ) ( )σh .
nN h=1 N n N − 1 h=1 N
e) Dos estimadores de V (Ȳ ) son los estimadores incondicionales y condicionales. El primero
se obtiene simplemente al estimar insesgadamente en él las varianzas de los post-estratos o los
Nh , de ser necesarios, y el segundo de igual manera pero omitiendo el segundo término a de-
recha en esta varianza. Obtenga estas estimaciones si al tomar el MASs en 2.4.3 quisieramos
estimar la media del ı́ndice api del 2000, pero haciendo ahora una post-estratificación según
sea el colegio elegible o no para reconocimientos (awards). Obtenga, finalmente, una estima-
ción de V (Ȳ ) mediante el paquete survey, utilizando para ello el comando postStratify.
9. La DRE de Lima Metropolitana le ha pedido a usted realizar un MAE para la población
ECE 2019 con los siguientes 3 estratos: alumnos de colegios urbanos estatales, alumnos
de colegios urbanos no estatales y alumnos de colegios del área rural. Su presupuesto le
alcanza para evaluar 3000 alumnos y tiene como objetivo estimar el rendimiento medio en
Matemáticas de esta DRE. Si utiliza una asignación proporcional,
a) ¿Qué problemas prácticos piensa que podrı́a encontrar al momento de realizar el muestreo?
b) Halle el error de estimación a reportar en este estudio bajo un nivel de confianza del 95 %
c) Si le piden, como parte del estudio, reportar también el rendimiento medio en Matemáticas,
según el nivel socieconómico, donde estos niveles son 3 y definidos por quienes tienen un ISE
menor a 0.4, entre 0.4 y 1 y mayores a 1, ¿cuáles serı́an las estimaciones pedidas y sus errores
estándar de estimación estimados?
10. Un instituto cuenta con las especialidades de Contabilidad, Diseño Industrial, Arqui-
tectura de interiores y Administración de Negocios y desea estimar la proporción de sus
egresados que estarı́an dispuestos a seguir una nueva diplomatura que el instituto piensa
abrir. Se sabe que el último año egresaron de estas especialidades, respectivamente, 20, 200,
80 y 230 alumnos. Si le informan que una encuesta de 50 egresados ya ha sido tomada
mediante un MASs,
a) ¿Qué tan probable es que la encuesta haya omitido a alguna especialidad?
b) Si en la muestra se obtuvo, respectivamente, 3, 20, 12 y 15 alumnos de cada una de las
especialidades anteriores, donde 2, 4, 7 y 8 de ellos manifestaron que seguirı́an el diploma,
use esta información como muesta piloto para encontrar, en un estudio futuro, el tamaño de
muestra que se requerirı́a en un MAE para estimar la proporción de aceptación del diploma
con un margen de error de 0.03 y un nivel de confianza del 95 %. Proponga el tipo de
asignación.
88 CAPÍTULO 3. MUESTREO ALEATORIO ESTRATIFICADO
Unidad 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Renta 13 17 6 5 9 12 19 6 14 12 8 5 11 20 6 18 10 9 12 8
Estrato M A B B B M A B M M B B M A B A M B B B
A fin de estimar la renta familiar media, se tienen las alternativas de efectuar un MAE
con afijación proporcional, un MASs o un MASc; todos de tamaño 10.
a) Determine las varianzas de estos diseños e indique cuál es más eficiente y por qué.
b) Usando los números aleatorios 0.91, 0.02, 0.7, 0.35, 0.1, 0.96, 0.51, 0.46, 0.23, 0.87, tome
las muestras requeridas para estos diseños y estime la renta familiar media bajo cada uno.
12. Una empresa desea estimar, con un error no mayor a las 250 horas y un nivel de confianza
del 95 %, el número total de horas de trabajo perdidas en un mes debido a accidentes
entre sus empleados (basado en Mendenhall et al. (2007)). Como los obreros, técnicos y
administradores tienen diferentes tasas de siniestralidad, el investigador decide utilizar un
muestreo aleatorio estratificado, de modo que cada grupo forma un estrato independiente.
Los datos de años anteriores sugieren las varianzas que se muestran abajo por el número de
horas de trabajo perdidas por empleado en los 3 grupos. Se muestran también los tamaños
actualizados de los estratos.
Obreros Técnicos Administradores
Varianza 36 25 16
Tamaño 132 92 27
14. Suponga que en el MAE de la subsección 3.6.2 le piden que reporte las estimaciones del
rendimiento medio en Matemáticas por sexo.
a) Dé estas estimaciones y sus errores estándar de estimación estimados.
b) ¿Cómo harı́a para comparar el rendimiento medio de las estudiantes mujeres que perte-
necen a colegios estatales y no estatales? ¿Se podrı́a concluir, con una confianza del 95 %,
que hay diferencias entre estos rendimientos medios?
c) Responda b) para el caso de los estudiantes hombres.
15. Burnard (1992) envió un cuestionario a una muestra estratificada de tutores y estudian-
tes en Gales para estudiar lo que ellos entendı́an por el término experiential learning. Los
tamaños de población y muestra de los cuatro estratos se muestran a continuación:
A los entrevistados se les preguntó cuáles de las siguientes técnicas podrı́an identificarlas
como métodos de experiential learning. El número de entrevistados de cada grupo que iden-
tificó el método como de experiential learning se muestra a continuación:
Método GS PS PT GT
Role play 213 38 26 104
Problemas de solución de actividades 182 33 22 95
Simulaciones 95 20 22 64
Empatı́a en la construcción de ejercicios 89 25 20 54
Ejercicios gestálquicos 24 4 5 12
Estime el porcentaje total de estudiantes de enfermerı́a y tutores que identifican cada una
de las técnicas mencionadas como de experiential learning. Indique también en cada caso el
error estándar de estimación estimado para cada una de sus estimaciones.
16. Considere un MAE con asignación óptima sobre la ECE 2019 del segundo año de secun-
daria de la DRE Cusco; use la misma estratificación que en el estudio de Amazonas y estime
su rendimiento medio en Matemáticas. Se pide para ello un error de estimación no mayor a
los 5 puntos con una confianza del 95 %.
a) ¿Qué tamaño de muestra deberı́a considerar para este dominio? Utilice, para obtener las
estimaciones necesarias, la ECE 2018.
b) Tome la muestra requerida, obtenga la estimación pedida y calcule la estimción del efecto
de este diseño.
c) Compare, mediante un intervalo de confianza al 95 %, los rendimientos medios en Ma-
temáticas entre las DRE de Cusco y Amazonas.
90 CAPÍTULO 3. MUESTREO ALEATORIO ESTRATIFICADO
17. Considere la base de datos poblacional Province91 del ejercicio 17 del capı́tulo 2 y la
variable Stratum allı́ definida que identifica si la municipalidad de la provincia en estudio es
urbana o rural. Usando esta última como variable de estratificación y la variable número de
personas desempleadas como variable de investigación, tome un MAE de 8 municipalidades
y responda a lo siguiente:
a) Halle los tamaños de muestra por estrato usando una asignación proporcional.
b) Obtenga para el diseño anterior los efectos de diseño en la estimación del total de personas
desempleadas de la provincia.
c) Tomando la muestra requerida, estime el total de personas desempleadas en la provincia
y el efecto de diseño en esta estimación.
d) Si se estimara, bajo este diseño, la proporción de municipalidades que tienen una población
económicamente activa superior a las 10 000 personas, ¿qué error de estimación estimarı́a
para esta proporción?
18. Considere la base de datos apipop y suponga que está interesado en estimar el número
total de alumnos matriculados en esta población con un MAE, donde el criterio de estra-
tificación sea nuevamente el tipo de colegio. Se desea estimar este número con un error de
estimación no mayor a los 70 000 alumnos y un nivel de confianza del 95 %.
a) Tome un MAE piloto de solo 30 escuelas, usando por simplicidad una asignación propor-
cional, e indique en cúanto estimarı́a las desviaciones estándar del número de matriculados
por tipo de colegio.
b) Halle los tamaños de muestra requeridos con una asignación óptima y costos de muestreo
iguales utilizando las estimaciones necesarias de la muestra piloto tomada en a).
c) Realice el MAE y reporte el IC al 95 % para el número de matriculados en esta población.
d) Si con la muestra anterior es también de interés estimar la proporción de escuelas en esta
población que recibieron un premio (awards), estime tal proporción y reporte su error de
estimación estimado.
19. Un hospital público está interesado en construir en sus instalaciones una clı́nica priva-
da y por ello desea realizar una encuesta por muestreo para estimar, entre otras cosas, la
proporción de familias de la ciudad que se atenderı́an en esta clı́nica. El diseño sugerido
será estratificado y se tomarán como variables de estratificación a una que indique si la fami-
lia utiliza o ha utilizado el hospital o no lo ha hecho y a otra que indica si la familia proviene
del distrito donde se ubica el hospital o no. Los cuatro estratos formados, que denotaremos
como 1, 2, 3 y 4, serán entonces los de las familias usuarias del distrito, las usuarias que no
son del distrito, por las no usuarias del distrito y por las no usuarias que no son del distrito.
En un estudio piloto se encontró que, aproximadamente, el 85 % de las familias usuarias
y el 45 % de las no usuarias se atenderı́an en la clı́nica; sin embargo el estudio piloto no
registró el distrito de residencia del representante de la familia. Algo que tomar en cuenta
en la encuesta será que los costos de obtener una observación para una familia usuaria del
3.7. EJERCICIOS 91
distrito son de 3 soles, para una familia usuaria que no es del distrito son de 6 soles, y para
una familia no usuaria sonde 9 soles. Además, se sabe que el número de familias en estos
estratos, según el último censo, son de N1 = 123, N2 = 65, N3 = 155 y N4 = 570.
a) Encuentre qué proporción óptima de la muestra total deberı́a corresponder a cada estrato.
¿Qué criterio está utilizando para obtener estas asignaciones?
b) Encuentre el tamaño de muestra total si se desea estimar la proporción buscada con un
error de estimación no mayor a 0.05 y un nivel de confianza del 95 %.
c) Suponga que tiempo después de realizado el estudio se encontró para cada estrato las
siguientes estimaciones de la proporción de familias que usarı́an la clı́nica
(2) Estrato II (por encima del 1 % y hasta el 6 % del presupuesto). Comprendió a las comisio-
nes Agraria, de Ciencia, Innovación y Tecnologı́a de Defensa del Consumidor y Organismos
Reguladores de los Servicios Públicos, de Justicia y Derechos Humanos, de Salud y Población
y de Vivienda y Construcción. Se registraron 319 proyectos de ley en este estrato.
(3) Estrato III (por encima del 6 % y hasta el 22 % del presupuesto) Comprendió a las comi-
siones de Defensa Nacional, Orden Interno, Desarrollo Alternativo y Lucha contra las Drogas,
de Descentralización, Regionalización, Gobiernos Locales y Modernización de la Gestión del
Estado, de Economı́a, Banca y Finanzas e Inteligencia Financiera, de Educación, Juventud
y Deporte, de Transportes y Comunicaciones, de Inteligencia y de Presupuesto y Cuenta
General de la República. Se registraron 343 proyectos de ley en este estrato.
Si se desea estimar el porcentaje de proyectos de ley que tuvieron un análisis ACP aceptable
con un nivel de confianza del 95 % y un margen de error del 10 %,
a) ¿Cuál serı́a el tamaño de muestra adecuado? Tome en cuenta que, según estudios previos
del ACB en el paı́s y en paı́ses de la región, este porcentaje nunca supero el 20 %.
b) Tome la muestra requerida en a); use un tipo de asignación proporcional y estime, junto
con su error estándar de estimación, la proporción de proyectos de ley presentados por
congresistas del partido nacionalista Gana Perú en la legislatura 2012-2013.
Capı́tulo 4
Es difı́cil, caro o imposible construir una lista de unidades de observación para el marco
muestral.
93
94 CAPÍTULO 4. MUESTREO POR CONGLOMERADOS
δij = δj|i δi ,
donde δj|i es una variable indicadora que toma el valor 1 si de seleccionarse la UPM i se
selecciona en la segunda etapa la USM j; mientras que la variable indicadora δi vale 1 si, y
solo si, la UPM i es seleccionada durante la primera etapa. En tal sentido, si las dos etapas
se realizan mediante un MASs, podremos escribir la función de probabilidad de δij mediante
nmi
P (δij = 1) = .
N Mi
En un muestreo de una etapa solo es necesario seleccionar las UPM, razón por la cual la
variable δij se reduce a δi , la cual vale 1 si la i-ésima UPM es seleccionada en la muestra, y
0 en caso contrario. Aquı́ se tiene que
n
P (δi = 1) = .
N
El siguiente cuadro muestra algunas de las cantidades de interés en nuestro estudio:
4.2. MUESTREO POR CONGLOMERADOS DE UNA ETAPA 95
N
Varianza entre UPM σc2 = N 1−1 N K
i=1 (τi − N µ)
2
Sc2 = n−11 K 2
i=1 (Mi Ȳi − N Ȳ ) δi .
La razón de que el estimador puntual de la media poblacional tome una forma un tanto
peculiar, es que este se construye con el fin de que sea un estimador insesgado de la media
poblacional µ. En efecto, un simple cálculo muestra que
N Mi N Mi N Mi
1 N Mi 1 N Mi nmi 1
E(Ȳ ) = yij E(δij ) = yij = yij = µ.
K i=1 j=1 nmi K i=1 j=1 nmi N Mi K i=1 j=1
N Mi N N
1 N N τi
Ȳ = yij δi = τi δ i = δi , (4.1)
K i=1 j=1 n i=1
nK i=1
nM
donde M = K N
es el tamaño promedio de los conglomerados. Note que esta expresión puede
escribirse también como
N
1 τi
Ȳ = ( )δi ,
n i=1 M
96 CAPÍTULO 4. MUESTREO POR CONGLOMERADOS
τi
lo cual sugiere qué se tomen como observaciones (agregadas) los elementos M
. En consecuen-
cia, por la teorı́a del MASs, la varianza de este estimador viene dada por
2
n σm
V (Ȳ ) = (1 − ) ,
N n
donde σm 2
= N 1−1 N τi 2
i=1 ( M − µ) . Como recordamos, un estimador insesgado de este último
es la varianza muestral
N
2 1 τi
Sm = ( − Ȳ )2 δi .
n − 1 i=1 M
Ası́, el error estándar de estimación estimado de la media Ȳ resulta ser
ˆ n S2
SE(Ȳ ) = V̂ (Ȳ ) = (1 − ) m .
N n
Suponiendo que tenemos información de una muestra piloto o de un estudio anterior sobre
2
Sm , este error de estimación nos permitirá, como es rutina en el MAS, obtener la siguiente
fórmula para el tamaño de muestra de conglomerados para un nivel de confianza de 100(1 −
α) % y un error máximo de estimación para µ de e:
2 2
z1− α Sm N
2
n= 2 2 2
.
z1− α Sm + e N
2
Ejemplo 4.1. Un problema con el estimador insesgado es que este posee en general una
varianza grande, situación que se torna más crı́tica cuando los conglomerados son de distintos
τi
tamaños. Ello es natural, pues la varianza de este es la de los elementos M̄ , los cuales poseen
un denominador común, pero totales que varı́an mucho según la cantidad de unidades que
contiene el conglomerado. Para ilustrar ello, retomemos la data de la ECE 2019, donde los
conglomerados naturales en dicha población son los colegios. Supongamos ahora que deseamos
estimar insesgadamente el rendimiento medio en Ciencia y Tecnologı́a de los alumnos de la
DRE Amazonas con un margen de error de no más de 5 puntos y una confianza del 95 %
usando un muestreo por conglomerados de una etapa. Si analizamos los totales de rendimiento
de los colegios de esta población en el histograma de la figura 4.1, vemos que, en efecto, este
es altamente variable con un CV del 25.59 %
load("[Link]")
tau_CT = ece19Am$M500_CT
# hist(tau_CT)
2500
2000
1500
Frecuencia
1000
500
0
0 500 1000
Totales de rendimiento
Figura 4.1: Histograma de los totales de rendimiento en Ciencia y Tecnologı́a de los colegio
de la DRE Amazonas en la ECE 2019
## [1] 286
Mbar = K/N
tau = aggregate(ece19Am$M500_CT,by=list(ece19Am$ID_IE),sum)
Sm2 = var(tau$x/Mbar,[Link]=T)
d2 = 25*N/(qnorm(0.975)^2)
ceiling(Sm2*N/(d2 + Sm2))
## [1] 281
Este, como su nombre lo sugiere, es un cociente o una razón entre dos variables aleatorias. Si
bien el estudio teórico de este tipo de estimadores lo haremos en el capı́tulo 5, adelantaremos
la siguiente proposición de importancia práctica para este estimador.
Al igual que en los diseños anteriores, podemos utilizar el último resultado para obtener un
tamaño de muestra de conglomerados que nos permita estimar µ con un error máximo e y
un nivel de confianza del 100(1 − α) %. Ello se obtiene de despejar n en la ecuación
ˆ Ȳr ) = z1− α (1 − n ) 1 Sr2 ,
e = z1− α2 SE( 2
N nM̄ ˆ2
donde:
N N
1 2 1
Sr2 = Mi (Ȳi − Ȳr )2 δi = (τ̂i − Mi Ȳr )2 δi
n − 1 i=1 n − 1 i=1
4.4. ESTIMACIÓN DE UNA PROPORCIÓN 99
ha de estimarse de una prueba piloto o de un estudio similar. Un poco de álgebra nos lleva
entonces a la siguiente fórmula:
N Sr2
n= eM̄
.
N(z )2 + Sr2
1− α
2
Cabe indicar, sin embargo, que esta fórmula es válida para tamaños de muestra suficien-
temente grandes y que el sesgo del estimador de razón se hace cada vez más despreciable
conforme aumenta n. Por lo común, la varianza de este estimador resulta ser mucho menor
que la del estimador insesgado, en especial si los tamaños de los conglomerados muestran
una alta heterogeneidad.
Observación: Si los tamaños de los conglomerados son todos iguales, entonces el estimador
insesgado y de razón para µ coinciden.
N
ai
p̂ = δi
i=1
nM
Ejemplo 4.2. Un sociólogo desea estimar los ingresos anuales medios por persona de cierta
ciudad, ası́ como la proporción de estas personas que alquilan sus viviendas (es decir, que
no son propietarios). Dado que él no dispone de una lista de las personas adultas residentes,
decide tomar una muestra por conglomerados. Para ello, obtiene un mapa de la ciudad que
lo divide en 415 bloques rectangulares. Luego selecciona al azar 25 de ellos a cada uno de
los conglomerados seleccionados y asigna un grupo de encuestadores con el objetivo de que
ellos recaben la información requerida en todos los hogares de dichos conglomerados. Luego
del trabajo de campo se obtuvo la tabla que seguidamente se detalla, donde los ingresos están
en cientos de dólares.
100 CAPÍTULO 4. MUESTREO POR CONGLOMERADOS
b) Si era de interés para el sociólogo estimar el ingreso anual medio por persona en esta
ciudad con un error máximo de 100 dólares, ¿fue suficiente el tamaño de muestra
tomado?
Conglomerado Número de residentes Ingresos totales Número de personas
adultos que alquilan
1 8 96 4
2 12 121 7
3 4 42 1
4 5 65 3
5 6 52 3
6 6 40 4
7 7 75 4
8 5 65 2
9 8 45 3
10 3 50 2
11 2 85 1
12 6 43 3
13 5 54 2
14 10 49 5
15 9 53 4
16 3 50 1
17 6 32 4
18 5 22 2
19 5 45 3
20 4 37 1
21 6 51 3
22 8 30 3
23 7 39 4
24 3 47 0
25 8 41 3
N = 415
n = 25
load('[Link]')
Mi = Rentas$Nresidentes
pi = Rentas$Nalquilan/Mi
(pr = sum(Rentas$Nalquilan)/sum(Mi))
4.5. MUESTREO POR CONGLOMERADO BIETÁPICO 101
## [1] 0.477
S2pr = sum(Mi^2*(pi-pr)^2)/(n-1)
SEpr_e = sqrt((1-n/N)*S2pr/(n*mean(Mi)^2))
(e = qnorm(0.975)*SEpr_e)
## [1] 0.0458
b) Para responder a esto podrı́amos hallar el error de estimación máximo con el tamaño
actual de muestra o el tamaño de muestra para e = 1. Optemos por el segundo camino. Este
tamaño de muestra deberı́a ser de
Ybarr = sum(Rentas$Ingresos_totales)/sum(Mi)
Ybari = Rentas$Ingresos_totales/Mi
S2r = sum((Mi*(Ybari-Ybarr))^2)/(n-1)
D = mean(Mi)/qnorm(0.975)
(n1= ceiling(N*S2r/(N*D^2 + S2r)))
## [1] 58
Como vimos en la tabla 4.1, un estimador insesgado de la media global poblacional µ viene
dado por
N Mi
1 N Mi
Ȳ = yij δij .
K i=1 j=1 nmi
Dado que ahora se toman muestras en dos etapas, la varianza de este estimador posee dos
componentes, una debido a la variabilidad entre las UPM y otra debido a la variabilidad entre
102 CAPÍTULO 4. MUESTREO POR CONGLOMERADOS
las USM al interior de las UPM. Concretamente, se puede probar (más adelante mostraremos
un caso más general) que
N
n σc2 1 mi σ2
V (Ȳ ) = (1 − ) 2
+ 2
(1 − )Mi2 i , (4.2)
N nM̄ nM̄ N i=1 Mi mi
donde σc2 es la varianza entre UPM y σi2 es la varianza al interior de la UPM i. Estas últimas
cantidades se pueden estimar, respectivamente, por
N
1
Sc2 = (τ̂i − M̄ Ȳ )2 δi
n − 1 i=1
Al igual que en el muestreo por conglomerados de una etapa, el problema con Ȳ recae en el
desconocimiento de K. Una manera de subsanar ello es utilizando nuevamente el estimador
de razón N N
τ̂i δi Mi Ȳi δi
Ȳr = Ni=1 = i=1
N
.
i=1 M δ
i i i=1 Mi δi
Si bien este es un estimador sesgado, tal sesgo es despreciable para n grande y usualmente
este estimador posee una varianza menor que la del estimador insesgado. Esta última se
prueba que viene dada aproximadamente por
N
n σr2 1 mi 2
2 σi
V (Ȳr ) = (1 − ) + (1 − )Mi , (4.3)
N nM̄ 2 nM̄ 2 N i=1 Mi mi
donde:
N N
1 2 1
σr2 = Mi (µi − µ)2 = (Mi µi − Mi µ)2 .
N − 1 i=1 N − 1 i=1
Un estimador de esta última cantidad es
N
n Sr2 1 mi S2
V̂ (Ȳr ) = (1 − ) + (1 − )Mi2 i δi ,
ˆ 2 nM̄
N nM̄ ˆ 2N Mi mi
i=1
donde:
N N
1 2 1
Sr2 = Mi (Ȳi − Ȳr )2 δi = (τ̂i − Mi Ȳr )2 δi .
n − 1 i=1 n − 1 i=1
Para estimar una proporción basta recordar que este es un caso particular de estimación
de la media cuando la variable de investigación es dicotómica. Luego, uno puede fácilmente
4.6. LA CORRELACIÓN INTRACLASE Y EL EFECTO DE DISEÑO 103
donde:
N N
1 2 1
Sr2 = Mi (p̂i − p̂r )2 δi = (Mi p̂i − Mi p̂r )2 δi .
n − 1 i=1 n − 1 i=1
Sobre la base del último cuadro, una posible medida de homogeneidad al interior de los
conglomerados viene dada por el coeficiente de determinación ajustado
K SCE
Ra2 = 1 − ( ) .
K − N SCT
104 CAPÍTULO 4. MUESTREO POR CONGLOMERADOS
Mientras más cercano esté Ra2 a 1, más homogéneos serán los conglomerados en su interior
y la variabilidad existente será explicada en esencia por las diferencias entre las medias de
los conglomerados.
Un caso particular del análisis anterior se da cuando los tamaños Mi de los conglomerados
son todos iguales, digamos M . En este caso, al coeficiente
M SCE
Ra2 = 1 − ( )
M − 1 SCT
se le suele denotar por ρ y se le denomina la correlación intraclase. Una de las razones
de su popularidad es que se puede probar que ρ no es sino el coeficiente de correlación
de Pearson para los N M (M − 1) distintos posibles pares (yij , yik ), con i = 1, 2, . . . , N y
j = k ∈ {1, 2, . . . , M }, que uno pudiera tomar en la población de y (véase el ejercicio 4.7).
Veamos ahora el rol que desempeña ρ en el cálculo del efecto de diseño para un muestreo
por conglomerados de una etapa cuando los conglomerados tienen el mismo tamaño. Como
recordamos, para este último caso, la varianza del estimador de la media poblacional viene
dada por
n 1
Vc (Ȳ ) = (1 − ) SCC;
N nM (N − 1)
mientras que la varianza de este estimador bajo un MASs es
n σ2 n SCT
VM ASs (Ȳ ) = (1 − ) = (1 − ) .
N nM N nM (N M − 1)
Relacionando SCC con ρ, obtenemos
SCC SCE M −1 1 + ρ(M − 1)
=1− =1− (1 − ρ) =
SCT SCT M M
−1)
y, consecuentemente SCC = SCT 1+ρ(M M
. Reemplazando esta expresión en la varianza Vc
y tomando el cociente con la varianza VM ASs , resulta que el efecto de diseño viene dado por
Vc (Ȳ ) NM − 1
def f = = (1 + ρ(M − 1)).
VM ASs (Ȳ ) M (N − 1)
M −1
Dado que MN(N −1)
> 1, este efecto será siempre mayor que 1 y, por tanto, el diseño por
conglomerados de una etapa será menos eficiente que el MASs si ρ > 0. Esta es, en efecto,
la situación más usual. Aquı́, los elementos al interior de los conglomerados tienden a ser
más similares entre sı́ que los elementos seleccionados aleatoriamente de la población, lo
cual básicamente ocurre por un efecto de “contagio” ya que los elementos al interior de un
conglomerado comparten un entorno similar; ası́ por ejemplo, en el caso de una encuesta de
hogares, se esperará que los miembros de una vecindad seleccionada (conglomerado), que
han optado por vivir en ella y a interactuar con sus vecinos, tiendan a compartir varias
caracterı́sticas comunes o posean opiniones similares ante distintos cuestionamientos.
Raramente el efecto de diseño será menor que 1, y esto sucederá cuando ρ < − N M1 −1 .
4.7. MUESTREO SISTEMÁTICO 105
Ejemplo 4.3. Consideremos nuevamente el ECE 2019 para la DRE Amazonas y calculemos
para ejemplificar, pues tenemos a toda la población, el coeficiente de determinación ajustado
en la estimación de los rendimientos de Matemáticas. Este viene dado por
## [1] 0.49
j + k, j + 2k, . . . , j + (n − 1)k,
Cada fila de esta matriz representa una posible muestra sistemática de tamaño n, con su
respectiva media. Por tanto, podrı́amos considerar estas filas conglomerados de igual tamaño,
y de los cuales seleccionamos tan solo uno. Ası́, el muestreo sistemático se reduce a un
muestreo por conglomerados de una etapa con k conglomerados, cada uno de tamaño n, de
donde seleccionamos tan solo uno. Consecuentemente, el estimador insesgado de la media
nk
1
µ= yi
nk i=1
Sujeto 1 2 3 4 5 6 7 8 9 10 11 12
Edad 35 24 60 38 22 33 54 45 38 19 53 40
Sexo M H H M H M M M H M M H
Ingreso 3333 3401 7687 3531 3134 3087 4813 4113 5064 2017 4724 5300
donde es de interés estimar el ingreso medio de estas personas sobre la base de una muestra
sistemática de tamaño n = 4. Obtenga esta estimación y calcule el efecto de este diseño.
Solución: Definamos inicialmente en R nuestra población de estudio.
Popc=[Link](Sujeto=c(1:12),Edad = c(35,24,60,38,22,33,54,45,38,19,53,40),
Sexo = c("M","H","H","M","H","M","M","M","H","M","M","H"),
Ingreso = c(3333,3401,7687,3531,3134,3087,4813, 4113,5064,2017,4724,5300))
4.7. MUESTREO SISTEMÁTICO 107
Para obtener la muestra sistemática podrı́amos ordenar los datos en una matriz 3 × 4
como la dada en (4.4); seleccionar un número aleatorio entre 1 y 3; tomar la fila obtenida y,
finalmente, obtener la estimación pedida al tomar el promedio de los datos de esa fila. Esto
en R se hace con
[Link](12345)
M = matrix(Popc$Ingreso,nrow=3,ncol=4)
m = sample(3,1)
MuestraS = [Link](Ingreso = M[m,])
(Media = mean(MuestraS$Ingreso))
## [1] 5284
Dado que en este ejemplo disponemos de toda la población, es factible obtener la correla-
ción intraclase. Esta por definición es
Popc = cbind(Popc,cluster=rep(1:3,4))
N = dim(Popc)[1]
n = 4
fit = aov(Popc$Ingreso~factor(Popc$cluster),data=Popc)
SCE = summary(fit)[[1]]$'Sum Sq'[2]
SCT = summary(fit)[[1]]$'Sum Sq'[1] + SCE
(rho1 = 1 - (n/(n-1))*(SCE/SCT))
## [1] 0.0946
Desde otro punto de vista, podrı́amos también calcular la correlación intraclase usando
el paquete combinat mediante
library(combinat)
k = max(Popc$cluster)
gx <-function(x,r){c(M[r,x[1]],M[r,x[2]])}
pairs = cbind(combn(1:4,2,gx,simplify=T,1), combn(4:1,2,gx,simplify=T,1))
for (j in 2:k){
pairs = cbind(pairs,cbind(combn(1:4,2,gx,simplify=T,j),
combn(4:1,2,gx,simplify=T,j)))}
(rho2 = cor(t(pairs))[1,2])
## [1] 0.0946
## [1] 1.77
108 CAPÍTULO 4. MUESTREO POR CONGLOMERADOS
library(survey)
disC = svydesign(id=~1,fpc=rep(12,4),data=MuestraS)
svymean(~Ingreso,disC)
## mean SE
## Ingreso 5284 769
c(mean(Popc$Ingreso),sqrt(deff*(1-n/N)*var(Popc$Ingreso)/n))
library(sampling)
Popco=Popc[order(Popc$Edad),]
Popco = cbind(Popco,Estimp=c(rep(1,6),rep(2,6)),fpc=rep(6,12))
m=strata(Popco,c("Estimp"),size=rep(2,2),method="srswor")
Popcosample=getdata(Popco,m)
DisEI = svydesign(ids=~1,stratum=~Estimp,fpc=~fpc,data=Popcosample)
svymean(~Ingreso,DisEI)
## mean SE
## Ingreso 4604 606
## [1] 4061
mRc = [Link](by(MuestraR$Ingreso,MuestraR$cluster1,mean))
(SER = sqrt(var(mRc)))
## [1] 187
donde cabe notar que la varianza entre UPM se relaciona con la suma de cuadrados entre
conglomerados, definida en la sección 4.6, mediante σc2 = NM−1 SCC, y la suma de las varianzas
N 2 SCE
al interior de las UPM satisface i=1 σi = M −1 . Para simplificar podrı́amos introducir,
como se hace usualmente en el análisis de varianza, la media cuadrática entre conglomerados
M CC = SCC N −1
y la media cuadrática del error M CE = K−N SCE
= N SCE
(M −1)
. Ası́, las relaciones
2
N 2
anteriores nos dicen que σc = M × M CC y i=1 σi = N × M CE y, en consecuencia,
n M CC 1 m
V (Ȳ ) = (1 − ) + (1 − )M CE
N nM nm M
M CC − M CE M CE M CC
= + − .
nM nm NM
4.8. TAMAÑOS DE MUESTRA PARA DISEÑOS MULTIETÁPICOS 111
Con el fin de determinar los tamaños de muestra n y m óptimos, usaremos como criterio
minimizar la varianza anterior para un costo fijo total C o minimizar el costo total de
muestreo para un valor fijo de la varianza anterior. Esto, como recordamos, puede resolverse
de manera similar a lo visto en la demostración de la proposición 3.1; es decir, usándose la
desigualdad de Cauchy-Schwartz que busca minimizar
M CC − M CE M CE M CC − M CE M CE
( + )(c1 n + c2 nm) = ( + )(c1 + c2 m).
nM nm M m
Ello nos conduce a las siguientes formulaciones de tamaños de muestra óptimos:
M c1 M CE
m=
c2 (M CC − M CE)
y
C − c0
n= .
c 1 + c2 m
Expresando las medias cuadráticas en términos del coeficiente de correlación intraclase por
−1)ρ
M CE = (1 − ρ) SCT
NM
y M CC = ( 1+(M M (N −1)
)SCT , estas formulaciones podrı́an escribirse
también como
M (N − 1)(1 − ρ)c1
m=
(1 + (N M − 1)ρ)c2
y
C − c0
n= .
c 1 + c2 m
Note que si el número de conglomerados es suficientemente grande, se tendrá la aproximación
(1 − ρ)c1
m= ,
ρc2
y ası́ la elección dependerá tan solo del costo relativo unitario y del coeficiente de correlación
intraclase.
Un desarrollo similar se da, por ejemplo, para un muestreo trietápico. Véase el ejercicio
9 de este capı́tulo.
Cabe precisar que el tratamiento anterior es en parte elegante por el hecho de que se ha
asumido que los conglomerados son de igual tamaño. Si ello no es ası́, uno tendrá en general
que resolver numéricamente un problema de optimización. Sin embargo, como lo demuestran
varios autores entre los que destacan Khan y Ahmad (2006), es posible flexibilizar algunas
restricciones a fin de derivar una fórmula cerrada para los tamaños de muestra buscados.
Detalles sobre cómo hacer esto se tienen en el artı́culo citado. Aquı́ mencionaremos solo los
tamaños de muestra n y mi para la UPM y las USM dentro de cada UPM i óptimos que
112 CAPÍTULO 4. MUESTREO POR CONGLOMERADOS
y
c1
m i = Mi σi ,
Ac2
1
N
donde A = σc2 − N i=1 Mi σi2 .
πi = P (δi = 1)
son todas iguales e independientes de la unidad primaria considerada. Para ser más explı́citos,
en un muestreo por conglomerados bietápico estas estaban dadas por πi = Nn , siendo N
el número de UPM en la población y n el tamaño de muestra de UPM. La asunción de
probabilidades iguales no siempre es la adecuada para algunos requerimientos. Un tı́pico
ejemplo es el de un muestreo por conglomerados con probabilidades proporcionales al tamaño
(ppt). En este se exige que los conglomerados más grandes tengan mayores probabilidades
de selección. Asumiendo, como lo hemos venido haciendo, un muestreo sin reemplazamiento,
la selección de las unidades de la segunda etapa o posteriores se complica bajo este esquema,
dado que ellas dependen de las unidades particulares seleccionadas en la primera etapa.
Horvitz y Thompson (1952) propusieron que de obtenerse estimaciones insesgadas de los
totales en cada unidad primaria, uno podrı́a estimar el total de la población mediante
N
τ̂i
τ̂HT = δi ,
π
i=1 i
siendo τ̂i un estimador insesgado del total poblacional τi para la i-ésima UPM, el cual se
asume que es independiente de δi . Como seguidamente se aprecia, este es un estimador
insesgado del total poblacional τ ,
N
τi N N
τ̂i
E(τ̂HT ) = E( )E(δi ) = πi = τi = τ.
i=1
πi π
i=1 i i=1
a)
N
πi = n
i=1
b)
N
πij = (n − 1)πi , ∀i = 1, 2, . . . , N.
j=1
j=i
Teorema 4.1. Considere un muestreo bietápico que se realiza de modo que el muestreo en
cualquier unidad primaria es independiente del muestreo en cualquier otra unidad prima-
ria. Sea τ̂i un estimador insesgado del total τi de la i-ésima unidad primaria, el cual es
independiente de δ1 , δ2 , . . . , δN . Entonces, el estimador de Horvitz-Thompson del total de la
población,
N
τ̂i
τ̂HT = δi ,
π
i=1 i
114 CAPÍTULO 4. MUESTREO POR CONGLOMERADOS
N
N N
V (τ̂i )
τi τj
= (πi πj − πij )( − )2 + . (4.6)
i=1 j>i
πi πj i=1
πi
Mas aún, dos estimadores insesgados de esta varianza viene dados por
N
N N N
(1 − πi ) πij − πi πj τ̂i τ̂j V̂ (τ̂i )
V̂HT (τ̂HT ) = τˆi 2 δi + ( ) δi δj + δi
i=1
πi2 i=1 j=1
π ij π i π j i=1
πi
i=j
y
N N N
πi πj − πij τ̂i τ̂j V̂ (τ̂i )
V̂SY G (τ̂HT ) = ( )( − )2 δi δj + δi ,
i=1 j>i
π ij π i π j i=1
πi
N N N N
τi τ i τj V (τ̂i )
= ( )2 V (δi ) + Cov(δi , δj ) + πi
i=1
πi π π
i=1 j=1 i j i=1
πi2
j=i
N
N
N
N N
τi2 τi τj V (τ̂i )
= (1 − πi ) + (πij − πi πj ) + .
i=1
πi i=1 i=1 j=1
πi πj i=1
πi
j=i
Veamos ahora la equivalencia en (4.6) partiendo del segundo término sin el último factor
N V (τ̂i )
i=1 πi que se mantiene constante en ambas formulaciones. Este término es igual a
N N
1 τ2 τj2 τi τj
(πi πj − πij )( i2 + 2 − 2 )=
2 i=1 j=1 πi πj πi πj
j=i
4.9. EL ESTIMADOR DE HORVITZ-THOMPSON 115
N N N N N N
1 τ2 τj2 1 τ2 τj2 τi τ j
πi πj ( i2 + 2 ) − πij ( i2 + 2 ) − (πi πj − πij )
2 i=1 j=1 πi πj 2 i=1 j=1 πi πj i=1 j=1
πi πj
j=i j=i j=i
N N N N N N N
1 τ2 τj2 τi2 τi τ j
= πi πj ( i2 + 2 ) − τi2 − 2
( π ij ) − (πi πj − πij )
2 i=1 j=1 πi πj i=1
π
i=1 i j=1 i=1 j=1
πi πj
j=i j=i
N
τ2 N N N
τi2 i τi τ j
= (n − πi ) − (n − 1) − (πi πj − πij )
i=1
πi i=1
πi i=1 j=1
πi πj
j=i
N
N N
τi2 τi τ j
= (1 − πi ) + (πij − πi πj ) .
i=1
πi i=1 j=1
πi πj
j=i
Mostremos, finalmente, el insesgamiento de V̂HT (τ̂HT ). El del otro estimador queda como
ejercicio. Utilizando nuevamente la proposición 1.4, se tiene que
N
N N N
(1 − πi ) πij − πi πj τi τj (1 − πi ) 1
= τi2 E(δi ) + ( ) E(δi δj ) + ( + )V (τ̂i )E(δi )
i=1
πi2 i=1 j=1
πij πi πj i=1
2
πi πi
i=j
N
N N N
τi2 τi τj V (τ̂i )
= (1 − πi ) + (πij − πi πj ) + = V (τ̂HT ).
i=1
πi i=1 j=1
πi πj i=1
πi
i=j
Note que aun cuando las dos formas dadas para la varianza del estimador de Horvitz-
Thompson son algebraicamente las mismas y sus estimadores se basan en estas, la sustitución
de las cantidades muestrales en estas expresiones sobre diseños con probabilidades no iguales
proporcionan en general diferentes estimadores de esta varianza. A la segunda de estas formas
se le conoce como el estimador de Sen-Yates-Grundy (SYG) y, en general, esta suele mostrar
116 CAPÍTULO 4. MUESTREO POR CONGLOMERADOS
N N
τ̂i yi
τ̂HT = δi = n δi = N Ȳ
π
i=1 i i=1 N
donde:
N N
1 1
σ2 = (yi − µ)2 y µ= yi .
N − 1 i=1 N i=1
Otro caso particular, como se pide mostrar en el ejercicio 4.11 y que justifica (4.2), es el
estimador para la media en un muestreo por conglomerados bietápico. En caso de estimarse
el total, esta varianza viene dada por
N
n N2 2 N mi σ2
V (τ̂HT ) = (1 − ) σc + (1 − )Mi2 i ,
N n n i=1 Mi mi
donde σc2 = N 1−1 N K 2
i=1 (τi − N µ) .
Un problema, particular que se presenta con los estimadores de la varianza del estima-
dor de Horvitz-Thompson es que, para algunos diseños con probabilidades distintas, estas
pueden resultar negativas. A veces, la estabilidad se puede mejorar mediante una elección
cuidadosa del diseño; pero en general los cálculos son complicados. Una alternativa, que evita
algo de la inestabilidad potencial y la complejidad de los cálculos para la obtención de las
probabilidades de inclusión, es emplear el estimador de la varianza del estimador del total
considerando reemplazamiento. Esto fue lo que exactamente propusieron Hansen y Hurwitz
(1943) dando pie al siguiente estimador del total que lleva sus nombres:
N δ
1 i
τ̂ij
τ̂ψ = ,
n i=1 j=1 ψi
estimadores insesgados del total de la unidad primaria i, para la j-ésima selección de dicha
unidad. Note que el estimador de Horvitz-Thompson resulta de esta expresión si sustituimos
arriba a ψi por un promedio de elegir la unidad i en una extracción; vale decir, por πni . Se
puede probar (véase el ejercicio 4.12) que un estimador insesgado de la varianza de τ̂ψ viene
dado por
N δi
1 τ̂ij
V̂ (τ̂ψ ) = ( − τ̂ψ )2 . (4.7)
n(n − 1) i=1 j=1 ψi
Esto, sin embargo, podrı́a generar una cantidad mayor que 1, si la unidad i es relativamente
grande. En tal caso, las probabilidades se fijan en 1 (y, consecuentemente las unidades co-
rrespondientes serán siempre seleccionadas); mientras que las probabilidades de las demás
unidades se deben reescalar para que queden bien definidas; más explı́citamente, si al conjun-
to de K unidades en el subconjunto K de P les corresponde por lo anterior una probabilidad
de 1, entonces cualquier unidad i ∈
/ K tendrá una probabilidad de selección igual a
Xi (n − K)
.
/ Xj
j ∈K
Ası́, las probabilidades de inclusión de primer orden en un muestreo ppt quedan, finalmente,
definidas por:
1 si πi0 ≥ 1
πi = X (n−K)
i
Xj
si πi0 < 1
j ∈K
/
X = c(300,200,100,1000,150,500)
pik = inclusionprobabilities(X,3)
pik
Note que bajo este esquema el supermercado D resultará ser siempre seleccionado.
A diferencia de las probabilidades de inclusión de primer orden, las de segundo, que son
indispensables por el teorema 4.1 en la obtención de las estimaciones de la varianza del esti-
mador, no solo no son únicas sino difı́ciles de obtener. Estas probabilidades deben satisfacer
la proposición 4.2 b), lo cual nos conduce en general a resolver sistemas de ecuaciones nada
triviales. En la práctica, la obtención de estas probabilidades es todo un desafı́o; por ello
que en lugar de buscar fijarlas y estimar con ellas la varianza del estimador de interés (sin
que esto nos diga cómo obtener la muestra), es mucho más conveniente prescindir de estas,
ya sea tomando un muestreo con reemplazamiento o diseñando esquemas de muestreo sin
reemplazamiento que respeten las probabilidades de inclusión de primer orden y satisfagan
4.2 b). Algunos de estos esquemas se tratarán en la sección 4.12.
Xi
πi (1) =
X
y
n−1
Xi Xi
= πi (n − 1) + −1 n−1 , (4.8)
i1 ,i2 ,...,in−1 =1
X− h=1 X ih X− h=1 Xih
4.11. MUESTREO SECUENCIAL PPT 119
Xi
πi (1) =
X
N
Xi Xi
πi (2) = πi (1) + ( )( 1 )
i1 =1
X − X i1 X
i1 =i
N
N
Xi X i2 Xi
πi (3) = πi (2) + ( )( )( 1 ).
i1 =1 i2 =1
X − X i1 − X i2 X − X i1 X
i1 =i2 =i
Note que en el caso especial en que las Xi sean todas iguales, uno obtiene un MASs. Aquı́ la
fórmula (4.8) se reduce a πi (n) = Nn , cualquiera sea el valor de i = 1, 2, . . . , N y del tamaño
de muestra n.
Ejemplo 4.5. Un grupo comercial posee 6 supermercados en una ciudad, los cuales ocupan
terrenos con tamaños de entre 100 y 1000 metros cuadrados. Se desea estimar la cantidad
total de ventas mensual para el grupo en la ciudad, para lo cual se seleccionarán al azar y
sin reemplazamiento tres de estos supermercados. Si, para fines didácticos, dispusiéramos de
la siguiente información:
Obtenga para un muestreo secuencial ppt una estimación del total buscado y de su error
estándar de estimación. ¿Qué pasarı́a si se aplica un muestreo ppt? Replique estos resultados
para un muestreo ppt con reemplazamiento.
Solución: Notemos que el verdadero total de ventas a estimar para la cadena es de 408 000
dólares. Consideremos primero el muestreo secuencial ppt, para el cual hemos desarrollado
la siguiente función en R que calcula sus probabilidades de inclusión de primer y segundo
orden.
120 CAPÍTULO 4. MUESTREO POR CONGLOMERADOS
Una aplicación de esta función nos brinda las siguientes probabilidades de inclusión de
primer y segundo orden, donde las primeras se encuentran en la diagonal de la matriz.
(p = pisppt(X,3))
el supermercado F. Cabe aclarar que Πi (1) denota aquı́ la probabilidad acumulada para la
primera de selección. Eliminado el supermercado F del proceso, el segundo supermercado
seleccionado será
y = c(24,20,11,245,18,90)
HTestimator(y[4:6],diag(p)[4:6])
## [,1]
## [1,] 460
Más aún, el error estándar de estimación estimado de esta estimación puede obtenerse
del teorema 4.1 con la función varHT mediante
pik2 = p[4:6,4:6]
sqrt(varHT(y[4:6],pik2,1))
## [1] 76.1
sqrt(varHT(y[4:6],pik2,2))
## [1] 73.1
Este sistema posee, sin embargo, infinitas soluciones, una de las cuales se resume en la
siguiente matriz π = [πij ] de probabilidades de inclusión de segundo orden:
0 0.05 0.04 0.48 0.04 0.35
0.05 0 0.02 0.32 0.03 0.22
0.04 0.02 0 0.16 0.02 0.08
π=
0.48 0.32 0.16 0 0.24 0.8
0.04 0.03 0.02 0.24 0 0.15
0.35 0.22 0.08 0.8 0.15 0
4.12. MUESTREO CON PROBABILIDADES DESIGUALES 123
Esta elección arbitraria deberı́a de corresponder al mecanismo de selección de las tres unida-
des pedidas (en la que el supermercado D estará de todos modos). Tal mecanismo es difı́cil de
deducir, por lo que una mejor estrategia serı́a primero fijar el mecanismo de selección para
luego encontrar la matriz particular π asociada. Ello es lo que precisamente haremos en la
siguiente sección.
Analicemos, finalmente, la posibilidad de tomar un muestreo con reemplazamiento, el
cual simplifica muchı́simo el proceso de selección. Supongamos para ello que obtuvimos los
números aleatorios 0.09245, 0.7779 y 0.5865. Entonces, de la primera tabla obtenida en el
muestreo secuencial ppt (con ψi = πi (1)), los supermercados seleccionados serán A, D y F.
Ello nos da una estimación para el total de ventas de
24 245 90
τ̂ψ = ( + + )/3 = 378.75
0.133 0.444 0.222
miles de dólares. El error estándar de estimación estimado de τ̂ψ es, por la fórmula (4.7),
de 194.556 mil dólares.
de muestreo (sampling algorithm); esto es, un procedimiento que nos permita seleccionar la
muestra. La manera más directa de definir este algoritmo es la enumerativa. Esta consiste en
listar todos los elementos del diseño (Q, p) junto con sus probabilidades acumuladas y luego
seleccionar aquel elemento en Q cuya probabilidad acumulada sea la primera en superar
a cierto número aleatorio. Tal algoritmo resulta, sin embargo, prohibitivo si n y N son
relativamente grandes o si p no está completamente especificada. El texto de Tillé (2006) se
enfoca precisamente en el desarrollo de algoritmos de muestreo que sean más eficientes que
el enumerativo planteado. Algunos de estos esquemas se introducen seguidamente.
probabilidades de inclusión del esquema sistemático anterior para todas las permutaciones
posibles en el marco muestral. Claramente, esto será posible si el aspecto computacional
lo permite; es decir, si el tamaño de la población no es muy grande. El esquema anterior
ası́ como este último, se encuentran implementados en el paquete sampling de R a través de
los comandos UPsystematic y UPrandomsystematic, respectivamente. Se dispone también
del comando UPsystematicpi2 que calcula, para el primero, las probabilidades de inclusión
de segundo orden.
de tal manera que este vector se actualize para el paso 1 como uno de los M vectores
anteriores, digamos π(1) = π (k) (0), el cual será seleccionado con probabilidad λk (0). El
vector resultante tomará ahora el rol del vector de probabilidades de inclusión de primer
orden y el algoritmo se repetirá hasta el paso K en el que π(K) ∈ {0, 1}N , lo cual nos
brindará la muestra buscada. Dependiendo de cómo se especifique la combinación lineal
convexa en cada paso t
M
π(t) = λj (t)π (j) (t), (4.9)
j=1
126 CAPÍTULO 4. MUESTREO POR CONGLOMERADOS
el método generará una gran variedad de esquemas distintos. Aquı́ solo explicitaremos algu-
nos de ellos
El esquema por división hacia un MAS
Este esquema considera M = 2 y fuerza a que uno de los dos vectores de mezcla en (4.9)
corresponda siempre a un MAS. El escalar λ1 (t) se escoge de tal manera que, en la siguiente
iteración, la probabilidad de inclusión de la unidad k con el valor más cercano a 0 o 1 tome
precisamente uno de estos valores. Dado que toda unidad con una probabilidad de inclusión
de 0 o 1 no integrará o integrará con certeza la muestra final, el algoritmo se simplifica para
cada iteración.
El esquema pivotal
Este esquema considera M = 2 y tiene la peculiaridad de que modifica en cada paso
solamente las probabilidades de inclusión de dos de sus unidades. Si en el paso t se eligen
las unidades i y j (de probabilidades no nulas ni 1) y πi (t) + πj (t) > 1, entonces el esquema
se define por
1 − πj (t)
λ(t) = ,
2 − πi (t) − πj (t)
πk (t) si k ∈ P \ {i, j}
(1)
πk (t) = 1 si k = i
π (t) + π (t) − 1 si k = j
i j
y
πk (t) si k ∈ P \ {i, j}
(2)
πk (t) = πi (t) + πj (t) − 1 si k = i
1 si k = j
En caso contrario; es decir, si 0 < πi (t) + πj (t) < 1, el esquema se define por
πi (t)
λ(t) = ,
πi (t) + πj (t)
πk (t) si k ∈ P \ {i, j}
(1)
πk (t) = πi (t) + πj (t) si k = i
0 si k = j.
y
πk (t) si k ∈ P \ {i, j}
(2)
πk (t) = 0 si k = i
πi (t) + πj (t) si k = j.
En el primer caso se fija una probabilidad de 1 a una sola de las unidades; mientras que
en el segundo se fija una probabilidad de 0 a solo una de las unidades. De esta manera, el
esquema requiere de a lo más N pasos para obtener la muestra.
Tanto el esquema pivotal como otros de división en M clases, como el esquema de elimi-
nación de Tillé o el esquema de Midzuno generalizado, se encuentran implementados
4.13. MUESTREO POR CONGLOMERADOS PARA LA POBLACIÓN API 127
Ejemplo 4.6. Estimemos, bajo los esquemas ppt dados, el total de ventas para los super-
mercados del ejemplo 4.5. La estimación de Horvitz-Thompson se obtiene mediante
y = c(24,20,11,245,18,90)
m = UPpoisson(pik)
HTPoisson = HTestimator(y[m==1],pik[m==1])
m = UPsystematic(pik)
HTsys = HTestimator(y[m==1],pik[m==1])
m = UPrandomsystematic(pik)
HTrsys = HTestimator(y[m==1],pik[m==1])
m = UPsampford(pik)
HTsam = HTestimator(y[m==1],pik[m==1])
c(HTPoisson,HTsys,HTrsys,HTsam)
library(survey)
data(api)
K = dim(apipop)[1]
apipop$dnum[1:100] # mostrando parte de la variable de conglomeración
## [1] 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 7
## [18] 7 7 7 60 60 60 60 60 60 60 60 60 60 60 60 60 60
## [35] 116 116 116 116 116 116 116 116 116 116 116 211 211 211 248 248 248
## [52] 248 248 248 248 248 248 248 248 248 248 248 248 248 248 248 248 248
## [69] 248 248 248 248 248 248 248 248 248 248 248 248 248 248 248 248 248
## [86] 248 294 294 294 294 294 294 294 294 294 294 294 294 294 294
128 CAPÍTULO 4. MUESTREO POR CONGLOMERADOS
(N = length(table(apipop$dnum)))
## [1] 757
library(sampling)
n = 15
[Link](12345)
aux1=cluster(apipop,clustername=c("dnum"),n, method=c("srswor"),description=T)
Note que este es un diseño sin reemplazamiento, pues se incluye un factor de corrección
para poblaciones finitas. Algo que remarcar aquı́ y que no ocurrı́a en los diseños anteriores
es la presencia de ids=~dnum , que especifica a la variable dnum como variable de conglome-
ración.
Analicemos ahora, como en los diseños previos, cómo estimar el número total de matri-
culados y la media del ı́ndice api para el año 2000:
svytotal(~enroll,dclus1)
## total SE
## enroll 3219521 1211326
4.13. MUESTREO POR CONGLOMERADOS PARA LA POBLACIÓN API 129
svymean(~api00,dclus1)
## mean SE
## api00 724 26.3
Note que este diseño resulta ser menos preciso que los diseños MASs y MAE vistos anterior-
mente.
Consideremos ahora un muestreo aleatorio por conglomerados bietápico con 40 unidades
primarias (distritos escolares) y 5 unidades secundarias (colegios) por distrito. Si bien el
paquete survey contiene una base de datos con estas caracterı́sticas, llamada apiclus2,
nosotros buscaremos tomar una muestra propia. Para esto podrı́amos apelar al comando
mstage del paquete sampling, que en teorı́a permite obtener este tipo de muestras. Tal
estrategia, sin embargo, no será aquı́ conveniente ya que los argumentos de dicho comando
exigen que el número de unidades secundarias a tomar sea a priori conocido. Esto no ocurre
en nuestro ejemplo, pues hay distritos escolares con menos de 5 colegios. Nuestra muestra
bietápica la obtendremos más bien con la siguiente rutina que solo hace uso del comando
cluster:
[Link](12345)
Pop = apipop
aux0 = aggregate(Pop[,6],by=list(Pop$dnum),function(x)x[1])
aux1 = aggregate(Pop[,7],by=list(Pop$dnum),length)
Popd = cbind(aux0,aux1) # Se crea una nueva base de datos de distritos
names(Popd)[c(2,4)]=c("dname","Ncdis")
Pop = merge(Pop,Popd[,c(2,4)],by=c("dname"))
m1<-sampling:::cluster(Pop,clustername=c("dnum"),size =40,method ="srswor")
m1<-getdata(Pop,m1) # Muestra de primera etapa (distritos)
t = [Link](sapply(table(m1$dnum),function(x) min(5,x)))
m2 = NULL
for(i in 1:40){ # Muestra de segunda etapa (colegios)
mx = m1[m1$dnum==unique(m1$dnum)[i],]
mx$Prob1 = mx$Prob
m<-sampling:::cluster(mx,clustername=c("snum"),size=t[i],method ="srswor")
m = getdata(mx,m)
m2 = rbind(m2,m)}
m2$w = 1/(m2$Prob1*m2$Prob) # Pesos de muestreo
m2$fpc1 = fpc=rep(N,dim(m2)[1])
Como en los diseños previos, la estimación del número total de matriculados y la media
del ı́ndice api para el 2000 se obtendrán mediante
## total SE
## enroll 3059677 651303
svymean(~api00, dclus2)
## mean SE
## api00 702 20.1
load("[Link]")
cp16x = cp16f[-which(cp16f$EP=="Barbadillo"),]
cp16x = cp16x[-which(cp16x$EP=="Base Naval Callao"),]
pa = by(cp16x$SITUACION_JURIDICA,cp16x$EP,table)
cEP1 = unlist(lapply(pa,"[[",1))
cEP2 = unlist(lapply(pa,"[[",2))
pEPs = [Link](cEP2/(cEP1 + cEP2)) # prop. de sentenciados por EP
M = [Link](unlist(table(droplevels(cp16x$EP)))) # [Link] internos por EP
N = length(M) # numero de EP's
c2 = rep(5,N)
c2[c(8,13:18)]=3
cc = c(750,c2,10000)
library(nloptr)
donde en las últimas filas hemos estimado un costo por EP a seleccionar de 750 soles, un
costo por interno de 5 soles (con excepción de Lima y Callao, en que este se reduce a 3 soles)
y un presupuesto total para el trabajo de campo de máximo 10 000 soles.
Un aspecto clave para sugerir los tamaños de muestra será calcular una estimación de
la varianza de la proporción de sentenciados a estimar. Para ello utilizaremos, por simplici-
dad, un esquema sistemático ordenado, el cual recordemos nos provee de las probabilidades
de inclusión de segundo orden que son esenciales en el cálculo del estimador de Horvitz-
Thompson. Dado entonces el número de EP a seleccionar (n), la cantidad de internos por
EP a tomar (m), la cantidad de internos por EP (M ) y las proporciones de internos senten-
ciados estimadas por EP (pEP s), la función siguiente permite calcular la varianza (4.6) en
discusión
Nuestro diseño buscará minimizar la varianza anterior, sujeto a que los costos de muestreo
132 CAPÍTULO 4. MUESTREO POR CONGLOMERADOS
N
N N
1 Mi p̄i Mj p̄j 2 3 mi p̄i (1 − p̄i )
(πi πj − πij )( − ) + Mi (1 − ) , (4.10)
K2 i=1 j>i
πi πj i=1
Mi mi (Mi − 1)πi
sujeto a que c1 n + N i=1 c2i mi πi ≤ C0 , mi ≤ Mi y n ≤ N . Aquı́, c1 denota el costo por
EP seleccionado, c2i el costo unitario por interno dentro del EP i y C0 el presupuesto total
para el trabajo de campo. Note que el problema (4.10) es uno de programación no lineal
entera con restricciones de desigualdad. Aquı́, los πi y πij dependen de n de manera no
lineal y los p̄i denotan las proporciones de sentenciados estimados en cada EP i sobre la
base del censo del 2016. Dado que no existe una rutina estándar de programación no-lineal
entera bajo restricciones, optaremos por resolver (4.10) para cada posible valor entero de
n ∈ {2, 3, . . . , [ Cc10 ]} y elegir luego el tamaño de muestra n de primera etapa, como el valor
que minimice las varianzas de estas soluciones. Para esto usaremos el paquete nloptr(Ypma
et al., 2018) de R, el cual es una interfase para resolver problemas de optimización con
restricciones. Las restricciones de costos y opciones de optimización se programan en
gm <-function(m,n,M,pEPs,cc){ N = length(M)
c2 = cc[2:(N+1)]
pik = inclusionprobabilities(M,n)
sum(c2*pik*m) - (cc[N+2]-cc[1]*n)}
opts = list("algorithm"="NLOPT_LN_COBYLA","xtol_rel"=1.0e-8,maxeval = 2000)
mientras que la gráfica de esta función para diferentes valores de n, obtenida con el código
abajo mostrado, se aprecia en la figura 4.2.
0.004
0.003
Varianza
0.002
0.001
2 4 6 8 10 12
Figura 4.2: Varianza (4.6) de la proporción de sentenciados estimados para cada valor de n
v = 0
top = floor(cc[N+2]/cc[1])
for (h in 2:top){ aux = moptimn(h,M,pEPs,cc)
v[h] = aux$objective}
v = v[-1]
plot(2:top,v,xlab="n",ylab="Varianza")
lines(2:top,v)
## [1] 56 68 11 54 60 50 41 73 42 38 30 64 84 77 77 13 98 82 47 53 57 59 56
## [24] 62 52 52 42 31 75 61 70 49 62 57 56 63 38 60 57 54 49 57 60 13 41 44
## [47] 48 37 49 56 50 41 45 42 46 34 52 49 55 53 60 23 49 22 55 57 60 14 58
## [70] 62 60 18 58 43 60 49 44 17 59 10 55 10 58 33 46 29 57 51
134 CAPÍTULO 4. MUESTREO POR CONGLOMERADOS
4.15. Ejercicios
1. Un estudiante de un internado desea estimar el promedio final medio que alcanzaron él y
sus compañeros en un curso de la institución. En lugar de obtener un listado de todos sus
compañeros y realizar un MASs, se da cuenta de que los alumnos de su institución están
distribuidos en 100 cuartos de 4 alumnos cada uno. Por ello decide seleccionar al azar 5 de
estos cuartos y preguntarles a todos los estudiantes en esos cuartos el puntaje que obtuvieron
en el curso. Los resultados se muestran en la siguiente tabla:
Alumno Cuarto
No . 1 2 3 4 5
1 15.4 11.8 10 15 13.4
2 13 15.2 12.8 14.4 9.6
3 17.2 16.4 12.6 17.2 16.4
4 15.2 13.4 9.4 18.2 16
1 2 3 4 5 6 7 8X 9 10
11 12 13 X 14 15 16 17 18 19 X 20 X
21 22 23 24 25 X 26 27 28 29 30
31 32 33 34 35 X 36 37 38 39 40
41 42 43 44 X 45 46 47 X 48 X 49 50
51 X 52 53 X 54 X 55 X 56 57 58 X 59 60
61 62 63 64 65 66 X 67 68 69 70
71 72 73 74 X 75 X 76 77 78 79 X 80
81 82 83 84 85 86 87 88 89 90
91 92 93 94 95 96 97 98 X 99 100 X
3. A fin de estimar la proporción de poseedores de al menos un auto entre los 3000 empleados
de una compañı́a que se divide en 20 departamentos de 150 funcionarios cada uno, se plantea
un diseño que seleccionará al azar 10 departamentos y dentro de cada departamento 10
empleados. Si el número encontrado de empleados que poseen al menos un auto en esta
muestra fue de
4, 5, 9, 0, 9, 9, 8, 6, 5, 4,
estime la proporción pedida y construya un intervalo de confianza al 95 % para este paráme-
tro.
4. Una empresa de investigación de mercados ideó un plan de muestreo para estimar las
ventas semanales de un producto A en una área geográfica. La empresa decidió muestrear
ciudades dentro del área y luego supermercados dentro de cada una de las ciudades. La
medición de interés es el número de cajas vendidas del producto A en una semana especı́fica.
Cinco ciudades son muestreadas de entre las 20 del área. Usando los datos presentados en la
tabla adjunta
a) Estime las ventas medias de todos los supermercados en el área para la semana especı́fica.
¿Es insesgado el estimador utilizado?
b) ¿Se tiene suficiente información para estimar el número total de cajas del producto A
vendidas en todos los supermercados del área durante la semana? Si es ası́, obtenga esta
estimación y explique cómo obtendrı́a su error estándar de estimación estimado.
5. Considere la base de datos poblacional Province 91 vista en el ejercicio 17 del capı́tulo
2, en donde la variable de conglomeración Cluster agrupa a un conjunto de municipalidades
geográficamente contiguas de la provincia en estudio. Suponga que deseamos realizar una
encuesta por muestreo utilizando ya sea un diseño por conglomerados de una etapa o de dos
etapas. En la primera se seleccionarán tres conglomerados y en la segunda se seleccionarán
4 conglomerados y dentro de estos dos municipalidades, todas mediante un MASs. Si es de
interés estimar el número de personas desempleadas en la provincia,
a) Halle la estimación pedida bajo los dos esquemas de muestreo.
b) Asumiendo que cuenta con toda la información, obtenga los efectos de diseños de ambos
esquemas e indique cuál serı́a más eficiente.
c) Asumiendo que no cuenta con toda la información, estime los efectos de diseño anteriores.
136 CAPÍTULO 4. MUESTREO POR CONGLOMERADOS
6. En este ejercicio, tomado de Mendenhall et al. (2007), una socióloga desea estimar el
número total de jubilados que viven en una ciudad. La socióloga decide muestrear manzanas
y después casas dentro de las manzanas. Se seleccionaron aleatoriamente 4 manzanas de
entre 300 de la ciudad. Responda a las siguientes preguntas a partir de los datos presentados
en la tabla que aparece a continuación
Colegio A B C D E F
Número de estudiantes 150 200 50 30 400 100
Si realizada la selección anterior salieron elegidos los colegios A y E con los siguientes resul-
tados:
Colegio seleccionado Media Varianza
1 14.5 25.64
2 10.9 16.36
a) Estime, de manera insesgada, el rendimiento medio de esta zona junto con su error estándar
de estimación.
b) Si alguien le objeta que debió considerar, para que el muestreo sea representativo, iguales
probabilidades de selección, ¿qué le responderı́a?
138 CAPÍTULO 4. MUESTREO POR CONGLOMERADOS
14. El año pasado una plaga de roya afectó seriamente la producción de café en una zona de
un paı́s que agrupa a 15 unidades agropecuarias (UA) y las cuales se ubican en dos zonas
ecológicas (1 = Baja y 2 = Alta). Con el objetivo de estimar las pérdidas medias en miles
de dólares (µ) para los productores de café de la zona a causa de la plaga, el ministerio
del sector está interesado en realizar un estudio en la zona. Los datos siguientes ilustran la
variable de pérdida en miles de soles (y), la variedad cultivada de café (A o B), el número
de hectáreas (Ha) y las variables anteriormente descritas para cada unidad agropecuaria de
la zona. Naturalmente, y se desconoce, pero se la presenta aquı́ solo para evitar que usted
tenga que recabar esta información en el campo.
f) Suponga ahora que se aplica un muestreo por conglomerados de una etapa, siendo la
variable de conglomeración la cooperativa. Si salieron seleccionados, bajo este diseño, las
cooperativas 1 y 4, estime µ bajo dos escenarios: uno en el que conozca el número de UA
por cada cooperativa y otro en el que desconozca este número y lo averigue en el trabajo de
campo.
g) De algún indicador en f) que le permita comparar este diseño con el MAE aplicado en d)
y haga la comparación respectiva, indicando cuál de los diseños es más eficiente.
h) Si tomará una muestra de 2 conglomerados (cooperativas) bajo un esquema sistemático
ordenado con tamaños proporcionales al número de hectáreas que administra cada coopera-
tiva, ¿con qué probabilidad las cooperativas 1 y 4 serı́an seleccionadas?
i) Estime µ, bajo el esquema en h). Use el número aleatorio 0.305.
15. Realice, para el ejemplo de las ventas del supermercado, un pequeño estudio de simulación
a fin de comprobar que el método de Sampford “funciona”. Para ello, escriba un programa
en R que seleccione 1000 muestras de tamaño 3 bajo este esquema y, con estas simulaciones,
estime las probabilidades de inclusión ppt de primer orden. Compare luego estas con las
verdaderas probabilidades ppt del ejemplo.
16. En el siguiente ejercicio, tomado de Mendenhall et al. (2007), un parque de diversiones
cobra entrada por auto en lugar de por persona y desea estimar el número promedio de
personas por auto que entran al parque en un dı́a festivo. El funcionario del parque sabe por
experiencia que entrarán a este alrededor de 400 autos y decide muestrear 80 de ellos. Para
obtener una estimación de la varianza, decide utilizar un muestreo sistemático repetido con
10 muestras de 8 autos cada una. Usando los datos que a continuación se presentan, estime
el número medio de personas por auto y establezca un lı́mite para el error de estimación.
Las respuestas del número de personas por auto se encuentran entre paréntesis.
140 CAPÍTULO 4. MUESTREO POR CONGLOMERADOS
18. Suponga que en la pregunta anterior se hubiese tenido interés en estimar la proporción de
colegios unidocentes de la región y que con este fin se plantearan dos propuestas: seleccionar
4 distritos con probabilidades proporcionales al número de colegios en el distrito o seleccionar
4 distritos mediante un muestreo por conglomerados de una etapa.
a) Utilizando un esquema sistemático ordenado en la primera propuesta, ¿serı́a posible re-
portar la proporción estimada buscada y su error estándar de estimación estimado?
4.15. EJERCICIOS 141
Tienda 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Stock 55 45 10 12 10 120 18 20 35 45 10 36 30 27 15 50
21. Suponga que en el ejemplo 4.6 se plantea un plan con las siguientes caracterı́sticas:
Parcela 1 2 3 4 5 6 7 8
Área 400 580 674 920 180 300 380 555
Num. de árboles 16 21 18 24 24 23 25 51
Parcela 9 10 11 12 13 14 15 16
Área 990 602 508 210 350 678 440 735
Num. de árboles 42 19 11 10 36 21 37 12
4.15. EJERCICIOS 143
Si usted toma una muestra de 8 parcelas con probabilidades proporcionales al área de estas,
¿cuál serı́a su estimación y cuál su error estándar de estimación estimado para el número de
árboles que contendrı́a esta zona? Use para su muestreo un esquema de Sampford.
f) Interprete la salida del siguiente código:
zona = rep(1:4,each=6)
M = rep(c(12,16,14,21),each=6)
N = rep(15,24)
ya = c(15,14,21,18,9,10,4,7,10,9,8,5,10,11,14,10,9,15,6,3,4,1,2,5)
ysa = c(5,2,8,3,1,0,0,2,1,1,3,0,3,2,2,1,0,4,2,1,1,0,0,1)
ps = ysa/ya
Bas = [Link](id=1:24,N,zona,M,ya,ysa,ps)
dis = svydesign(ids=~zona+id,fpc=~N+M,data=Bas)
svymean(~ps,dis)
23. Suponga que en el ejemplo 4.6, no es ya de interés tomar un muestreo ppt, sino considerar
iguales probabilidades de selección con excepción del supermercado D, el cual debe tener el
doble de probabilidad de ser seleccionado que los otros supermercados.
a) ¿Cuáles serı́an las probabilidades de inclusión de primer orden bajo este esquema?
b) Halle el estimador de Horvitz-Thompson para el total de ventas en la cadena si salieron
seleccionados, bajo este esquema, los supermercados A, D y E.
c) Si se seleccionan ahora al azar y sin reemplazamiento uno por uno cada uno de los 3
supermercados, utilizando en cada selección probabilidades proporcionales al tamaño, ¿con
qué probabilidad será seleccionado el supermercado D?
d) Tome su muestra ppt y estime el total de ventas de la cadena, si se decide que en caso
salga seleccionado el supermercado D, se medirá el total de ventas en 2 de sus 5 divisiones
seleccionadas al azar. Suponga que los totales de ventas en estas divisiones están en el orden
de los 40, 45, 68, 29 y 63 mil dólares.
Capı́tulo 5
La gran mayorı́a de encuestas por muestreo sobre poblaciones grandes involucran varias
de las ideas analizadas: una encuesta puede estar segmentada en dominios, estratificada
con varias etapas de formación de conglomerados, las probabilidades de selección pueden
no ser iguales y es factible utilizar un muestreo sistemático en cualquiera de las etapas.
Generalmente, la estratificación forma la clasificación más gruesa, los estratos pudieran ser
áreas del paı́s o tipos de habitat. Se extraen de los estratos muestras de conglomerados (a
veces con varias etapas) y puede haber una post-estratificación o interés a posteriori sobre
algunos dominios. Todo esto hace, como se comprenderá, que las fórmulas para los errores
de estimación en este tipo de diseños sean prácticamente inmanejables. En este capı́tulo,
presentaremos una introducción a la obtención de estimadores y de sus varianzas en estos
tipos de diseños. Comenzaremos analizando los pesos de muestreo, el cálculo de estimadores
mediante estos pesos y la estimación de las varianzas de estos estimadores. Finalmente,
brindaremos una introducción al análisis estadı́stico bajo muestras complejas.
Para tener una idea de la magnitud de los problemas comentados, consideremos el censo
penitenciario 2016 como base de una encuesta futura por muestreo. Dadas las caracterı́sti-
cas y el tamaño de la población, pueden plantearse aquı́ varios diseños, uno de los cuales
expusimos al término del capı́tulo anterior. Aun cuando los diseños clásicos estudiados son
teóricamente factibles, en la práctica estos son inviables dadas las restricciones de costos y la
complejidad de la logı́stica subyacente. Una propuesta más realista para los penales podrı́a
ser, por ejemplo, optar por un diseño estratificado y por conglomerados bietápico. De manera
natural, los estratos pudieran estar definidos, como en el capı́tulo 3, por el género y nivel
de hacinamiento de las cárceles, las unidades primarias de muestreo (UPM) en cada estrato
podrı́an tomarse como los establecimientos penitenciarios (EP) y, finalmente, las unidades
secundarias de muestreo (USM) podrı́an ser los internos al interior de cada EP. Se puede
también pensar en tres etapas, si previamente a la selección de los internos se seleccionan
145
146 CAPÍTULO 5. UNA INTRODUCCIÓN AL MUESTREO COMPLEJO
donde la suma va sobre todas las unidades de la población y las múltiples etapas de selección;
δk es una v.a. indicadora de si la unidad k es seleccionada o no en la muestra, y los ωk0 son
los pesos bases asociados a la selección de la unidad correspondiente a la medición yk . Este
estimador puede escribirse alternativamente como
τ̂ = ωi0 Yi ,
i∈S
donde la suma va sobre las unidades seleccionadas en la muestra bajo el diseño (que denotare-
mos por S y que es un subconjunto de la población P) e Yi denota a la v.a. correspondiente al
valor que y toma en la i-ésima selección. Veamos algunos ejemplos y por brevedad apelemos
por ahora a la primera notación.
N Mi
donde ωij0 = nni
, y la estimación de la media poblacional es
N Mi 0
i=1 j=1 ωij yij δij
Ȳ = N Mi 0 .
i=1 j=1 ωij δij
Es interesante notar que estos estimadores del total son por construcción insesgados y que
tales esquemas pueden utilizarse para obtener el estimador de un total en otros diseños
complejos. Consideremos, por ejemplo, el caso de un muestreo por conglomerados de tres
etapas o trietápico. Aquı́, la probabilidad conjunta de que la unidad terciaria k, de la unidad
secundaria j perteneciente a la unidad primaria i sea seleccionada, puede calcularse por
Luego, el peso de muestreo para esta unidad de observación viene dada por
0 0 0
ωijk = ωk|i,j × ωj|i × ωi0 ,
0 0
siendo, respectivamente, ωk|i,j , ωj|i y ωi0 los inversos de las probabilidades arriba indicadas.
148 CAPÍTULO 5. UNA INTRODUCCIÓN AL MUESTREO COMPLEJO
donde nm es el número de unidades sin respuesta en la muestra e Ȳr y Ȳm son, respectiva-
mente, las medias muestrales de y para los que responden y no. La idea de una reponderación
o ajuste es tratar de que Ȳr e Ȳm sean lo más parecidos posibles, tarea ciertamente compli-
cada, pues en la práctica uno no conoce Ȳm ni, a priori, la proporción de unidades que han
de responder a la encuesta.
Antes de entrar propiamente en la ponderación, es bueno entender cómo se podrı́a generar
una no respuesta y como, según ello, se podrı́a especificar un elemento vital en todo este
análisis: la probabilidad φk de que una unidad k seleccionada responda. Para ello seguiremos
la terminologı́a dada por Little y Rubin (2002), quienes suponen un modelo para el vector de
variables de interés. Supongamos que en una encuesta tenemos para cada unidad k un vector
de variables de interés yk disponible solo si k responde y un vector de variables auxiliares xk
siempre disponible al margen de si la unidad k responde o no. Diremos que una no repuesta
será:
Supongamos ahora que deseamos estimar, bajo un diseño complejo, un total para una
variable estadı́stica y en una población de tamaño N . Con el fin de incorporar la posibilidad
de no respuesta, definamos una variable aleatoria indicadora Rk que vale 1 si, y solamente
si, la unidad k responde condicionada, a que sea seleccionada. En caso contrario, Rk vale 0.
Tomada la muestra, y considerando solo las unidades con respuesta, un estimador de τ tiene
la forma
τ̂ = ωk yk δk Rk .
k
= ωk yk E(δk )φk = ωk yk πk φk .
k k
1 1
ωk = = ωk0 ,
πk φk φk
En otras palabras, P̂ (y) es igual a la suma de los pesos de todas las observaciones en la
muestra que toman el valor y, dividida entre la suma de todos los pesos en la muestra; y,
por otro lado, F̂ (y) es la suma de los pesos para todas las observaciones en la muestra con
valores menores o iguales que y, divididas entre la suma de todos los pesos en la muestra.
Si ahora deseamos estimar ciertos parámetros poblacionales, deberemos, en primer lugar,
expresar estos en términos de su real proporción poblacional; por ejemplo, la media y varianza
se expresan respectivamente por
N
2 1 N 2
µ= yP (y) y σ = (yi − µ)2 = ( y P (y) − µ2 ).
y
N − 1 i=1 N −1 y
Ejemplo 5.1. Considere, para la ECE 2019 de la DRE Amazonas, un diseño estratifica-
do de conglomerados de una etapa, donde la variable de estratificación será la definida por
el cruce de las variables de gestión y área, y los conglomerados serán los colegios. Nuestro
interés recaerá, en primer lugar, en seleccionar una muestra de 20, 20, 4 y 4 colegios en,
respectivamente, los estratos [Link], [Link], [Link] estatal y [Link]
estatal. y, en segundo lugar, en analizar cómo hace el paquete survey para estimar el rendi-
miento medio en Ciencia y Tecnologı́a, a partir de solo los pesos base de muestreo. Para lo
primero usaremos el comando mstage,el cual exige ordenar la base de datos por la variable
de estratificación. Los códigos son los siguientes:
library(survey)
library(sampling)
load("[Link]")
Pop = ece19Am
Pop$Estrato=interaction(Pop$area,Pop$gestion2)
Pop = Pop[order(Pop$Estrato),]
[Link](12345)
disl = list("stratified","cluster")
m=mstage(Pop,stage=disl,varnames=list("Estrato","ID_IE"),
size=list(size1=table(Pop$Estrato),size=c(20,20,4,4)),method=list("","srswor"))
mues = getdata(Pop,m)[[2]]
mues$w0 = 1/mues$Prob
aa = by(Pop$ID_IE,Pop$Estrato,unique)
aa = [Link](unlist(lapply(aa,length)))
mues$fpc = rep(aa,table(mues$Estrato))
152 CAPÍTULO 5. UNA INTRODUCCIÓN AL MUESTREO COMPLEJO
Note que a la base de datos muestral mues le hemos agregado, los pesos base de muestreo
ω0 y el número de colegios por estrato f pc. Para estimar el rendimiento medio en Ciencia y
Tecnologı́a debemos definir el diseño correspondiente. Ello podrı́a hacerse en R con cualquiera
de los siguientes dos comandos:
(disc0=svydesign(ids=~ID_IE,strata=~Estrato,fpc= ~fpc,data=mues,nest=T))
(disc1=svydesign(ids=~ID_IE,strata=~Estrato,data= mues,weights=~w0))
coef(svymean(~M500_CT,disc1,[Link]=T))
## M500_CT
## 444
h = by(mues$w0,mues$M500_CT,sum)
Phat = [Link](h/sum(h))
(meanCT = sum([Link](names(h))*Phat))
## [1] 444
Si bien podrı́amos sustituir directamente aquı́ F (y) por F̂ (y), resulta más conveniente utilizar
en su lugar una interpolación lineal entre los valores muestrales que tengan una proporción
acumulada cercana a p. Esto nos conlleva al siguiente estimador para el cuantil p:
p − F̂ (y1 )
q̂p = y1 + (y2 − y1 ),
F̂ (y2 ) − F̂ (y1 )
donde y1 es el mayor valor y en la muestra que satisfaga F̂ (y) < p, e y2 es el menor valor y
en la muestra que cumpla F̂ (y) > p.
Ejemplo 5.2. Se desea implementar un programa para adultos mayores de una pequeña
comunidad. El programa se brindará al cuarto superior de las personas de mayor edad, por
lo cual es de interés estimar el cuantil 0.75 de esta población. Si suponemos que las edades
de todos los habitantes de la comunidad, segmentados en distritos, es la que se muestra en
el cuadro 5.1, tome un MASs 10 personas y luego realice un muestreo por conglomerados
bietápico de dos distritos y 10 personas en estos, con un número de USM proporcionales al
tamaño del distrito, a fin de estimar el cuantil requerido bajo ambos diseños. Realice estas
estimaciones con su propia rutina y usando el comando svyquantile del paquete survey.
Distrito A A A A A A A A A A B B B B B B
Edad 20 66 46 61 53 69 50 12 64 46 48 11 38 8 62 51
Distrito B B B B B B B B C C C C C C C C
Edad 38 11 35 65 59 90 19 11 54 56 11 47 54 63 33 17
Distrito C C C C C C C D D D D D D D D D
Edad 72 67 34 47 10 23 52 17 12 20 31 12 48 3 34 37
Distrito D D D D D D D D D D D D D D D D
Edad 1 6 28 11 36 2 10 45 1 10 51 11 18 57 23 17
Cuadro 5.1: Distritos de pertenencia y edades en años de todos los miembros de la comunidad
del ejemplo 5.3
[Link](12345)
N = dim(Eje3cap5)[1]
sampleMASs = Eje3cap5[sample(N,10),]
dise1 = svydesign(id=~1,fpc = rep(N,10),data = sampleMASs)
svyquantile(~Edad,dise1,0.75)
## 0.75
## Edad 45.5
quantile(Eje3cap5$Edad,0.75)
## 75%
## 52.2
Ella nos brinda una estimación bastante pobre del verdadero tercer cuartil que está entre 52
y 53 años. Por otro lado, para la estimación por el diseño bietápico, primero será necesario
definir los pesos de muestreo. Como recordamos, estos serán el producto del peso para la
primera etapa que es 2 por el peso para la segunda etapa que dependerá de los distritos
elegidos. Por las condiciones dadas, los tamaños de muestra posibles para la segunda etapa
los podremos calcular mediante
ms = combn(4,2,function(x){
h = [Link](table(Eje3cap5$Distrito))
round(10*h[c(x[1],x[2])]/sum(h[c(x[1],x[2])]))})
ms
Como se ve, estos son de 4 y 6 residentes casi siempre, salvo que se seleccionen los distritos
A y D o los distritos B y C. Al realizar el muestreo, obtuvimos
[Link](12345)
(s = sample(6,1))
## [1] 5
(m = ms[,s])
## [1] 4 6
los distritos B y D, donde cabe recordar que, en la medida de lo posible, estamos siempre
utilizando la semilla aleatoria 12345 para efectos de reproductibilidad. Esto implica que el
peso 2 de la primera etapa tendrá que multiplicarse por 3.5 para el distrito B y por 4.167
para el distrito D, quedando la muestra final y sus pesos dados por
[Link](12345)
m1 = sample(which(Eje3cap5$Distrito=="B"),4)
m2 = sample(which(Eje3cap5$Distrito=="D"),6)
Muestra2 = cbind(Eje3cap5[c(m1,m2),],Peso = c(rep(7,4),rep(8.33,6)))
(Muestra2 = cbind(Muestra2,fpc1 = rep(4,10),fpc2 = c(rep(14,4),rep(25,6))))
La estimación pedida, que dejamos para que la trabaje manualmente como ejercicio, se ob-
tendrá finalmente a través de
dise2 = svydesign(ids=~Distrito+Edad,fpc=~fpc1+fpc2,data=Muestra2)
svyquantile(~Edad,dise2,0.75)
156 CAPÍTULO 5. UNA INTRODUCCIÓN AL MUESTREO COMPLEJO
## 0.75
## Edad 52.7
Ella, como se aprecia, nos da una mucho mejor estimación del tercer cuartil pedido.
Ejemplo 5.3. Retomemos el ejemplo 5.1 y supongamos que nos piden estimar el efecto de
diseño en la estimación del rendimiento medio en Ciencia y Tecnologı́a. Los códigos del caso
vienen dados por
5.3. EFECTOS DE DISEÑO Y TAMAÑOS DE MUESTRA 157
(mCT = svymean(~M500_CT,disc1,[Link]=T,deff=T))
## mean SE DEff
## M500_CT 443.9 15.5 22.1
o por
h = by(mues$w0,mues$M500_CT,sum)
Phat = [Link](h/sum(h))
(meanCT = sum([Link](names(h))*Phat))
## [1] 444
sum2 = sum([Link](names(h))^2*Phat)
n = sum([Link](mues$M500_CT)==0)
N = sum(h)
sigma2_e = (n/(n-1))*(sum2-meanCT^2)
(deff_e = (SE(mCT)^2)/((1 - n/N)*sigma2_e/n))
## M500_CT
## M500_CT 22.1
Supongamos ahora, asumiendo que contamos con una estimación del efecto de diseño, que
deseamos determinar el tamaño de muestra necesario n a utilizar en un muestro complejo,
de tal manera que el error en la estimación de la media sea no mayor que e con un nivel de
confianza de 100(1 − α) %; es decir:
e = z1− α2 V̂mc (Ȳ ).
[Link]
Informe%20Diseno%20Muestral_Revision_13sep12.pdf.
o que minimize el costo total de muestreo, sujeto a la condición de que los tamaños de muestra
por dominio nd satisfagan la restricción n = D d=1 nd . Aquı́ Xd denota la importancia del
dominio d, que por lo usual es su tamaño, y α ∈ [0, 1] es un valor que queda a criterio
5.4. ESTIMACIÓN DE LA VARIANZA 159
del investigador y que modela la relevancia de la importancia que se le dé a cada dominio.
Mientras α sea más pequeño, los dominios más pequeños, o de menor importancia, tenderán
a tener una mejor representación. Un valor de compromiso es α = 0.5.
El estimador del coeficiente de variación en (5.1) viene dado por
V̂ (Ȳd ) V̂ (Ȳd )
ˆ (Ȳd ) =
CV × 100 = × 100,
µ̂d Ȳd
donde µd es la media poblacional del dominio d y se asume que Ȳd es un estimador insesgado
de µd . El problema con este coeficiente es que si el muestreo es complejo la desviación estándar
de Ȳd es difı́cil de obtener, por lo cual podrı́amos usar los efectos de diseño estimados def ˆf
d
para los dominios a fin de reescribir (5.1) como
√
D Xdα defˆ f d 2 σ̂ 2
mı́n ( ) (1 − Nndd ) ndd ,
d=1
DȲd (5.2)
s.a. d=1 nd = n
En el caso particular de que los costos de muestreo y efectos de diseño por dominio sean los
mismos, esta fórmula se simplifica a
Xdα σ̂d
Ȳd
nd = D Xjα σ̂j n.
j=1 Ȳj
Obviamente, para calcular esta cantidad será necesario contar con estimaciones de los distin-
tos parámetros y efectos de diseño por dominio, los cuales pueden provenir de algún estudio
pasado o una muestra piloto.
Con el fin de encontrar la varianza de este estimador, podemos usar una expansión lineal
basada en el teorema de Taylor y aproximar θ̂ alrededor de su verdadero valor θ mediante
q
∂h
θ̂ = h(τ̂1 , τ̂2 , . . . , τ̂q ) h(τ1 , τ2 , . . . , τq ) + (τ̂j − τj ) (τ1 , τ2 , . . . , τq ).
j=1
∂τj
Luego, una estimación de esta varianza puede obtenerse estimando los aj y las varianzas y
covarianzas de los estimadores de los totales.
donde el parámetro θ = ττxy = µµxy es el cociente de los totales o medias de las variables x e y
en la población.
En muchos casos es común que el interés al utilizar un estimador de este tipo se centre en
alguna de sus variables; por decir, y, y que la otra variable x actúe como una variable auxiliar
que si estuviera correlacionada con y y su total poblacional τx fuese conocido, nos podrı́a
ser de mucha utilidad para mejorar las estimaciones de la media o del total de y (mediante
τ̂ry = θ̂τx ) e incluso del mismo estimador de razón. El hecho que τx , o la media poblacional
de la potencial variable predictora x, µx , se conozca puede parecer extraño; pero podrı́a
ocurrir (y sucede usualmente) que tal información esté consignada en el marco muestral o
sea de fácil acceso. Puede también ocurrir que se disponga de esta información de un censo
o estudio previo sobre la misma población. Explicitemos seguidamente la varianza de este
estimador en el caso de un MASs de tamaño n de una población de tamaño N . Dado que
µy = θµx , la ecuación (5.4) podrá reescribirse como
V (X̄) V (Ȳ ) 2Cov(X̄, Ȳ )
V (θ̂) = θ2 + −
µ2x θ2 µ2x µx θµx
1 n σ2 n σy2 n σxy 1 n
= 2 θ2 (1 − ) x + (1 − ) − 2θ(1 − ) = 2
(1 − ) σy2 + θ2 σx2 − 2θσxy
µx N n N n N n nµx N
Ası́, un estimador de esta varianza puede obtenerse mediante
1 n
V̂ (θ̂) = 2
(1 − )(Sy2 + θ̂2 Sx2 − 2θ̂Sxy ),
nµx N
el cual difiere de uno separado en que los ratios por estrato se promedian ponderadamente
H Nh Ȳh
a través de θ̂s = H Nh
h=1 N θ̂h = h=1 N X̄h . Una comparación entre estos estimadores puede
revisarse en Cochran (1977). Nosotros, a falta de aclaración, utilizaremos siempre el primero.
La varianza aproximada del estimador de razón combinado se puede obtener por un argu-
mento similar al del MASs; esto es, tomándose la varianza a la siguiente aproximación del
sesgo del estimador
H N h H Nh
Ȳ − θX̄ h=1 N (Ȳh − θ X̄h ) (Ȳh − θX̄h )
θ̂ − θ = = h=1 N .
X̄ X̄ µx
Ası́, uno obtiene que aproximadamente
H
1 Nh 2 2
nh σhz
V (θ̂) = ( ) (1 − ) , (5.6)
µ2x h=1 N Nh n h
h
2
siendo σhz = Nh1−1 N 2
i=1 (zhi − µhz ) la varianza de todos los zhi = yhi − θxhi en el estrato h.
Un estimador de esta última varianza viene dado por
H
1 Nh 2 2
nh σ̂hz
V̂ (θ̂) = ( ) (1 − ) , (5.7)
µ2x h=1 N Nh n h
h
2
siendo σ̂hz = Nh1−1 N 2
i=1 (zhi − µhz ) δhi la varianza muestral de todos los zhi = yhi − θ̂xhi , con
i = 1, 2 . . . , nh , en el estrato h. Similarmente, de no conocerse µx , este podrı́a reemplazarse
por X̄.
Como se ve, este estimador es más simple que V̂ (Ȳst ), pero menos eficiente. A fin de mejorar
su eficiencia optaremos por considerar la metodologı́a de replicación por mitades. La idea
es generar réplicas al dividir la muestra tomada en dos mitades, las cuales estamos deno-
tando por r y rc. Estas réplicas se construyen asignando una de las dos unidades primarias
seleccionadas de cada estrato a la primera mitad y dejando la unidad primaria restante pa-
ra la otra mitad. Observe que existen un total de 2H asignaciones posibles o réplicas por
mitades como esta. De modo resumido, el muestreo por mitades balanceados o BBR nos
brindará un estimador de V (Ȳst ) resultante de promediar los estimadores (5.8) para todas
las distintas réplicas (o como más delante veremos, para un subconjunto apropiado de ellas).
Este estimador viene dado por
2 H 2 H
1 1
V̂BRR (Ȳst ) = H V̂r (Ȳst ) = H (Ȳst,r − Ȳst )2 . (5.9)
2 r=1 2 r=1
Ejemplo 5.4. Para una mejor comprensión consideremos el siguiente ejemplo de un MAE
con 4 estratos, en el que se han observado los siguientes resultados:
Estrato (h) Tamaño del estrato (Nh ) yh1 yh2 ȳh dh = yh1 − yh2
1 300 235 179 185 56
2 100 525 483 504 42
3 50 950 1350 1150 - 400
4 200 759 990 875 -231
Trabajando con una precisión de tres decimales, la media estimada de la población resulta
ser ȳst =530.615; mientras que la estimación de la varianza V (Ȳst ) por MAE resulta ser
1677.112. Este será nuestro valor de referencia. Lo primero a notar es que la estimación
(5.8) nos da un valor de 1208.899 que es distinto a 1677.112. El número de réplicas por
mitades para este problema es 24 = 16, siendo una réplica distinta a la anterior, por ejemplo,
{y11 , y21 , y32 , y42 } = {235, 525, 1350, 990} para la primera mitad, que aquı́ la denotaremos por
A. A la otra mitad la denotaremos por B. Con esta réplica, la estimación (5.8) resulta ser
4499.314. Como se aprecia, hay bastante diferencia en esta estimación con la de la réplica
anterior y son, precisamente, estas distintas estimaciones las que nos permitirán obtener
una mejor estimación de V (Ȳst ) al promediarlas como en (5.9). La figura 5.1 muestra las 16
5.4. ESTIMACIÓN DE LA VARIANZA 165
réplicas por mitades existentes para este problema, donde en la fila 24 se tiene la estimación
(5.8) para cada réplica. En la fila 25 se aprecia que el promedio de las medias para las réplicas
de la mitad A coincide con la estimación por MAE de la media y, lo más sorprendente, el
promedio (5.9) de las varianzas para las 16 réplicas es exactamente igual al valor de referencia
en la estimación por el MAE.
Con el fin de generalizar los resultados del ejemplo anterior, introduzcamos para cada
réplica r la variable auxiliar δhr , que toma el valor 1 si la unidad Yh1 del estrato h está en la
primera mitad de esta réplica. En caso contrario, δhr valdrá 0. Ası́, el estimador de la media
poblacional para la r-ésima réplica en su primera mitad viene dado por
H
Nh
Ȳst,r = (Yh1 δhr + Yh2 (1 − δhr )).
h=1
N
2H (r)
Note que estas variables satisfacen por construcción que r=1 δh =0y
2H
(r) (r)
δh δ = 0 (5.10)
r=1
a)
2 H
1
Ȳst,r = Ȳst
2H r=1
b)
V̂BRR (Ȳst ) = V̂ (Ȳst )
5.4. ESTIMACIÓN DE LA VARIANZA 167
se tiene que
2 H H 2 H 2 H H
1 1 Nh
H
Yh1 + Yh2
H
Ȳ st,r = H
(Y h1 ( δ hr ) + Yh2 (2 − δ hr )) = ( ) = Ȳst .
2 r=1 2 h=1 N r=1 r=1 h=1
2
Más aún,
H H H
Nh D2 Nh N (r) (r) Dh D
(Ȳst,r − Ȳst )2 = ( )2 h + δ δ
h=1
N 4 h=1 =1
N N h 2
=h
2 H 2 H
1 1
V̂BRR (Ȳst ) = V̂ r ( Ȳst ) = (Ȳst,r − Ȳst )2
2H r=1 2H r=1
H H H 2 H
Nh D2 1 Nh N Dh D (r) (r)
= ( )2 h + H ( δh δ )
h=1
N 4 2 h=1 =1 N N 2 r=1
=h
Claramente, una desventaja del estimador BRR es que cuando H es grande, este resulta
inmanejable. Afortunadamente, es posible mostrar que para algunos valores de H, en concreto
para valores enteros múltiplos de 4, una selección adecuada de tan solo k = H de estas
réplicas nos permitirá obtener exactamente el mismo estimador V̂ (Ȳst ) que si consideramos
todas las 2H réplicas. Como la ecuación (5.10) y la demostración de la proposición anterior
lo sugieren, para este subconjunto de k réplicas se deberá cumplir que
k
(r) (r)
δh δ = 0,
r=1
cualesquiera sean los estratos h = en la población. En tal caso se dice que las réplicas están
en balance ortogonal, ya que la matriz cuadrada de orden H × H, [δhr ], llamada también
matrix de Hadamard, es ortogonal. Estas matrices se encuentran tabuladas en distintos
textos y se conjetura que existen para todo orden múltiplo de 4; siendo la de orden 200 la
mayor hasta el momento construida.
168 CAPÍTULO 5. UNA INTRODUCCIÓN AL MUESTREO COMPLEJO
Ejemplo 5.5. Mostraremos para el ejemplo 5.4. un balance ortogonal con H = 4 estratos.
Este y su estimación se muestran a continuación:
Réplicas Réplicas
Estratos 1 2 3 4 1 2 3 4
1 1 1 1 1 235 235 235 235
2 1 -1 1 -1 525 483 525 483
3 1 1 -1 -1 950 950 1350 1350
4 1 -1 -1 1 759 990 990 759
Media primera mitad 495.846 560.462 597.692 520.154
d2h 1208.899 890.793 4499.314 109.444
Varianza estimada BRR = 1677.112
Como se aprecia, la varianza estimada de la media bajo estas 4 réplicas coincide con
la estimación de referencia del MAE. La implementación en R del método BRR para este
ejemplo viene dada por
mR = [Link](y = c(235,525,950,759,179,483,1350,990),
Estrato = rep(1:4,2),Nh = rep(c(300,100,50,200),2))
mR$w = mR$Nh/2
(dism = svydesign(ids=~1, strata=~Estrato,weights =~w,data=mR))
# Convirtiendo el dise~
no para remuestreo
(dBRR = [Link](design=dism,type="BRR"))
(mm = svymean(~y,design=dBRR))
## mean SE
## y 531 41
# Varianza estimada
SE(mm)^2
## [1] 1677
5.4. ESTIMACIÓN DE LA VARIANZA 169
Observaciones:
Si bien el método BRR nos brinda una estimación exacta en la estimación de la va-
rianza de estimadores como la media o el total, bajo reemplazamiento, esto solo se
cumplirá aproximadamente para otros estimadores no lineales θ̂. El cómputo del esti-
mador para cada réplica r se hace en la práctica con los pesos de réplica, los cuales
ajustan a los pesos de muestreo ω. El ajuste para toda unidad i seleccionada en el
estrato h se hace mediante
2ωhi si la unidad i está en la primera mitad de la réplica r
ωhi (r) =
0 en caso contrario,
desde que existe igual probabilidad de que la unidad i sea asignada o no a la primera
mitad. Estos pesos se usan luego para construir la correspondiente función de proba-
bilidad empı́rica y el estimador θ̂(r) que tiene la misma forma que θ̂, pero con pesos
distintos. El estimador de varianza BRR para la varianza de θ̂ viene, similarmente a
(5.9), dado por
k
1
V̂BRR (θ̂) = (θ̂(r) − θ̂)2 . (5.11)
k r=1
Cabe comentar que el código del ejemplo 5.5 ha usado el comando [Link] a fin
de convertir el diseño original en uno de remuestreo. Alternativamente, uno podrı́a definir
de forma directa el diseño de remuestreo con el comando svrepdesign. Ello es útil cuando
la base de datos incluye como información los pesos de réplica y los pesos de muestreo. Los
pesos de muestreo se usan para el cálculo del estimador puntual y los de réplica para el de
su varianza. Los pesos de réplicas en el ejemplo 5.5 pueden obtenerse mediante
170 CAPÍTULO 5. UNA INTRODUCCIÓN AL MUESTREO COMPLEJO
(Wr = weights(dBRR))
Note aquı́ que solo se muestran los pesos de réplica sin el ajuste a los pesos. Esta matriz es
siempre de orden 2H × k, pues contiene en las columnas las réplicas ortogonales o generadas
por R (véase la primera observación); y, en las filas, las unidades consideradas para ambas
mitades. Si deseamos utilizar el comando svrepdesign para obtener los mismos resultados
que en el ejemplo 5.5, podrı́amos escribir indistintamente cualquiera de las siguientes lı́neas:
(dBRRa<-svrepdesign(data=mR,type="BRR",repweights=Wr,weights=~w,
[Link]=FALSE))
donde en el segundo caso los pesos se dan en su forma ajustada o combinada ωhi (r). En
efecto, se cumple que
svymean(~y,dBRRa)
## mean SE
## y 531 41
svymean(~y,dBRRb)
5.4. ESTIMACIÓN DE LA VARIANZA 171
## mean SE
## y 531 41
brindan las mismas estimaciones que las obtenidas en el ejemplo 5.5. Estos resultados podrı́an
también obtenerse sin usar el paquete survey. Si empleamos las mismas réplicas aquı́ utili-
zadas, el código correspondiente serı́a
## [1] 531 41
Una limitación de la metodologı́a BRR es que una de las muestras por mitades es siempre
eliminada al formar una réplica. Ello podrı́a ocasionar inestabilidad en la estimación de la
varianza del estimador en el caso de que se consideren, por ejemplo, dominios de estudio,
pues podrı́a ocurrir que todo el dominio ocurra precisamente en las mitad eliminada de
una réplica particular. Para evitar situaciones como esta, Fay (1984) y Dippo et al. (1984)
propusieron modificar el método incluyendo todas las observaciones en cada réplica mediante
la asignación de pesos de réplica ωhi (r) = (2−ρ)ωhi , si la unidad i del estrato h es seleccionada
en la primera mitad de la réplica r, y pesos ωhi (r) = ρωhi , en caso contrario. Aquı́ ρ ∈ [0, 1[
es un parámetro por fijar, siendo ρ = 0.3 una elección común.
Diversas extensiones de la metodologı́a BRR puede consultarse en Wolter (2007). Allı́ se
estudia, por ejemplo, cómo modificar el remuestreo si la selección se hace sin reemplaza-
miento, cómo seleccionar más de dos unidades primarias por estrato y cómo adaptar estos
procedimientos a diversos esquemas de muestreo complejo.
H
nh
nh − 1
V̂JKn (θ̂) = (θ̂(hj) − θ̂)2 . (5.12)
h=1
nh j=1
En la práctica, este estimador se calcula con los pesos de réplica. Si se remueve la UPM j
para formar la réplica (hj) en el estrato h y ωi0 es el peso (base) de una unidad no primaria
i, entonces los pesos de réplicas ajustan estos mediante
0 si i está en la UPM j del estrato h
nh
ωi(hj) = ω0
nh −1 i
si i está en el estrato h pero no en la UPM j
ωi0 si i no está en el estrato h
Estos pesos ajustados se emplean luego para construir la correspondiente función de proba-
bilidad empı́rica y el cálculo de θ̂(hj) . Finalmente, estos pesos se reemplazan en (5.12) para
calcular la estimación de la varianza.
Cabe comentar un caso particular del estimador Jacknife al que se suele denotar en R por
JKn; este es el no estratificado JK1 que se obtiene cuando H = 1. Para este, el estimador
toma la forma
n
n−1
V̂JK1 (θ̂) = (θ̂(j) − θ̂)2 .
n j=1
n
n−1 1 S2
V̂JK1 (Ȳ ) = (Ȳ − (Yj − Ȳ ) − Ȳ )2 = ,
n i=1 n−1 n
el cual es, por las proposiciones 2.1 y 2.2, el estimador natural insesgado de la varianza de
Ȳ en un MASc, y de allı́ la inclusión del término n−1
n
en el estimador.
Ejemplo 5.6. Para ilustrar esta técnica y compararla con la anterior retomemos el MAE
del ejemplo 5.4 para el cual creamos en el ejemplo 5.5 el diseño dism. Este diseño clásico
se podrá convertir en uno de remuestreo Jackknife y nos calculará el estimador (5.12) para
la media mediante
5.4. ESTIMACIÓN DE LA VARIANZA 173
(dJKn = [Link](design=dism,type="JKn"))
(mm = svymean(~y,design=dJKn))
## mean SE
## y 531 41
# Estimacion (5.12)
SE(mm)^2
## [1] 1677
Al igual que con el método BRR, dos maneras alternativas de obtener esta estimación
serán con el comando svrepdesign o programándola directamente en R a través del desa-
rrollo anterior. Los códigos son:
(dJKna<-svrepdesign(data=mR,type="JKn",repweights=Wr,weights=~w,scale=1,
rscales=0.5,[Link]=FALSE))
(dJKnb<-svrepdesign(data=mR, type="JKn",repweights=Wr*mR$w,weights=~w,
scale=1,rscales=0.5))
174 CAPÍTULO 5. UNA INTRODUCCIÓN AL MUESTREO COMPLEJO
svymean(~y,dJKna)
## mean SE
## y 531 41
svymean(~y,dJKnb)
## mean SE
## y 531 41
## [1] 531 41
3. Calcular el estimador θ̂r∗ para la r-ésima réplica usando los pesos ωhji (r).
Ejemplo 5.7. Con el propósito de ilustrar y comparar los diferentes métodos de estimación
de la varianza mostrados, consideraremos el problema de la estimación de la varianza del
rendimiento medio en Matemáticas para la DRE Amazonas en la ECE 2019 bajo un muestreo
aleatorio por conglomerados estratificado. Para tal efecto, usaremos los mismos estratos que
en el ejemplo 5.1 y seleccionaremos dos conglomerados (colegios) por estrato. Seguidamente
se muestran los códigos
Pop = ece19Am
Pop$Estrato=interaction(Pop$area,Pop$gestion2)
Pop = Pop[order(Pop$Estrato),]
[Link](12345)
m=mstage(Pop,stage=list("stratified","cluster"),varnames=list("Estrato","ID_IE")
,size=list(size1=table(Pop$Estrato),size2 =c(2,2,2,2)),method=list("","srswor"))
mues = getdata(Pop,m)[[2]]
mues$w0 = 1/mues$Prob
r1 = svymean(~M500_CT,design=dis19,[Link]=T)
# Estimación BRR
brr19 = [Link](design=dis19,type="BRR")
r2 = svymean(~M500_CT,design=brr19,[Link]=T)
#Estimación Jacknife
jkn19 = [Link](design=dis19,type="JKn")
r3 = svymean(~M500_CT,design=jkn19,[Link]=T)
#Estimación Bootstrap
boot19 = [Link](design=dis19,type="subbootstrap",replicates=1000)
r4 = svymean(~M500_CT,design=boot19,[Link]=T)
list(r1,r2,r3,r4)
## [[1]]
## mean SE
## M500_CT 520 18.2
##
## [[2]]
## mean SE
## M500_CT 520 18.2
##
## [[3]]
## mean SE
## M500_CT 520 18.3
##
## [[4]]
## mean SE
## M500_CT 520 18.6
donde los valores p01 , . . . , p0k son conocidos, es la prueba chi-cuadrado, cuya región crı́tica o
de rechazo para H0 viene dada por
k
(xi − E 0 )2 i
RC: U0 = > χ21−α (k − 1),
i=1
Ei0
Y
Posee auto 1 = Opinión desfavorable 2 = Opinión favorable Total
X 1 = No n11 = 105 n12 = 188 n1. = 207
2 = Sı́ n21 = 88 n22 =119 n2. = 293
Total n.1 = 193 n.2 = 307 n = 500
y
a
b
nij
R.C: G0 = 2 nij log( ) > χ21−α ((a − 1)(b − 1))
i=1 j=1 Êij0
donde:
ni. n.j
Êij0 = np̂0i. p̂0.j =
n
es la estimación máxima verosı́mil de la frecuencia esperada en la celda (i, j) bajo H0 .
En nuestro ejemplo, los estadı́sticos de prueba correspondientes observados son χ20 =2.281
y G0 = 2.275; mientras que el valor en tabla de la distribución chi-cuadrado para α = 0.05
es χ20.95 (1) = 3.84. El valor p de este contraste es, por tanto, 0.131. Consecuentemente, no
encontramos evidencia, en el municipio, de que la opinión hacia el alcalde tenga relación con
el hecho de que la familia tenga o no un auto. Estos análisis y las correspondientes salidas
en R se muestran seguidamente:
Auto <-c(rep('No',193),rep('Si',307))
Opinion <- c(rep("Desfavorable",105),rep("Favorable",88),
rep("Desfavorable",188),rep("Favorable",119))
tt = table(Auto,Opinion)
summary(tt)
P (Y = 1 | X = 1)
θ= .
P (Y = 1 | X = 2)
Este parámetro poblacional puede tomar valores menores, iguales o mayores que 1. Un θ
igual a 1 indica que no hay asociación y, por tanto, el contraste de independencia anterior
equivale a plantear
5.5. INTRODUCCIÓN AL ANÁLISIS CON MUESTRAS COMPLEJAS 179
H0 : θ = 1
contra una alternativa que incluso puede ser unilateral. Para una tabla de contingencia
general a × b, podrı́amos definir el vector columna θ = [θ11 , θ12 , . . . , θ(a−1)(b−1) ] con
H0 : θ = 0.
Todo lo expuesto hasta el momento es válido bajo un MAS. Si el muestreo es complejo, las
distribuciones de χ20 y G0 no serán más chi-cuadrado, lo cual nos podrı́a llevar a conclusiones
erróneas. En particular, la conglomeración tiene un fuerte efecto sobre estas distribuciones
nulas. Para ilustrarlo retomemos el ejemplo previo, pero en el que no solo hayamos pregun-
tado la opinión al jefe del hogar sino también la de su cónyugue (note que ambos pertenecen
a un mismo conglomerado, que es el hogar) y supongamos, exagerando (aunque la verdad
no tanto), que ambos comparten la misma opinión sobre el alcalde; más explı́citamente, que
contamos con la siguiente tabla de contingencia:
Y
Auto particular 1 = Opinión desfavorable 2 = Opinión favorable Total
X 1 = No n11 = 210 n12 = 376 n1. = 414
2 = Sı́ n21 = 176 n22 =238 n2. = 586
Total n.1 = 386 n.2 = 614 n = 1000
a b
(pij − p̂0i. p̂0.j )2
χ20 = n
i=1 j=1
p̂0i. p̂0.j
y
a
b
pij
G0 = 2n pij log( ),
i=1 j=1
p̂0i. p̂0.j
siendo pij la proporción observada de respuestas en la celda (i, j), duplican su valor.
180 CAPÍTULO 5. UNA INTRODUCCIÓN AL MUESTREO COMPLEJO
donde Vdis es la varianza asintótica del vector (X11 , X12 , . . . , Xab−1 ). Note que si nuestro
esquema de muestreo fuese un MAS, (X11 , X12 , . . . , Xab−1 ) tendrı́a distribución multinomial
y la matriz de varianza-covarianza del diseño tomarı́a la forma Vdis = P0 = diag(p) − pp .
Dado que θ es una función de p, podrı́amos utilizar el método delta para justificar que
√ D
n(θ̂ − θ) → N (0, HVdis H ),
donde H = H(θ) es la matriz de orden (a − 1)(b − 1) × (ab − 1) conformada por las derivadas
parciales de las componentes de θ con respecto a las componentes de p.
Uno de los primeros procedimientos para contrastar independencia en datos categóricos
con muestras complejas fue desarrollado por Koch y Freeman (1975). Este test de tipo Wald
contrasta la hipótesis de independencia
H0 : θ = 0
usando el estadı́stico
χ2W 0 = θ̂ (Ĥ V̂dis Ĥ )−1 θ̂,
donde Ĥ = H(θ̂) y V̂dis es un estimador consistente de Vdis . Este estadı́stico tiene asintótica-
mente una distribución chi-cuadrado con (a − 1)(b − 1) grados de libertad. Aquı́ cabe aclarar
que si se dispusiera de un estimador consistente de la varianza de θ̂, por alguna técnica de
remuestreo, este podrı́a usarse también en lugar de Ĥ V̂dis Ĥ para definir el estadı́stico de
tipo Wald.
Un problema con el procedimiento anterior es que si la tabla es grande, el número de
unidades primarias deberı́a ser realmente grande como para poder estimar todas las compo-
nentes en Vdis . Algunos ajustes y procedimientos posteriores que buscan resolver este y otros
problemas asociados a este test se revisan en Thomas y Rao (1990).
Una alternativa más usada y eficiente fue formulada a través de los trabajos de Rao y Scott
(1984), quienes propusieron corregir el estadı́stico chi-cuadrado de Pearson multiplicándolo
por una constante adecuada. La metodologı́a se basa en el siguiente resultado asintótico
5.5. INTRODUCCIÓN AL ANÁLISIS CON MUESTRAS COMPLEJAS 181
de Rao y Scott (1981). Ellos mostraron que, bajo H0 , el estadı́stico χ20 de Pearson puede
descomponerse como
(a−1)(b−1)
χ20 = λi W i ,
i=1
χ20
χ2I = ,
δ̄
donde:
(a−1)(b−1)
1 T r(D)
δ̄ = δi = .
(a − 1)(b − 1) i=1
(a − 1)(b − 1)
De esta manera, el estadı́stico χ2I
tiene media (a − 1)(b − 1) y, aproximadamente, una dis-
tribución chi-cuadrado con estos grados de libertad, de no existir mucha variación en los
δi .
Rao y Scott mostraron, posteriormente, que de no disponerse de estimaciones de la ma-
triz Vdis (y, en consecuencia, de los autovalores en D para poder estimar δ̄), uno podrı́a
utilizar estimaciones de los efectos de diseño dˆij , dˆi. y dˆ.j en las estimaciones de pij , pi. y p.j ,
respectivamente, a fin de obtener la siguiente aproximación:
a
b a
b
δ̄ˆ = (1 − p̂ij )dˆij − (1 − p̂i. )dˆi. − (1 − p̂.j )dˆ.j .
i=1 j=1 i=1 j=1
Bajo la corrección de segundo orden, el estadı́stico χ2II tiene una distribución asintótica
chi-cuadrado con (a−1)(b−1)
1+â2
grados de libertad.
Retornando a la parte práctica, es interesante comentar que la librerı́a survey de R posee
el comando svychisq que realiza las pruebas chi-cuadrado aquı́ expuestas. El método por
182 CAPÍTULO 5. UNA INTRODUCCIÓN AL MUESTREO COMPLEJO
defecto para este análisis es el de Thomas y Roberts (1996) con la corrección de segundo
orden. Como ilustración, reconsideremos nuestro problema sobre la relación entre la opinión
sobre el alcalde y la tenencia de auto particular en el contexto del muestreo por conglome-
rados cuando la correlación intraclase es de 1. Los códigos siguientes, como se apreciarán en
los resultados, nos proveen de un procedimiento válido para realizar este contraste.
cluster = vector()
for (i in 1:500) cluster = c(cluster,i,i)
[Link] = [Link](Auto, Opinion, cluster)
cluster_design = svydesign(ids=cluster,fpc=rep(5000,1000),data=[Link])
svychisq(~Auto+Opinion,cluster_design)
##
## Pearson's X^2: Rao & Scott adjustment
##
## data: svychisq(~Auto + Opinion, cluster_design)
## F = 3, ndf = 1, ddf = 500, p-value = 0.1
Y = β0 + β1 x1 + β2 x2 + . . . + βk xp + ,
donde es común asumir que el error es una variable aleatoria con distribución normal de
media 0 y varianza σ 2 , y estos errores se asumen independientes para distintas observaciones.
Uno de los objetivos centrales de este modelo es estimar el valor medio de Y dado el vector
x = (x1 , . . . , xp ) de variables independientes en un elemento no observado de la población.
Para ello, uno debe contar con mediciones de la variable aleatoria Y para n elementos
seleccionados al azar de la población. Dada esta m.a., el modelo puede escribirse como
o matricialmente como
Yn = Xn β + En ,
donde Yn es un vector columna de orden n × 1; Xn es una matriz n × (p + 1) cuya primera
columna es de unos; β es el vector columna de orden p + 1 de coeficientes de regresión, y En
es un vector n × 1 que contiene a los errores i .
5.5. INTRODUCCIÓN AL ANÁLISIS CON MUESTRAS COMPLEJAS 183
siendo su solución
β̂ M CO = (X −1
n Xn ) Xn Y n .
Luego, la estimación buscada del valor medio de Y para un x dado, al cual llamamos también
el hiperplano de regresión, viene dada por
β N = (X X)−1 X YN ,
donde los ωi son los pesos asociados a la i-ésima unidad seleccionada en la muestra. A esta
se le llama precisamente una inferencia basada en el diseño, la cual difiere de la del modelo
en el sentido de que la última realiza la inferencia sobre el proceso que pensamos genera a la
población real. En tal caso, aun los coeficientes del modelo ajustado para toda la población
estarán sujetos a una incertidumbre estadı́stica y se podrı́an pensar que provienen de una
P
superpoblación, de tal manera que se cumpla que cuando n, N → ∞, Nn → c y β N → β ∗ ,
∗
para algún c ∈ [0, 1[ y un vector β .
Como se sabe, la solución de (5.14) es estándar en el análisis de regresión y se conoce
como un estimador de mı́nimos cuadrados ponderado. Ella viene dada por
β̂ = (X −1
n Wn Xn ) Xn Wn Yn ,
donde Wn = diag(ωi ) es una matriz diagonal de orden n que contiene solo los pesos asociados
a cada una de las unidades seleccionadas; Xn es una matriz n × p + 1 que contiene a las
184 CAPÍTULO 5. UNA INTRODUCCIÓN AL MUESTREO COMPLEJO
β̂ = (X −1 −1
n Wn Xn ) Xn Wn (Xn β + En ) = β + (Xn Wn Xn ) Xn Wn En ,
donde En = Yn − Xn β.
Consideremos ahora la función F (ω) = (X WX)−1 , que tiene como argumento al vector
ω de orden N × 1 que define a la matriz de orden N × N , W = diag(ω). Sea ω n un vector
N × 1 cuyas componentes contienen los pesos de muestreo de las unidades seleccionadas y
valen 0 en caso contrario. Un desarrollo de Taylor de primer orden para esta función F en
el vector ω n alrededor del vector columna de unos de orden N , ω 0 = 1N , nos brinda la
aproximación
F (ω n ) = (X
n Wn X n )
−1
= (X X)−1 + dFω 0 (ω n − ω 0 ).
β̂ = β + (X X)−1 X
n Wn En .
V̂ (β̂) = (X −1 −1
n Wn Xn ) Ĝn (Xn Wn Xn ) , (5.15)
5.5. INTRODUCCIÓN AL ANÁLISIS CON MUESTRAS COMPLEJAS 185
requiriéndose para su término central una estimación Ĝn de la varianza del vector X
n Wn Ên ,
el cual será particular del diseño empleado; es decir, de la matriz de varianzas-covarianzas
V (Xn Wn Ên ), cuya entrada rs viene dada por
grs = Cov( xrk ˆk ωk δk , xs ˆ ω δ ) = xrk xs ˆk ˆ Cov(δk , δ ), (5.16)
k k
donde las sumas recorren las distintas etapas o estratos del diseño. La estimación de estos
términos dependerá del diseño particular empleado.
Ejemplo 5.8. Con el fin de precisar mejor la estimación de la varianza del vector de coe-
ficientes de regresión, pensemos en un diseño estratificado por conglomerados bietápico en
el que la i-ésima UPM al interior del estrato h = 1, 2, . . . , H es seleccionada con una pro-
babilidad πhi , i = 1, 2, . . . , Nh y la j-ésima USM dentro de la i-ésima UPM del estrato h
es seleccionada con probabilidad (condicional) πj|hi , j = 1, 2, . . . , Mhi , siendo Mhi el número
de USM dentro la i-ésima UPM. Como es usual, asumiremos que el muestreo en cualquier
UPM es independiente del muestreo en cualquier otra UPM. En este contexto, (5.16) viene
dada por
H Nh
Mhi H Nh Mhi
xrhij ˆhij δhi δj|hi xshij ˆhij δhi δj|hi
grs = Cov( , )
h=1 i=1 j=1
π hi π j|hi
h=1 i=1 j=1
πhi πj|hi
Nh
H
H Nh
δhi δhi
= Cov( Zhi|r , Zhi|s ),
h=1 i=1
πhi h=1 i=1 πhi
donde:
Mhi
xrhij ˆhij
Zhi|r = δj|hi .
j=1
πj|hi
Para mejor explicar la expresión anterior, podrı́amos utilizar la proposición 1.1, al con-
dicionar sobre el arreglo δ = [δhi ] de las variables aleatorias indicadoras de inclusión de la
primera etapa dentro de los estratos. Ello resulta en
Nh
H H Nh
δhi δhi
grs = Cov(E( Zhi|r | δ), E( Zhi|s | δ))
h=1 i=1
πhi h=1 i=1
π hi
Nh
H
H Nh
δhi δhi
+E(Cov( Zhi|r , Zhi|s | δ)).
h=1 i=1
πhi h=1 i=1 πhi
Nh
H hH N h H N
δhi δhi δhi
E( Zhi|r | δ) = E(Zhi|r ) = zrhi. ,
h=1 i=1
πhi h=1 i=1
π hi
h=1 i=1
π hi
186 CAPÍTULO 5. UNA INTRODUCCIÓN AL MUESTREO COMPLEJO
Mhi
donde zrhi. = j=1 xrhij ˆhij y ,por otro lado,
Nh
H
H Nh H Nh
δhi δhi 2
δhi
Cov( Zhi|r , Zhi|s | δ) = Cov(Zhi|r , Zhi|s ),
h=1 i=1
πhi h=1 i=1 πhi π2
h=1 i=1 hi
donde:
Mhi
Mhi
xrhij ˆhij xshij ˆhij
Cov(Zhi|r , Zhi|s ) = Cov(δj|hi , δj |hi ),
j=1 j =1
πj|hi πj |hi
se tiene que
Nh
H
Nh H Nh Mhi
Mhi
zrhi. z shi . 1 xrhij ˆhij xshij ˆhij
grs = Cov(δhi , δhi )+
Cov(δj|hi , δj |hi )
h=1 i=1 i =1
πhi πhi h=1 i=1
πhi j=1 πj|hi πj |hi
j =1
Nh
H
Nh
H
Nh
zrhi. zshi. (1 − πhi ) zrhi. z
shi .
= + (πhi,hi − πhi πhi )
h=1 i=1
πhi h=1 i=1 i =1
πhi πhi
i=i
H Nh
M
1 hi
(1 − πj|hi )
+ xrhij ˆ2hij xshij δj|hi δhi
π2
h=1 i=1 hi j=1
2
πj|hi
H Nh
1 Mhi
Mhi
xrhij ˆhij xshij ˆhij
+ 2 (πj,j |hi − πj|hi πj |hi )δj|hi δj |hi δhi .
π
h=1 i=1 hi
j=1 πj|hi πj |hi πj,j |hi
j =1
j=j
Por tanto, un estimador tipo Sen-Yates-Gundy puede implementarse en este caso y viene
dado por
H Nh Nh H Nh
πhi πhi − πhi,hi zrhi. zrhi . zshi. zshi . 1 ˆ
ĝrs = ( )( − )( − )δhi δhi + 2
Cov(Zhi|r , Zhi|s )δhi ,
h=1 i=1
π hi,hi π hi π hi π hi π hi π
h=1 i=1 hi
i >i
(5.17)
ˆ
donde Cov(Zhi|r , Zhi|s ) es una estimación que se realiza sobre la base de las USM seleccio-
nadas al interior de las UPM escogidas. Este es el estimador implementado por defecto en
el comando svyglm.
Ejemplo 5.9. Consideremos la base de datos api y supongamos que deseamos estimar,
bajo un muestreo estratificado de conglomerados de una etapa, el rendimiento medio por
colegio en el 2000 en base a su porcentaje de profesores completamente calificados (full),
padres con estudios de posgraduación ([Link]), estudiantes que están aprendiendo inglés
(ell), estudiantes que tienen comidas subsidiadas (meals) y estudiantes para los que este
es su primer año en la escuela (mobility). Dado que api es una base de datos poblacional,
podrı́amos teóricamente calcular el vector de parámetros β del modelo. Este, descartando los
casos perdidos en las variables de interés, viene dado por
data(api)
N0 = dim(apipop)[1]
Pob = apipop[order(apipop$stype,apipop$dnum),] # apipop ordenado
Pob$cod0 = 1:N0
Pob$b0 = rep(1,N0)
M = [Link]([Link](Pob[,c(38,39,34,32,21,20,23,12)]))
index = [Link](M[,1]) # indice de casos validos
X = M[,2:7]
Y = M[,8]
beta = solve(crossprod(X))%*%crossprod(X,Y)
beta
## [,1]
## b0 600.989
## full 1.753
## [Link] 2.547
## ell -0.896
## meals -1.957
## mobility -0.101
Para la muestra consideraremos como antes el tipo de escuela (stype) como variable
de estratificación y los distritos escolares (dnum) como conglomerados. Optaremos por una
188 CAPÍTULO 5. UNA INTRODUCCIÓN AL MUESTREO COMPLEJO
muestra de, aproximadamente, 30 distritos escolares, los cuales los distribuiremos propor-
cionalmente a la cantidad de colegios por estrato. Ello nos llevará a consignar 14 colegios
elementales, 9 high schools y 7 colegios medios. El diseño y la toma de la muestra se presentan
a continuación
[Link](12345)
Pob = Pob[index,]
N1 = dim(Pob)[1]
tt = table(Pob$stype)
ls1 = list([Link](tt),c(14,9,7))
Pob$Nh = rep(ls1[[1]],tt)
Pob = cbind(cod = 1:N1,Pob)
mues=mstage(Pob,stage=list("stratified","cluster"),
varnames=list("stype","dnum"),
size=ls1,method=list("","srswor"),description=T)
## STAGE 1
## Number of strata: 3
## STAGE 2
## Number of selected clusters: 14
## Number of units in the population and number of selected units: 4417 112
## Number of selected clusters: 9
## Number of units in the population and number of selected units: 753 23
## Number of selected clusters: 7
## Number of units in the population and number of selected units: 1018 11
mues = getdata(Pob,mues)[[2]]
dmuesr<-svydesign(id=~dnum, strata=~stype, fpc=~Nh,nest=T,data=mues)
dmuesr
summary(svyglm(api00~full+[Link]+ell+meals+mobility, design=dmuesr))
##
## Call:
5.5. INTRODUCCIÓN AL ANÁLISIS CON MUESTRAS COMPLEJAS 189
Xn = cbind(rep(1,dim(mues)[1]),mues$full,mues$[Link],mues$ell,mues$meals,
mues$mobility)
Yn = mues$api00
w = weights(dmuesr)
Wn = diag(w)
Hn = solve((t(Xn)%*%Wn%*%Xn))
(betah = Hn%*%t(Xn)%*%Wn%*%Yn)
## [,1]
## [1,] 667.021
## [2,] 1.295
## [3,] 2.234
190 CAPÍTULO 5. UNA INTRODUCCIÓN AL MUESTREO COMPLEJO
## [4,] -0.825
## [5,] -2.123
## [6,] -0.411
y
H Nh Nh
πhi πhi − πhi,hi zrhi. zrhi . zshi. zshi .
ĝrs,SGY = ( )( − )( − )δhi δhi ,
h=1 i=1
π hi,hi π hi π hi π hi π hi
i >i
donde:
nh nh (nh − 1)
πhi = y πhi,hi = .
Nh Nh (Nh − 1)
Una evaluación de los errores estándares de estimación estimados, a partir de estos estima-
dores, se muestra en la siguiente tabla:
Parámetro β0 β1 β2 β3 β4 β5
Intercepto full [Link] ell meals mobility
Estimado 667.0213 1.2951 2.2344 -0.8253 -2.1226 -0.4114
[Link] (HT) 89.1709 0.7025 1.0434 0.7199 0.7391 0.7861
[Link] (SGY) 88.8118 0.7068 1.0307 0.7282 0.7276 0.7993
Como se observa, las estimaciones de los errores estándar para los coeficientes son muy
similares y la última coincide con el de la salida del comando svyglm.
Si no consideráramos los pesos de muestreo, el análisis nos brindarı́a la siguiente salida:
summary(glm(api00~full+[Link]+ell+meals+mobility, data=mues))
##
## Call:
## glm(formula = api00 ~ full + [Link] + ell + meals + mobility,
## data = mues)
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -217.34 -35.74 0.76 38.25 165.16
5.5. INTRODUCCIÓN AL ANÁLISIS CON MUESTRAS COMPLEJAS 191
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 562.584 50.800 11.07 <2e-16 ***
## full 1.858 0.501 3.71 0.0003 ***
## [Link] 3.723 0.692 5.38 3e-07 ***
## ell -1.459 0.526 -2.77 0.0063 **
## meals -0.991 0.394 -2.51 0.0130 *
## mobility -0.556 0.485 -1.15 0.2536
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for gaussian family taken to be 3722)
##
## Null deviance: 1718868 on 145 degrees of freedom
## Residual deviance: 521065 on 140 degrees of freedom
## AIC: 1623
##
## Number of Fisher Scoring iterations: 2
Se aprecia, entonces, una mı́nima diferencia en ambos análisis. Note también los menores
errores de estimación de los estimadores de mı́nimos cuadrados.
La extensión del análisis de regresión lineal múltiple para otro tipo de respuestas, co-
mo binarias, de conteo o no negativas, puede realizarse a través de los modelos lineales
generalizados. En estos, el método de estimación no es el de mı́nimos cuadrados sino el de
máxima verosimilitud. Este método requiere la maximización de la función de probabilidad
o densidad conjunta de las respuestas, o de su logaritmo, las últimas que se asumen que son
independientes y que se asocian al predictor lineal mediante funciones pre definidas de enlace
g que dependen del tipo de respuesta. Se asume que el modelo lineal general de trabajo en
cuestión pertenece a una familia exponencial, la cual relaciona para cada observación i su
media o media condicional con un predictor lineal mediante
g(µi ) = x
i β
donde:
exp(x
i β)
π(xi ) = = µi
1 + exp(x
i β)
representa el valor que se espera tome la variable respuesta binaria Yi y corresponde a la
µi
inversa de la función de enlace logı́stico g(µi ) = log( 1−µ i
) = x
i β.
En el muestreo complejo, la asunción de independencia entre las distintas respuestas
raramente se cumple y, por tanto, este procedimiento podrı́a resultar inválido. Para suplir
ello se ha propuesto en la literatura una metodologı́a de pseudo máxima verosimilitud asistida
por el modelo que incorpora los pesos de muestreo a la función última. La función de log-
pseudo-máxima verosimilitud a optimizar en la regresión logı́stica es
lP (β) = log P L(β) = ωi (yi log(π(xi )) + (1 − yi ) log(1 − π(xi ))).
i∈S
Una vez obtenidos los estimadores, la estimación de sus varianzas pueden obtenerse ya sea
por los métodos de linealización o replicación estudiados.
En R, el procedimiento para el ajuste e inferencia de estos modelos se encuentra imple-
mentado en el comando svyglm del paquete survey.
En este texto introductorio no discutiremos al detalle todos los modelos de regresión
lineal generalizados ni su análisis de ajuste, desarrollos que cabe comentar son en muchos
casos aún temas de actual investigación. Para mayores detalle, el lector interesado puede
consultar el texto de Heeringa y Berglund (2010) y el artı́culo de Binder (1983). Lo que
sı́ vale la pena comentar es el proceso de inferencia. En general, si estamos interesados en un
IC al 100(1 - α) % o en una prueba de significación sobre cualesquieras de los coeficientes de
regresión βi del modelo, estos vienen caracterizados por
β̂i
y la estadı́stica de prueba t = SE( ˆ β̂i ) , la cual tiene distribución t de Student con gl =
h ah − H grados de libertad, siendo el primer término el número de conglomerados y el
segundo el número de estratos, ambos de la primera etapa del diseño. Naturalmente, t1− α2 (gl)
denota aquı́ el cuantil 1 − α2 de la distribución t de Student.
Por otro lado, las conocidas pruebas F sobre un grupo de regresores pueden sustituirse
por las pruebas de Wald a través del estadı́stico
1
FW = β̂ q Σ̂−1
q β̂ q ,
q
5.5. INTRODUCCIÓN AL ANÁLISIS CON MUESTRAS COMPLEJAS 193
bajo la restricción que β 0 = 0, Lumley y Scott (2014) muestran que bajo H0 y ciertas
condiciones de regularidad se cumple que, conforme n, N → ∞,
q
D
Λn = 2(lP (θ̂) − lP (θ̂ 0 )) → δi Zi2 ,
i=1
Ejemplo 5.10. Consideremos el siguiente ejemplo tomado del material suplementario que
acompaña al texto de Fox y Weisberg (2018), donde es de interés estudiar la actitud de las
personas hacia la prohibición del aborto. Para ello consideraremos la CES 2011, la cual fue
una encuesta electoral realizada durante el perı́odo de la campaña 2011 en Canadá. Esta
base de datos se encuentra disponible en los paquetes car y carData de R que acompañan
al texto de Fox y Weisberg (2018). Mayores detalles sobre la encuesta se pueden encontrar
en Fournier y Stolle (2013). En el CES 2011 el paı́s fue dividido en estratos conformados
por las 10 provincias de Canadá. Dentro de cada estrato h se tomó un MASs basándose
en un marco muestral de los números telefónicos de los hogares. Dado que las provincias
en Canadá son bastante distintas en tamaño y con vistas a facilitar la comparación entre
provincias, las provincias más pequeñas fueron sobremuestradas. Como consecuencia, dife-
rentes hogares tuvieron una desigual aunque conocida probabilidad de selección dentro de la
muestra. Por otro lado, los hogares seleccionados fueron contactados por teléfono y allı́ se
determinó el número de votantes elegibles en cada hogar. En una segunda etapa de muestreo
solo un individuo fue seleccionado al azar entre los individuos elegibles en el hogar. Por tal
razón, los individuos que pertenecen a hogares numerosos tendrán una menor probabilidad
de ser seleccionados en la muestra que aquellos que viven en hogares pequeños. La base de
datos CES11 posee la siguiente estructura:
library(carData)
library(car)
data("CES11")
CES11[1:8,2:9]
su nivel de educación (education) y la última a si vive en una zona rural o urbana (urban).
Antes de realizar una regresión binaria sobre la actitud de la población canadiense hacia
el aborto en función del género, nivel de educación, zona donde vive (rural o urbana) e
importancia dada a la religión, serı́a interesante describir primero cómo se comporta nuestra
variable dependiente. El siguiente código muestra este análisis y la definición del diseño.
## mean SE
## abortionNo 0.815 0.01
## abortionYes 0.185 0.01
## Calls:
## 1: svyglm(formula = abortion ~ importance + gender + education + urban,
## design = dCES11, family = quasibinomial)
## 2: glm(formula = abortion ~ importance + gender + education + urban,
## family = binomial, data = CES11)
##
## Model 1 Model 2
## (Intercept) -3.578 -3.446
## SE 0.324 0.280
## z -11.03 -12.30
## Pr(>|z|) < 2e-16 < 2e-16
##
## importancenotvery 0.458 0.442
## SE 0.348 0.310
## z 1.32 1.43
## Pr(>|z|) 0.1880 0.1539
##
196 CAPÍTULO 5. UNA INTRODUCCIÓN AL MUESTREO COMPLEJO
Como se aprecia, las estimaciones obtenidas son bastante similares. Manteniendo los otros
predictores fijos, se aprecia que la oposición al aborto se incrementa con la mayor impor-
tancia que se le dé a la religión; esta, además, es mayor en hombres que en mujeres y, en
general, mayor en los niveles educativos más bajos, aunque no monótonamente. Finalmente,
la oposición a prohibir el aborto es marginalmente más baja en residentes urbanos que en
rurales.
Ejemplo 5.11. Suponga que para el diseño del ejemplo 5.9 sea de interés analizar la hipótesis
de trabajo que el rendimiento medio del ı́ndice api 2000 es significativamente distinto al de
1999. Ello se podrı́a realizar mediante el comando svyttest o, alternativamente, con el
comando svyglm como seguidamente se muestra
svyttest(I(api00-api99)~0,dmuesr)
##
## Design-based one-sample t-test
##
## data: I(api00 - api99) ~ 0
## t = 7, df = 30, p-value = 3e-07
## alternative hypothesis: true mean is not equal to 0
198 CAPÍTULO 5. UNA INTRODUCCIÓN AL MUESTREO COMPLEJO
## sample estimates:
## mean
## 36
summary(svyglm(api00-api99~1, design=dmuesr))
##
## Call:
## svyglm(formula = api00 - api99 ~ 1, design = dmuesr)
##
## Survey design:
## svydesign(id = ~dnum, strata = ~stype, fpc = ~Nh, nest = T, data = mues)
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 36.01 5.29 6.81 2.6e-07 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for gaussian family taken to be 803)
##
## Number of Fisher Scoring iterations: 2
Ambos análisis, descartando redondeos, brindan los mismos resultados y muestran que
sı́ existen diferencias significativas entre las medias de los ı́ndice api 1999 y 2000.
Otra hipótesis de interés es que el ı́ndice api00 este relacionado con el nivel de educación
promedio de los padres de los alumnos en estos colegios. Para esto, recordemos que la variable
[Link] recoge el número promedio de años de estudios de los padres en cada colegio. Para
simplificar, supongamos que realizamos una clasificación del nivel educativo de los padres por
colegio, asignando a cada colegio solo una de 3 categorı́as creadas al segmentar los puntajes
promedios en 3 intervalos de más o menos igual longitud. La distribución de frecuencias y
el análisis de esta variable, que llamaremos Ed, se muestra a continuación:
table(cut(Pob$[Link],3))
##
## (0.996,2.33] (2.33,3.67] (3.67,5]
## 1771 3478 761
Si bien la prueba correspondiente es, formalmente, un ANOVA, sabemos que esta se puede
también desarrollar desde un enfoque de regresión, como
summary(svyglm(api00~Ed, design=dmuesr))
##
## Call:
## svyglm(formula = api00 ~ Ed, design = dmuesr)
##
## Survey design:
## update(dmuesr, Ed = cut([Link], 3))
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 596.8 38.9 15.34 3.1e-14 ***
## Ed(2.08,3.15] 64.7 41.7 1.55 0.13
## Ed(3.15,4.23] 211.3 42.2 5.01 3.7e-05 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for gaussian family taken to be 5402)
##
## Number of Fisher Scoring iterations: 2
Ası́, solo se aprecian diferencias significativas entre el rendimiento medio de los colegios que
tienen padres con un alto nivel educativo en comparación con colegios en los que los padres
tienen un bajo nivel. Si bien los padres con niveles altos o intermedios de educación tienen una
influencia positiva en el rendimiento de las escuelas, la diferencia de rendimientos entre los
colegios con padres de nivel educativo intermedio y bajo es muy marginal y no significativa.
Esto también puede apreciase al pedir un reporte del rendimiento de las escuelas según el
nivel educativo de los padres.
svyby(~api00,~Ed,dmuesr,svymean)
## Ed api00 se
## (0.997,2.08] (0.997,2.08] 597 38.9
## (2.08,3.15] (2.08,3.15] 662 27.3
## (3.15,4.23] (3.15,4.23] 808 15.0
200 CAPÍTULO 5. UNA INTRODUCCIÓN AL MUESTREO COMPLEJO
5.6. Ejercicios
1. En cierto estudio se empleó un diseño complejo con el fin de estimar, entre otras cosas,
el ı́ndice de pobreza de una región. Para ello se seleccionaron, bajo este diseño, 10 familias,
cuyos ı́ndices de pobreza y pesos base de muestreo se muestran a continuación:
Índice 34.8 49.7 23.8 65.4 55.2 38.8 43.7 44.8 59.7 60.3
Peso 167.10 68.04 22.31 167.10 419.81 120 100 54.31 22.54 58.79
a) Un objetivo del estudio fue determinar los cuartiles de pobreza en esta población. Estime
tales cuartiles en base al diseño utilizado.
b) Estime la varianza de los ı́ndices de pobreza de la región.
[Link]
Al no tenerse información precisa sobre este diseño, podrı́amos considerar que la data pro-
viene de un diseño por conglomerados unietápico estratificado con 2 UPM por estrato. Un
aspecto de esta base es que hay varios casos sin respuesta para la variable [Link], la cual
reporta el ingreso categorizado de la familia del encuestado en dólares. Puesto que el porcen-
taje de casos perdidos para esta variable podrı́a ser alto, serı́a de interés ver cómo realizar
los ajustes de los pesos estimando las probabilidades de no respuesta.
a) Incluyendo solo a personas menores de 18 años, estime, mediante una regresión logı́stica,
las probabilidades de no respuesta para la variable de ingresos. Asuma que los pesos dados
son los pesos base y utilice 5 grupos para los ajustes.
b) Estime la distribución etárea en esta población, y para estimar sus errores estándar de
estimación utilice el método de linealización y todos los métodos de remuestreo estudiados.
5. Para la Encuesta Nacional de Ingresos y Gastos de los Hogares (ENIGH) del 2014 llevada
a cabo en México se empleó un diseño probabilı́stico, estratificado y por conglomerados
polietápico. Las unidades primarias de muestreo fueron constituidas por agrupaciones de
viviendas con caracterı́sticas diferenciadas dependiendo del estrato donde se ubicaban, las
unidades secundarias fueron las viviendas y la unidad de observación fue el hogar. Determine
el número de hogares a considerar en la ENIGH-2014 si se estimó que el número de hogares
para el 2014 en México fue de 31 374 724. Para ello considere como variable de referencia al
ingreso corriente total del hogar y que se desea estimar este con un error no mayor a los
1,068 pesos a un nivel de confianza del 90 %. Tome en cuenta que en la ENIGH-2012 se
utilizó un diseño similar y que en ella se estimó la desviación estándar de los ingresos por
hogar en 44 157.8329 pesos, un efecto de diseño de 3.73 y una tasa de no respuesta del 15 %.
6. Se desea realizar una encuesta por muestreo complejo para averiguar, entre otras cosas,
con un error no mayor a 0.07 y una confianza del 95 %, la proporción de satisfacción de los
trabajadores en su centro laboral para un determinado sector. Un estudio similar se realizó el
año pasado, y para este se reportó un efecto de diseño de 2.4 y un porcentaje de satisfacción
del 73 %. Si el marco actualizado de trabajadores del sector cuenta con 12 378 trabajadores,
¿cuál deberı́a ser el tamaño de muestra a considerar?
202 CAPÍTULO 5. UNA INTRODUCCIÓN AL MUESTREO COMPLEJO
Árbol N o . 1 2 3 4 5 6 7 8 9 10
Diámetro 12.0 11.4 7.9 9.0 10.5 7.9 7.3 10.2 11.7 11.3
Edad 125 119 83 85 99 117 69 133 154 168
Árbol N o . 11 12 13 14 15 16 17 18 19 20
Diámetro 5.7 8.0 10.3 12.0 9.2 8.5 7.0 10.7 9.3 8.2
Edad 61 80 114 147 122 106 82 88 97 99
10. Un parámetro de interés en la base de datos muestral apistrat del paquete survey es el
número total de estudiantes que tomaron el test api (variable [Link]).
a) Obtenga la estimación de Horvitz-Thompson del número de estudiantes que tomaron el
test api, ası́ como su error estándar de estimación.
b) Obtenga la estimación en a) con los métodos jackknife y bootstrap.
c) Obtenga a), pero ahora con un estimador de razón que utilice como variable auxiliar el
número total de alumnos matriculados.
d) Indique cuál de las dos estimaciones anteriores elegirı́a y por qué. Más aún, dado que
conoce la base de datos poblacional, compare también las dos estimaciones con el verdadero
valor del parámetro de interés.
12. Murgia (2018) realizó el primer estudio de adopción BIM en proyectos de edificación
en Lima y Callao. El BIM es un nuevo método de trabajo que integra a todos los agentes
que intervienen en un proceso de edificación, como arquitectos, ingenieros, constructores,
promotores, etc., y establece un flujo de comunicación trasversal entre ellos, generando un
modelo virtual que incluye toda la información relacionada con la edificación a lo largo de
su ciclo de vida. El estudio se basó en un muestreo por conglomerados bietápico, tomándose
como marco muestral el 22o . estudio “El Mercado de las Edificaciones Urbanas de Lima
Metropolitana y El Callao”(CAPECO, 2017) y una proyección y actualización del número
de obras para el tiempo de recolección de los datos. El marco muestral, unidades primarias
seleccionadas y unidades secundarias consideradas se muestran en la figura 5.2. Como se
aprecia, el universo de edificaciones en Lima y Callao se dividió en siete sectores urbanos
(estratos), que, a su vez, se subdividieron en distritos y zonas. Como se puede ver, Miraflores
y San Isidro se ubican en el sector urbano Lima Top. Sin embargo, Miraflores está dividido
en 2 zonas al igual que San Isidro. Los conglomerados de primera etapa fueron las zonas y
los de segunda las obras en cada una de las zonas. Si las repuestas en la encuesta acerca de
si en la obra se habı́a adoptado o no la metodologı́a BIM fueron, respectivamente, para cada
una de las obras mostradas en la figura 5.2 las siguientes: No No No Sı́ No Sı́ No No No Sı́ No
No No No No No No No Sı́ Sı́ Sı́ No No Sı́ No No Sı́ No Sı́ Sı́ No No No No No Sı́ No Sı́ No No No
Sı́ Sı́ No No No No No No Sı́ Sı́ No No No Sı́ No No Sı́ No No No No No No No Sı́ No No No No
No No No No Sı́ No No Sı́ No No No No No No No No No No Sı́ No No No Sı́ No No No No No
Sı́ No No No No No No No No No Sı́ No No Sı́ No No No Sı́ No No No No No No No No No No
No No No No Sı́ No No Sı́ No No No Sı́ No No No No No No Sı́ No No No Sı́ No Sı́ No Sı́ No No
5.6. EJERCICIOS 205
13. Suponga que en el 2016 el gobierno de la región de Cajamarca tenı́a interés en conocer,
entre otras cosas, la proporción de internos sentenciados, de reos que consumı́an drogas y
la distribución de tipos de delito cometidos por los internos de sus penales. Para ello se
diseñó una encuesta por muestreo que consideró a cada establecimiento penal como un do-
minio. El diseño definió como variable de estratificación al género de los internos del penal.
Por otro lado, dado que los penales en la región son bien diferenciados, siendo de lejos el de
Cajamarca el más grande (los otros dominios son Chota, Jaén y San Ignacio), el diseño consi-
deró seleccionar aquı́ una muestra ppt (proporcional al número de internos de cada pabellón)
de 4 pabellones para internos hombres (de un total de 9 pabellones que deberı́a considerar)
y solo 2 pabellones de internas mujeres. Finalmente, para los pabellones seleccionados de
hombres se tomó un MASs de 10 internos y en el de las de mujeres se entrevistaron a todas
las mujeres de los dos pabellones. Dado que los otros dominios contaban, con tan solo un
pabellón, en estos se procedió a tomar un MASs de 30 reos hombres por penal y censar a las
mujeres en estos penales. Tomándose la muestra correspondiente y considerándose el censo
penal del 2016 solo como marco muestral,
a) Estime para el dominio de Chota la proporción de internos sentenciados y su error estándar
de estimación.
b) Estime para el dominio de Cajamarca la proporción de internos sentenciados y su error
estándar de estimación.
c) Dé una estimación de los otros dos parámetros de interés tanto en Cajamarca como en
Chota.
d) ¿Cuál serı́a la estimación y el error estándar de estimación estimado para la proporción
de sentenciados en toda la región de Cajamarca?
e) ¿Podrı́a concluir, a un nivel de significación de α = 0.05 que en esta región existe asociación
entre el consumo de drogas de los internos y el tipo de delito cometido?
14. En un terreno se ha resembrado una especie de árbol y se desea estimar, entre otras cosas,
la altura promedio de estos árboles pasados 5 años de iniciada la reforestación. El terreno
se dividió en 50 lotes de tamaños similares, donde 30 lotes están bajo la administración de
una compañı́a privada y 20 bajo la administración de una compañı́a estatal. Suponga que
le brindan la información que aparece en el cuadro 5.2, donde se consignan las alturas en
centı́metros de un conjunto de árboles seleccionados mediante un MASs en cada uno de 5
lotes también seleccionados por un MASs dentro de cada administración, ası́ como el número
de árboles en cada lote seleccionado que mostraron ya algún signo de floración
a) Estime la altura promedio de los árboles en el terreno y su error de estándar de estimación.
¿Cuál serı́a la estimación de la desviación estándar de las alturas de estos árboles?
b) Estime la proporción de árboles en el terreno que muestran signos de floración y su error
de estándar de estimación.
c) Estime los efectos de diseño en las estimaciones anteriores.
206 CAPÍTULO 5. UNA INTRODUCCIÓN AL MUESTREO COMPLEJO
15. Se desea estimar el rendimiento medio en lectura de los estudiantes del segundo año
de educación secundaria de la provincia constitucional del Callao. Considere, como marco
muestral, la ECE 2019 y utilice un muestreo estratificado de conglomerados bietápico. Los
estratos estarán definidos por el tipo de gestión del colegio (Estatal y No estatal). En cada
estrato se considerarán conglomerados de primera etapa a los colegios y de segunda etapa
a los alumnos. Para simplificar, puede suponer que dispone de un presupuesto limitado que
solo alcanza para seleccionar a 30 colegios y a un máximo de 20 alumnos por colegio.
a) Obtenga una estimación del rendimiento medio en lectura de los estudiantes del segundo
año de secundaria del Callao, ası́ como su error estándar de estimación.
b) Obtenga una estimación del rendimiento medio en lectura de los estudiantes del segundo
año de secundaria por cada estrato, ası́ como sus errores estándares de estimación.
c) Si para el estrato estatal utiliza un muestreo con probabilidades proporcionales al número
de estudiantes, en la primera etapa, y un MASs de estudiantes en la segunda etapa, mejorı́a
su estimación del rendimiento medio en lectura?
d) Obtenga el número total estimado de profesores en los colegios del Callao. No tiene
que hacer aquı́ un trabajo de campo para obtener tal información, pero sı́ puede utilizar,
por ejemplo, la página web ESCALE del Ministerio de Educación que tiene información
actualizada de todos los colegios en el paı́s. Reporte aquı́ el intervalo de confianza al 95 %
para este total y estime el efecto de diseño.
5.6. EJERCICIOS 207
16. Suponga que para estimar el ı́ndice de rendimiento medio api para el año 2000 en la
población api, usted decide realizar un muestreo complejo que consiste en utilizar primero
un MAE usando como variable de estratificación el tipo de colegio y tomando luego, con
probabilidades proporcionales al tamaño (de la variable enroll), un muestreo por conglo-
merados de, respectivamente, 10 distritos con colegios de tipo elemental, 5 con colegios de
tipo medio y 5 con colegios de tipo alto.
a) Estime el ı́ndice de rendimiento medio api del 2000 para la población de escuelas públicas
de California y de sus estratos, ası́ como el ı́ndice que deberı́a haber obtenido una escuela en
ese año para ser considerado en el tercio superior.
b) Use, bajo este diseño, un análisis de regresión para analizar si la variable emer afecta al
ı́ndice api del 2000.
17. En el paquete survey de R tiene disponible la base de data poblacional elections, en donde
se muestran la cantidad de votos que los tres candidatos Bush, Kerry y Nader alcanzaron en
cada uno de los 4600 condados en su postulación para la presidencia de los Estados Unidos
en el 2004.
a) Use el método de Tillé para seleccionar una muestra sin reemplazamiento de 40 condados
con probabilidades proporcionales al número de votos alcanzados en estos. Adicione luego a
esta base de datos ppsample las probabilidades de selección y los pesos de muestreo wt.
b) Basándose en la muestra anterior y el diseño
estime el total de votos que cada uno de estos candidatos alcanzó en las elecciones del 2004.
Indique qué es lo que este diseño asume.
c) Realice un pequeño estudio de simulación al replicar b) 1000 veces. Compare luego la
media de los totales estimados con los reales y obtenga intervalos de confianza al 95 % para
los totales poblacionales calculando la cobertura sobre los verdaderos valores.
d) Obtenga las estimaciones de Horvitz-Thompson para los totales pedidos y sus errores
estándar de estimación estimados. Compare estas con las estimaciones en b).
Apéndice A
Este apéndice incluye algunas sugerencias o soluciones a los ejercicios pares del texto. Para
efectos de reproducibilidad usaremos, en lo posible, la semilla aleatoria [Link](12345).
En caso de que esta semilla no sea consistente con su version particular de R, podrı́a tratar
antes con el comando RNGkind(sample_kind="Rounding").
Capı́tulo 1
2. a) Si X denota el número de vales de 50 soles que Juan obtendrá y la selección es
con reemplazamiento, entonces X ∼ B(4, 15 ). Si no hay reemplazamiento, X ∼ H(5, 1, 4).
Ası́ P (X ≥ 1) es mayor en el segundo caso, pues en R 1-dbinom(0,4,0.2)= 0.5904 y
1-dhyper(0,1,4,4)= 0.8.
b) Sea (X1 , X2 , X3 , X4 , X5 ) ∼ M ul(4; 0,2, 0,2, 0,2, 0,2, 0,2) el vector aleatorio que denota el
número de veces que ganarán 50 soles, respectivamente, Juan, Pepe, Rosa, Luis y Marı́a.
Entonces, marginalizando P (X1 = 1, X3 = 2) = 0.0576. Esta no coincide con la probabilidad
P (X1 = 3) = 0.0256 de que Juan gane 300 soles.
c) Considerando a Rosa y Luis como una sola categorı́a, su distribución para el número de
vales ganados entre los dos es binomial y, por tanto, la probabilidad de que ellos ganen los
4 sorteos es ( 25 )4 = 0.0256.
d) El monto que Juan obtendrá es M = 50X1 y su esperado es de 40 soles.
4. a) Sea (X1 , X2 , X3 ) el vector aleatorio cuyas componentes denotan, respectivamente, el
número de artı́culos con defectos de tipo A, B y sin defecto en la muestra de los 20 artı́culos
de la producción. Por construcción, (X1 , X2 , X3 ) ∼ HM ul(20; 12, 8, 180) y la utilidad por
vender estos artı́culos es U = 25X3 − 5X1 − 10X2 . Se pide
209
210 APÉNDICE A. RESPUESTAS A LOS EJERCICIOS PARES
choose(12,1)*choose(8,2)*choose(180,17)/choose(200,20)
## [1] 0.0587
dhyper(0:4,4,20,6)
P2 <-function(x){
x1 = c(0,1,2,3,4)
sum(dhyper(x,4-x1,14+x1,6)*dhyper(x1,4,20,6))}
P3 <-function(x){
A = matrix(0,5,5)
for(x1 in 0:4){
for(x2 in 0:(4-x1)){
ax1 = dhyper(x,4-x1-x2,8+x1+x2,6)*dhyper(x2,4-x1,14+x1,6)
A[x1+1,x2+1]=ax1*dhyper(x1,4,20,6)}}
sum(A)}
P4 <-function(x){
A = array(0,dim = c(5,5,5))
for(x1 in 0:4){
for(x2 in 0:(4-x1)){
for(x3 in 0:(4-x1-x2)){
ax2 = dhyper(x,4-x1-x2-x3, 2+x1+x2+x3,6)*dhyper(x3,4-x1-x2,8+x1+x2,6)
A[x1+1,x2+1,x3+1]=ax2*dhyper(x2,4-x1,14+x1,6)*dhyper(x1,4,20,6)}}}
sum(A)}
c(P4(0),P4(1),P4(2),P4(3),P4(4))
todas estas funciones nos brindan la misma distribución que la de la variable aleatoria X1 .
d) Como el rango del vector (X1 , X2 , X3 , X4 ) son los números naturales cuya suma es 4, se
tiene que
×P (X2 = x2 | X1 = x1 )P (X1 = x1 )
1 −x2 8+x1 +x2 14+x1
Cx4−x C6−x Cx4−x 1
C6−x C 4 C 20 C6 C6 C6 C6
= 1x4 (x4 ) 3
12
3
× 2
18
2
× x1 246−x1 = x1 x2 24x3 x4 .
C6 C6 C6 C4
212 APÉNDICE A. RESPUESTAS A LOS EJERCICIOS PARES
e) Sea Y la v.a. que denota el número de cajas que contienen alguna cápsula genérica. El
rango de esta v.a es RY = {1, 2, 3, 4} y se tiene que
M N −M −Mj −Mm
CxM1 i Cx2 j CxM3 m Cn−3i
i=1 xi
= .
CnN
Decir, por tanto, que el vector aleatorio (Xi , Xj , Xm ) tiene distribución hipergeométrica
multivariada no es en verdad cierto, aun cuando su distribución se derive de esta última. La
función de probabilidad del vector (Xi , Xj , Xm ) viene dada por la expresión anterior.
6
12. Para encontrar el estimador, propongamos uno lineal de la forma p̂ = i=1 ci Xi δi .
1
6 n i Mi
Condicionando al vector (δ1 , δ2 , . . . , δ6 ), E(p̂) = 6 i=1 ci Ni . El valor de la constante ci
que hace que este sea insesgado es, por tanto, ci = nNi N̄i , donde N̄ = 16 6i=1 Ni . El estimador
insesgado de p es por tanto,
6
1
p̂ = Ni p̄i δi .
N̄ i=1
La varianza de este estimador viene, por la proposición 1.5, dada por
Como las muestras a tomar en cada caja se pueden asumir independientes, se tendrá que
6 6
1 2 2 1 1 Mi Mi Ni − ni 2 2
V (p̂ | δ1 , . . . , δ6 ) = V (p̄ i )Ni δ i = (1 − )( )N δ
2
N̄ i=1 2
N̄ i=1 ni Ni Ni Ni − 1 i i
y ası́,
6 6
1 1 Mi Mi Ni − ni 2 1 1 Mi (Ni − Mi )(Ni − ni )
E (V (p̂ | δ1 , . . . , δ6 )) = 2 (1− )( )N = .
N̄ i=1 ni Ni Ni Ni − 1 i 6 6N̄ 2 i=1 ni (Ni − 1)
213
1
6
Por otro lado, como E(p̂ | δ1 , . . . , δ6 ) = N̄ i=1 Ni pi δi , se tiene que
6 6 6
1
V (E(p̂ | δ1 , . . . , δ6 )) = N 2 2
p V (δ ) + Ni Nj pi pj Cov(δi , δj )
N̄ 2 i=1
i i i
i=1 j=1
i=j
6
6
6
1 5
= Ni2 p2i − Ni Nj p i p j
.
36N̄ 2 i=1 i=1 j=1
i=j
x = c(17 , 8 , 3 , 4 , 6 , 9 , 12 , 14 , 1 , 2 , 1 ,4 , 2 , 10 , 2 , 5)
round(sum(1-choose(100-x,16)/choose(100,16)))
## [1] 9
instituciones, donde x denota el vector del número de personas por institución. Finalmente,
para que N e = 2 deberı́an seleccionarse cualesquiera de los siguientes conjuntos de institu-
ciones {8, 10}, {8, 13}, {8, 15}, {7, 4}, {7, 12} y {14, 5}. Por tanto, utilizándose la distribución
hipergeométrica multivariada, se tendrá que
16. a) Si X denota el número de parqueos que tendrá que pagar el turista, se tiene que
X ∼ H(12, 9, 4) y, por tanto, su valor esperado es E(X) = 4×9
12
= 3.
b) Para simular se puede usar la función rhyper
[Link](12345)
rhyper(1,9,3,4)
## [1] 3
[Link](12345)
min(which(phyper(0:4,9,3,4)>runif(1)))-1
## [1] 3
Capı́tulo 2
2. a) Note que X ∼ H(N, m, n). Un desarrollo de Taylor de segundo orden para N̂1 alrededor
de la media de X, µ = E(X) = nmN
, nos da la aproximación
nm nm 2nm
N̂1 = − 2 (X − µ) + 3 (X − µ)2 .
µ µ µ
Tomando el valor esperado obtendremos la primera expresión a probar. En cuanto a la
varianza de N̂1 , podrı́amos considerar solo el desarrollo de primer orden y obtener, tomando
varianzas a esta, la aproximación
n2 m2 N4 m m N −n N 2 (N − m)(N − n)
V (N̂1 ) = V (X) = n (1 − ) = .
µ4 n2 m2 N N N −1 nm(N − 1)
m m mr
b) Note que Y ∼ BN (r, p = N
), luego E(N̂2 ) = r
E(Y )= r p
= N . Similarmente,
m2 m2 r(1 − p) N (N − m)
V (N̂2 ) = 2
V (Y ) = 2 = .
r r p2 r
215
m2 2 m2 r(1 − p) r2 r2 N (N − m)
E(V̂ (N̂2 )) = 2
(E(Y ) − rE(Y )) = 2
( 2
+ 2 − )= .
r (r + 1) r (r + 1) p p p r
Una desventaja del muestreo inverso es que el número de selecciones hasta obtener los r
elementos marcados puede ser grande, lo cual hace que este sea costoso y tome mucho
tiempo.
c) N̂1 = 500 y N̂2 = 508. Reemplazando en V (N̂1 ), N por su estimación N̂1 y usando V̂ (N̂2 ),
obtendremos
V̂ (N̂1 ) = 48 097.95 y V̂ (N̂2 ) = 41 318.95.
En esta aplicación, el muestreo inverso parece ser más preciso.
4. a) Si es un estimador insesgado.
σ2 2nc2
b) V (Ȳc ) = (1 − Nn )( Nn−1 + N −1
).
c) No hay contradicción.
6. Recordemos que toda muestra en un MASc puede representarse por un vector
(δ1 , δ2 , . . . , δN ), donde δi denota el número de veces que la unidad i es seleccionada. Es-
tas v.a. toman valores en el conjunto {0, 1, 2, . . . , n} y satisfacen
δ1 + δ2 + . . . + δN = n.
Si identificamos ahora a cada valor entero positivo por igual número de barras verticales
y mantenemos los signos +, podrı́amos, entonces, identificar cada muestra por una única
secuencia de barras verticales y signos +. Por ejemplo, si N = 9 y n = 6 una posible muestra
es que la primera unidad sea elegida 3 veces, la cuarta 2 veces y la octava una vez; esto es:
(3, 0, 0, 2, 0, 0, 0, 1, 0),
pues
3 + 0 + 0 + 2 + 0 + 0 + 0 + 1 + 0 = 6.
Ası́, esta muestra se representará por la secuencia
||| + + + || + + + +|+
(N + n − 1)!
= CnN +n−1 .
n!(N − 1)!
216 APÉNDICE A. RESPUESTAS A LOS EJERCICIOS PARES
y la probabilidad pedida es 1 − (1 − q 2 )n .
e) 0.3027767.
12. a) Considere la primera caracterización de S 2 y sume y reste Ȳ al interior de (Yi − Yj )2 .
Desarrollando el cuadrado y operando es inmediato llegar a la fórmula tradicional de S 2 .
b) En un MASc,
n n n n
2 1 1
E(S ) = E(Yi − Yj )2 = V (Yi − Yj )2 .
2n(n − 1) i=1 j=1 2n(n − 1) i=1 j=1
i=j i=j
n n n n
1 1
= (V (Yi ) + V (Yj ) − 2Cov(Yi , Yj )) = 2σ 2 = σN
2
.
2n(n − 1) i=1 j=1 2n(n − 1) i=1 j=1 N
i=j i=j
2
2 σN −1 2
= σN + = σN −1 .
N
c) Basta tomar el lı́mite cuando N → ∞.
14. a) La función de probabilidad de X es PX (x) = CxN ( N1 )5 ax , donde
ax = 11x=1 (x) + 301x=2 (x) + 1501x=3 (x) + 2401x=4 (x) + 1201x=5 (x).
b) Podrı́a definir la variable dicotómica δi∗ = 1δi >0 , donde δi ∼ B(5, N1 ), y expresar el esti-
mador como τ̂ ∗ = C N ∗
i=1 yi δi . Sobre la base de ello, la constante que hace a este estimador
insesgado es C = 1−q , donde q = (1 − N1 )5 .
1
d) El código
F = (1:15)/15
u = c(0.327, 0.894, 0.131, 0.289, 0.643)
m = NULL
for(i in 1:5) m[i] = min(which((F>u[i]) == TRUE))
m
## [1] 5 14 2 5 10
2 1
σ∗d = ((Nd − 1)σd2 + (N − Nd − 1) × 0 + Nd µ2d + (N − Nd ) × 0 − N µ2∗d )
N −1
1
= ((Nd − 1)σd2 + qd Nd µ2d ).
N −1
c) Como τ̂d = N Ȳd , donde Ȳd es la media muestral en la población estadı́stica Py∗ , se tiene
por la proposición 2.2 que
n σ2
V (τ̂d ) = N 2 (1 − ) ∗d ,
N n
2
siendo σ∗d la varianza poblacional de Py∗ .
218 APÉNDICE A. RESPUESTAS A LOS EJERCICIOS PARES
N = dim(apipop)[1]
z = qnorm(0.975)
mu0 = mean(apipop$api99)
s0 = sd(apipop$api99)
e = mu0*z*0.03
n = (N*(z*s0)^2)/((z*s0)^2 + N*e^2)
(n = ceiling(n))
## [1] 49
[Link](12345)
muestra = apipop[sample(N,n),]
dism = svydesign(ids= ~1,fpc= rep(N,n),data = muestra)
(m = svymean(~api00,dism))
## mean SE
## api00 646 17.9
(svytotal(~enroll,dism,[Link]=T))
## total SE
## enroll 3853806 395991
## stype api00 se
## E E 650 20.4
## H H 665 38.1
## M M 581 66.5
mean(apipop$api00)
## [1] 665
sum(apipop$enroll,[Link]=T)
## [1] 3811472
[Link](by(apipop$api00,apipop$stype,mean))
## apipop$stype
## E H M
## 672 634 656
Note que el error de estimación en la estimación del api00 es |645.65 − 664.7126| = 19.0626,
que es menor al preestablecido de 37.1558 puntos. Por otro lado, se tiene el CV estimado y
el intervalo de confianza al 95 % para la media siguientes:
(CV = [Link](100*SE(m)/coef(m)))
## [1] 2.76
confint(m)
## 2.5 % 97.5 %
## api00 611 681
ˆ X̄, Ȳ ) = (1 − n ) Sxy ,
Cov(
N n
donde:
N
1
Sxy = (xi − X̄)(yi − Ȳ )δi
n − 1 i=1
es la covarianza muestral entre x e y. No es difı́cil mostrar que este es un estimador insesgado
de la covarianza anterior.
22. a) Utilizando el paquete survey
[Link](12345)
(index1 = sample(100,20))
## [1] 73 87 75 86 44 16 31 48 67 91 4 14 65 1 34 40 33 97 15 78
aream=c(10,48,8,12,40,24,54,54,56,40,10,8,14,12,50,20,3,42,6,30)
areas1 = [Link](aream)
## total SE
## aream 2705 379
confint(m1,level=0.98)
## 1 % 99 %
## aream 1823 3587
[Link](12345)
(index2 = sample(100,20,replace=TRUE))
## [1] 73 88 77 89 46 17 33 51 73 99 4 16 74 1 40 47 39 41 18 96
221
aream=c(10,36,100,18,21,56,3,49,10,60,10,24,27,12,20,8,30,45,56,6)
areas2 = [Link](aream)
disMASc = svydesign(ids=~1,weights = rep(5,20),data=areas2)
(m2 = svytotal(~aream, disMASc))
## total SE
## aream 3005 549
confint(m2,level=0.98)
## 1 % 99 %
## aream 1728 4282
24. a) Con los datos dados creamos la base de datos [Link]. Las estimaciones pedidas
se obtendrán mediante el código
load("[Link]")
disTS = svydesign(id=~1,fpc=rep(700,35),data = TallaS)
m = svymean(~Estatura,disTS)
svyvar(~Estatura,disTS)
## variance SE
## Estatura 0.00721 0
svymean(~Sexo,disTS)
## mean SE
## SexoHombre 0.686 0.08
## SexoMujer 0.314 0.08
b) El error será
[Link](qnorm(0.975)*SE(m))
## [1] 0.0274
c) No serı́a adecuado.
2
z1− 2
ασ N
σ 2 /µ2
d) n = 2
2
z1− α σ +e2 N
2 = σ 2 /((N µ2 )+CV02 )
. Estimando los parámetros µ y σ 2 con los datos de la
2
muestra y fijándose CV0 = 0.005, obtendremos que n = 84.
26. a) 0.024451.
222 APÉNDICE A. RESPUESTAS A LOS EJERCICIOS PARES
b) EL IC contiene a 0.5, por lo cual no podrı́a asegurarse que el candidato opositor vaya a
ganar las elecciones.
28. a) El código en R serı́a
[Link](12345)
N = dim(apipop)[1]
n = 500
index = sample(N,n)
sample = apipop[index,]
disMASs = svydesign(id=~1,fpc=rep(N,n),data = sample)
means = svymean(~api00+api99,disMASs)
(contr = svycontrast(means,c(api00=1,api99=-1)))
## contrast SE
## contrast 30.5 1.23
b) Se nos pide
confint(contr)
## 2.5 % 97.5 %
## contrast 28.1 32.9
c) Considere la variable d = y − x, que es la diferencia entre los ı́ndices api para el 2000
y 1999. El TLC para el esquema MASs de la sección 2.2 permitirá, asumiendo muestras y
poblaciones grandes, construir el siguiente IC al 100(1 − α) % para la diferencia de medias
del ı́ndice api entre el 2000 y 1999:
e = 1.96*sqrt((1 - n/N)/n)*sqrt(Sx2+Sy2-2*Sxy)
c(Dbar-e,Dbar+e)
valores que son prácticamente iguales a los obtenidos con el paquete survey.
Capı́tulo 3
2. a) Un estimador insesgado natural de µD es µ̂D = Ȳ1 − Ȳ2 y el de su error estándar de
estimación es
n1 S12 n2 S22
V̂ (µ̂D ) = (1 − ) + (1 − ) .
N1 n 1 N2 n 2
b) Bastará resolver
2 σ2
n 1 σ1
mı́nn1 ,n2 (1 − )
N1 n 1
+ (1 − Nn22 ) n22 ,
s.a n 1 + n2 = n
H
H
Nh Nh
E(Ȳ ) = E(Ȳh ) = E(E(Ȳh |Xh )) = µ,
h=1
N h=1
N
donde:
E(E(Ȳh |Xh )) = E(Ȳh |Xh = nh )P (Xh = nh ) = µh P (Xh = nh ) = µh ,
nh nh
la suma va sobre todos los posibles valores que puede tomar la distribución hipergeométri-
ca marginal de Xh y la última igualdad se da por ser Ȳh un estimador condicionalmente
insesgado de µh .
b) Puesto que
H H
Nh Xh σh2 Nh 1 1
V (Ȳ |X) = ( )2 (1 − ) = ( )2 σh2 ( − ),
h=1
N Nh X h h=1
N X h Nh
H
Nh 1 1
V (Ȳ ) = E(V (Ȳ |X)) + V (E(Ȳ |X)) = ( )2 σh2 (E( ) − ).
h=1
N X h N h
c) N̂h = Nn Xh .
d) Como E( X1h ) no tiene expresión conocida, podrı́amos considerar la expansión de Taylor
de la función f (x) = x1 evaluada en Xh hasta la segunda derivada alrededor de E(Xh ) y
tomar esperados para obtener la aproximación:
1 ∼ 1 1 N N 2 Nh N − n
E( )= + 3
V (Xh ) = +( ) (1 − ) .
Xh E(Xh ) E(Xh ) nNh nNh N N −1
H H H
Nh N − n Nh 2 1 N − n N − Nh 2
V (Ȳ ) = ( )2 V (Ȳh ) ∼
= ( )σh + 2 ( ) ( )σh .
h=1
N nN h=1 N n N − 1 h=1 N
[Link](12345)
N = dim(apipop)[1]
n = 100
index1 = sample(N,n)
sam = apipop[index1,]
FreqNh = table(awards=apipop$awards)
Nh = [Link](FreqNh)
Sh = [Link](by(sam$api00,sam$awards,sd))
Vc = ((N-n)/(n*N))*sum((Nh/N)*Sh^2)
Vi = Vc + ((N-n)/((N-1)*n^2))*sum((N-Nh)*Sh^2/N)
c(Vi,Vc)
Cabe comentar que el paquete survey no utiliza estos estimadores, sino uno propuesto
por Valliant (1993) basado en residuales. Este nos provee de la siguiente estimación de la
varianza de la media bajo post-estratificación:
## api00
## api00 165
load("[Link]")
dis19MAE = svydesign(id=~1,strata=~Estrato,fpc=~fpc,data=me19Am)
svyby(~M500_M,~sexo,dis19MAE,svymean)
226 APÉNDICE A. RESPUESTAS A LOS EJERCICIOS PARES
## sexo M500_M se
## Hombre Hombre 534 4.29
## Mujer Mujer 521 3.97
b) Podrı́amos tomar en primer lugar el estrato estatal y considerar que en esta población
se tiene una estratificación por área. Luego podrı́amos obtener la media ȲmE del dominio
de mujeres bajo este diseño parcial. De manera similar, obtendrı́amos para el diseño parcial
estratificado no estatal la media ȲmN E del dominio de mujeres. Puesto que las muestras son
independientes, la media µD de las diferencias en rendimiento para Matemáticas entre los
dominios de estudiantes mujeres de colegios estatales y no estatales se podrı́a estimar con su
correspondiente media muestral D̄ = ȲmE − ȲmN E y un IC aproximado para µD tendrá la
forma D̄ ± z1− α2 V̂ (ȲmE ) + V̂ (ȲmN E ), donde las varianzas se pueden estimar a partir de
(3.5). Dependiendo de si este contiene el valor 0 o no, podremos afirmar al 100(1 − α) % si
existen o no diferencias significativas.
c) La misma estrategia funciona para los hombres.
16. a) Definición de la base de datos y cálculo de los tamaños de muestra:
load("[Link]")
ece19Cz = ece19[ece19$Departamento==levels(ece19$Departamento)[8],]
ece19Cz$Estrato=interaction(ece19Cz$area,ece19Cz$gestion2)
save(ece19Cz,file='[Link]')
load("[Link]") # Base de datos 2018
ece18Cz = ece18[ece18$Departamento==levels(ece18$Departamento)[8],]
ece18Cz$Estrato=interaction(ece18Cz$Area,ece18Cz$Gestion2)
ece18Cz = ece18Cz[order(ece18Cz$Estrato),]
sigmah_e = sqrt(by(ece18Cz$M500_M,ece18Cz$Estrato,var,[Link]=T))
sigmah_e = [Link](sigmah_e)
Nh = [Link](table(ece19Cz$Estrato))
ah = Nh*sigmah_e/sum(Nh*sigmah_e)
d = dim(ece19Cz)[1]*5/qnorm(0.975)
n = sum(((Nh*sigmah_e)^2)/ah)/(d^2 + sum(Nh*sigmah_e^2))
(n = ceiling(n)) # Número de alumnos a tomar (n)
## [1] 929
library(sampling)
[Link](12345)
ece19Cz = ece19Cz[order(ece19Cz$Estrato),]
mCz = strata(ece19Cz,c("Estrato"),size=nh,method="srswor")
me19Cz = getdata(ece19Cz,mCz)
disMAECz = svydesign(ids=~1,strata=~Estrato,fpc = rep(Nh,nh),data=me19Cz)
(meanECz = svymean(~M500_M,disMAECz,deff=T,[Link]=T))
## mean SE DEff
## M500_M 566.77 2.89 0.89
c) Puesto que las muestras en los dominios de Cusco y Amazonas son independientes, el IC
al 95 % pedido viene dado por
SE = sqrt(SE(meanECz)^2 + SE(meanEAm)^2)
LI = coef(meanECz)-coef(meanEAm) - qnorm(0.975)*SE
LD = coef(meanECz)-coef(meanEAm) + qnorm(0.975)*SE
c(LI,LD)
## [1] 31 47
lo cual revela que el rendimiento medio en Matemáticas de los alumnos del Cusco es signifi-
cativamente mayor que el de los alumnos de Amazonas.
18. a) Tomadas las muestras de 21,4 y 5 alumnos en, respectivamente, los estratos E, H y M
se obtuvieron con la semilla aleatoria 12345 las estimaciones σ̂E = 134.6075, σ̂H = 654.9485
y σ̂M = 529.6044.
b) nE = 493, nH = 410, nM = 447.
c) El número de matriculados se estima en 3 788 376 estudiantes con un IC al 95 % de
[3 712 051 , 3 864 701].
d) La estimación serı́a de 0.67437 con un error de estimación estimado de 0.0136.
20. La solución mostrada, se basa en datos tomados el 2017. Usted debe actualizar esta
solución, pues la página web de Amazon es dinámica. Para el ejercicio, nuestra base de datos
o marco muestral la obtuvimos a través del paquete rvest de R.
La muestra y las estadı́sticas pedidas se obtendrán con el código siguiente:
library(sampling)
library(survey)
library(stringr)
load("[Link]")
228 APÉNDICE A. RESPUESTAS A LOS EJERCICIOS PARES
AmazonStat = AmazonStat[order(AmazonStat$tipos),]
AmazonStat[1:3,]
## titulos
## 3 Statistics, 4th Edition
## 8 Elementary Statistics: Picturing the World (6th Edition)
## 12 Elementary Statistics (12th Edition)
## autores fechas precios starsf
## 3 David Freedman and Robert Pisani Feb 13, 2007 128 4.1
## 8 Ron Larson and Betsy Farber Jan 12, 2014 34 4.2
## 12 Mario F. Triola Dec 31, 2012 14 4.1
## tipos
## 3 Hardcover
## 8 Hardcover
## 12 Hardcover
Nh = table(AmazonStat$tipos)
nh = round(70*Nh/sum(Nh))
[Link](12345)
me=strata(AmazonStat,c("tipos"),size=nh,method="srswor")
meAmazon = getdata(AmazonStat,me)
disme = svydesign(id=~1,strata=~tipos,fpc=~rep(Nh,nh),data=meAmazon)
(mprecios = svymean(~precios,disme))
## mean SE
## precios 42.3 3.78
(mstar = svymean(~starsf,disme,[Link]=T))
## mean SE
## starsf 4.86 0.57
## mean SE
## [1,] 0.0857 0.03
229
Capı́tulo 4
2. Las estimaciones del total y de su error estándar de estimación, usando la semilla 12345,
se muestran en la tabla siguiente:
Diseño Total Error estándar de estimación
MASc 15 8.19178
MASs 15 7.326915
MAE 7.5 3.172663
Sistemático 25
Conglomerados bietápico 25 4.472136
N
N
N N
(1 − πi ) τi τ j
= (V (τˆi ) + τi2 ) + (πij − πi πj ) + V (τ̂i ) = V (τ̂HT ).
i=1
πi i=1 j=1
πi πj i=1
j=i
De manera similar,
N N N
πi πj − πij V (τ̂i ) V (τ̂j ) τi τj 2
= ( )( 2 + + ( − ) )π ij + V (τ̂i )
i=1 j>i
πij πi πj2 πi πj i=1
N
N N N N
τi τj V (τ̂i ) V (τ̂j )
= (πi πj − πij )( − )2 + (πi πj − πij )( 2 + 2
)+ V (τ̂i ).
i=1 j>i
πi πj i=1 j>i
πi πj i=1
El segundo término a la derecha en esta expresión, que llamaremos x, resulta por la propo-
sición 4.2 ser igual a
N N N
1 V (τ̂i ) V (τ̂j )
x= (πi πj − πij )( 2 + 2
)− V (τ̂i )
2 i=1 j=i πi πj i=1
N
N
N
V (τ̂i ) V (τ̂i )
=n − (n − 1) − V (τ̂i ),
i=1
πi i=1
πi i=1
término que reemplazándose arriba en la expresión nos lleva a la ecuación dada en (5.6).
10. a) Sea πij la probabilidad conjunta de que se seleccionen en la muestra a las personas i
y j. Dado que la probabilidad de inclusión πi satisface πi = j=i πij , se tendrá que
b) La tabla siguiente nos muestra todas las posibles muestras de tamaño 2, ası́ como sus
probabilidades conjuntas y acumuladas:
[Link](12345)
> runif(1)
[1] 0.7209039
la muestra estará conformada por las personas 2 y 4. Con ellos obtenemos una estimación
(de Horvitz-Thompson) de
1 4
+ = 11.53846;
0.65 0.4
es decir, de entre 11 y 12 hermanos. El error estándar de estimación estimado para este total
es de 6.185814 y 7.246029, respectivamente, para los estimadores de Horvitz-Thompson y de
Sen-Yates-Grundy.
12. Como δ = (δ1 , δ2 , . . . , δN ) ∼ M ul(n; ψ1 , ψ2 , . . . , ψN ) y los τ̂i son insesgados, se tiene que
N δi N δi N N
1 τ̂ij 1 τi 1 τi 1
E(τ̂ψ ) = E(E( | δ)) = E( )= E(δi ) = nτi = τ.
n i=1 j=1
ψi n i=1 j=1
ψi n i=1 ψi n i=1
N N
1 τi 1 V (τ̂ij )
V (τ̂ψ ) = V (E(τ̂ψ | δ)) + E(V (τ̂ψ | δ)) = V ( δ i ) + E(δi )
n 2
i=1
ψi 2
n i=1 ψi2
N N N N
1 τi 2 1 τi τ j 1 V (τ̂ij )
= ( ) V (δ i ) + Cov(δ i , δ j ) +
n2 i=1 ψi n2 i=1 j=1 ψi ψj n i=1 ψi
i=j
N N N N
1 τi2 1 V (τ̂ij )
= ( (1 − ψi ) + τi2 − ( τi ) 2 ) +
n i=1 ψi i=1 i=1
n i=1 ψi
N N N
1 τi 1 V (τ̂ij ) 1 τi2 + V (τ̂ij )
= ψi ( − τ ) 2 + = ( − τ 2 ).
n i=1 ψi n i=1 ψi n i=1 ψi
Finalmente, no es difı́cil ver que el estimador de la varianza puede escribirse como
N
δi
1 τ̂ij2
V̂ (τ̂ψ ) = ( − nτ̂ψ2 ).
n(n − 1) i=1 j=1 ψi2
N
1 V (τ̂ij ) + τi2 1
= ( nψi ( ) − nV (τ̂ψ ) − nτ 2 ) = (nV (τ̂ψ ) − V (τ̂ψ )) = V (τ̂ψ ).
n(n − 1) i=1 ψi2 n−1
232 APÉNDICE A. RESPUESTAS A LOS EJERCICIOS PARES
16. La estimación del número medio de personas por auto será de 4.1625 con un error estándar
de estimación estimado de 0.6771.
18. a) Los distritos seleccionados serı́an el tercero, séptimo, décimo primero y décimo cuarto.
Si se evalúan las probabilidades de inclusión de segundo orden, varias de estas asociadas a
los distritos seleccionados son 0. Por lo tanto, si bien será posible estimar la proporción de
colegios unidocentes pedida en aproximadamente 0.22, no será posible obtener la estimación
de Horvitz-Thompson de su error estándar de estimación.
b) Ordinalmente, los distritos seleccionados bajo un muestreo por conglomerados de una
etapa (con semilla aleatoria 12345) serı́an el 10, 11, 13 y 15; mientras que, usando el esquema
de Sampdforf, obtuvimos los distritos 1, 6, 13 y 15.
c) La proporción estimada de colegios unidocentes en la región y su margen de error estimado
al 95 % se muestran en la tabla siguiente:
Como se observa, el muestreo ppt resultó ser más preciso, lo cual que se puede también
comprobar aquı́, ya que la verdadera proporción poblacional es de 0.213.
20. En este ejercicio es necesario crear una base de datos agregada de colegios con las sumas
de los rendimientos evaluados. Puesto que estos últimos contienen casos perdidos, los impu-
taremos por su valor medio. Hecho esto, el boxplot deberı́a quedar (ello, dependerá de las
simulaciones) como por ejemplo.
233
800
700
600
500
400
Poisson
Syst
Rsyst
Til e
Midzuno
Pivotal
Cong
Como se aprecia, todos los planes ppt, con excepción del de Poisson, muestran claramente
una mayor precisión en las estimaciones del rendimiento medio en Matemáticas que el del
muestreo aleatorio por conglomerados de una etapa.
22. a) La probabilidad de selección de la parcela es 0.1.
b) Este se estima en 114.6667 con un error estándar de estimación estimado de 15.912226.
c) El número de árboles severamente afectados en el condado se estima en 383.12 con un
error estándar de estimación estimado de 67.306.
d) Se podrı́a usar un estimador de razón en la que el numerador se obtenga por lo hallado
en c) y el denominador vienen dado por el número de árboles con infección en el condado,
el cual se estima en 1961.875. En consecuencia, nuestra estimación de la proporción pedida
383.125
vendrı́a dada por 1961 .875 = 0.1952851.
e) El código en R para la estimación del caso es el siguiente:
[Link](12345)
areas = c(400,580,674,920,180,300,380, 555,990,602,508,210,350,678,440,735)
num = c(16,21,18,24,24,23,25,51,42,19,11,10,36,21,37,12)
pik = inclusionprobabilities(areas,8)
m = UPsampford(pik)
HTestimator(num[m==1],pik[m==1])
## [,1]
## [1,] 436
pik2 = UPsampfordpi2(pik)
sqrt(varHT(num[m==1],pik2[m==1,m==1],1))
## [1] 51.1
234 APÉNDICE A. RESPUESTAS A LOS EJERCICIOS PARES
Capı́tulo 5
2. a) Puesto que el muestreo de containers es con reemplazamiento, se tiene que X = número
1
de veces que un container es seleccionado ∼ B(4, 60 ). Se nos pide, por lo tanto, P (X > 0) =
59 4
1 − P (X = 0) = 1 − ( 60 ) .
b) Si el container i tiene Mi cajas, sea Yij =número de veces que la caja j del container i es
seleccionado. Se cumple entonces que Yij | Xi = x ∼ B(x, M3 i ), donde Xi ∼ B(4, 60 1
) es la v.a
que denota el número de veces que el container i es seleccionado. El peso de muestreo para
la caja j del container i viene dado entonces por ωij = πj1πi , donde πi = 1 − ( 59
60
)4 y
4
4
3 x
=1− P (Yij = 0 | Xi = x)P (Xi = x) = 1 − (1 − ) P (Xi = x)
x=1 x=1
Mi
Estos pesos para las cajas de los containers 23, 12, 8 y 44 vienen dados, respectivamente,
por
M = c(100,80,114,93)
xx = 1:4
pxx = dbinom(xx,4,1/60)
pa = 1 - (59/60)^4
w <- pp <-NULL
for(i in 1:4){
pp[i] = (1-sum(pxx*(1-3/M[i])^xx))*pa
w[i] = 1/pp[i]}
w
Pesos = c(10.3,12.2,9.8,11.2,13.1,9.9,8.95,15.3,14.4,11.6,10.53,11.8)
Cong = rep(1:4,each=3)
235
## [1] 12.2
load("/Users/lucho/Documents/TextoMuestreo2019/Bases_de_Datos/[Link]")
nhis18 = [Link][[Link]$[Link]>1,]
nhis18$resp = [Link]([Link](nhis18$[Link]))
[Link](table(nhis18$resp))
##
## 0 1
## 0.105 0.895
Como se aprecia, tenemos aquı́ un poco más del 10 % de no respuestas a la pregunta sobre los
ingresos. Para estimar las probabilidades de no respuesta utilizaremos una regresión logı́stica
con las siguientes potenciales variables predictoras:
No se incluyeron más variables, pues estas son las únicas sin datos perdidos en la base de
datos. El siguiente serı́a el código para el análisis de regresión logı́stica con esta muestra
compleja:
236 APÉNDICE A. RESPUESTAS A LOS EJERCICIOS PARES
lpredc = [Link]$[Link]
probpc = exp(lpredc)/(1 + exp(lpredc))
r = summary([Link])
q = quantile(probpc,seq(0,1,0.2))
[Link] = cut(probpc,breaks=q,[Link]=T)
phi = by(data=probpc,[Link],mean)
phi
## [Link]: [0.805,0.871]
## [1] 0.857
## --------------------------------------------------------
## [Link]: (0.871,0.9]
## [1] 0.889
## --------------------------------------------------------
## [Link]: (0.9,0.904]
## [1] 0.902
## --------------------------------------------------------
## [Link]: (0.904,0.913]
## [1] 0.909
## --------------------------------------------------------
## [Link]: (0.913,0.97]
## [1] 0.918
b) Para estimar la distribución étarea, por los métodos de estimación de varianza vistos en
el curso, podrı́amos apelar al siguiente código:
237
## [[1]]
## mean SE DEff
## factor([Link])1 0.25309 0.00371 1.57
## factor([Link])2 0.10055 0.00403 3.87
## factor([Link])3 0.28487 0.00371 1.46
## factor([Link])4 0.23968 0.00420 2.09
## factor([Link])5 0.12181 0.00402 3.27
##
## [[2]]
## mean SE DEff
## factor([Link])1 0.25309 0.00371 1.58
## factor([Link])2 0.10055 0.00406 3.93
## factor([Link])3 0.28487 0.00373 1.48
## factor([Link])4 0.23968 0.00420 2.09
## factor([Link])5 0.12181 0.00404 3.30
##
## [[3]]
## mean SE DEff
## factor([Link])1 0.25309 0.00371 1.57
## factor([Link])2 0.10055 0.00403 3.87
## factor([Link])3 0.28487 0.00372 1.46
## factor([Link])4 0.23968 0.00420 2.09
## factor([Link])5 0.12181 0.00402 3.27
##
238 APÉNDICE A. RESPUESTAS A LOS EJERCICIOS PARES
## [[4]]
## mean SE DEff
## factor([Link])1 0.25309 0.00371 1.57
## factor([Link])2 0.10055 0.00403 3.87
## factor([Link])3 0.28487 0.00372 1.46
## factor([Link])4 0.23968 0.00420 2.09
## factor([Link])5 0.12181 0.00402 3.27
6. n = 361.
stock = c( 55, 45, 10, 12, 10, 120, 18, 20, 35, 45, 10, 36, 30, 27, 15, 50)
pik = inclusionprobabilities(stock,4)
w = 1/pik
select = c(1,6,9,13)
sum(c(17,35,6,13)*w[select])/sum(c(22,60,18,19)*w[select])
## [1] 0.589
y la estimación del monto total por ventas del celular YTRON será
sum(c(15395,44230,13440,13470)*w[select])
## [1] 199261
## total SE
## [Link] 3086009 99477
dJKn = [Link](design=dstrat,type="JKn")
svytotal(~[Link],dJKn)
## total SE
## [Link] 3086009 99477
dboot = [Link](design=dstrat,type="subbootstrap",replicates=1000)
svytotal(~[Link],dboot)
## total SE
## [Link] 3086009 103337
(r = svyratio(~[Link],~enroll, dstrat))
tenroll = sum(apipop$enroll,[Link]=T)
tenroll*coef(r)
## [Link]/enroll
## 3190038
(sum(apipop$[Link],[Link]=T))
## [1] 3196602
12. Se estima que el 23.715 % de las obras están usando la metodologı́a y el error de estima-
ción de este porcentaje, a un nivel de confianza del 95 %, es del 5.092 %.
14. a) Construida la base de datos muestral htree , que tiene el formato
load("/Users/lucho/Documents/TextoMuestreo2019/Texto2019_2/[Link]")
head(htree)
disarb=svydesign(ids=~Lote+Num,strata=~Adm,fpc=~Nlote+Numa,nest=T,data=htree)
svymean(~Altura,disarb,deff=T)
## mean SE DEff
## Altura 24.77 1.17 1.8
b) Queda como ejercicio, pero observe que, en este caso, se tiene no un diseño estratifica-
do por conglomerados bietápico como en a) sino uno de una sola etapa. Además, este no
podrá calcularse con el paquete survey sino manualmente, pues los datos dados son solo
resúmenes.
c) En la estimación de la media, el efecto de diseño se estima en 1.7988. El de b) queda como
ejercicio.
16. a) Tomemos, en primer lugar, la muestra bajo el diseño propuesto
bb = apipop[[Link](apipop$enroll)==0,]
muestra = list()
s = c(10,5,5)
for(i in 1:3){
241
bbe = bb[bb$stype==levels(bb$stype)[i],]
denroll = [Link](by(bbe$enroll,bbe$dnum,sum))
prob = inclusionprobabilities(denroll,s[i])
[Link](12345)
auxe = cluster(bbe,clustername=c("dnum"),s[i],method="systematic",
pik= prob,description=T)
muestra[[i]] = getdata(bbe,auxe)}
MuestraF = [Link](rbind,muestra)
## mean SE
## api00 658 25.2
svyby(~api00,~stype,disc,svymean)
## stype api00 se
## E E 646 30.5
## H H 581 35.5
## M M 736 58.4
svyquantile(~api00,disc,2/3)
## 0.67
## api00 723
##
## Call:
## svyglm(formula = api00 ~ emer, disc)
##
## Survey design:
## svydesign(ids = ~dnum, strata = ~stype, probs = ~Prob, data = MuestraF,
## nest = T)
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 732.13 30.58 23.94 5.9e-14 ***
## emer -5.81 1.92 -3.03 0.008 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for gaussian family taken to be 12091)
##
## Number of Fisher Scoring iterations: 2
Bankier, M. (1988). Power allocation: Determining sample sizes for sub-national areas, The
American Statistician 42: 174–177.
Burnard, P. (1992). Learning from experience: Nurse tutors and student nurses perceptions
of experiential learning in nurse education: Some initial findings, International Journal of
Nursing Studies 29: 151–161.
Cho, E. y Cho, M. (2008). The variance of sample variance from a finite population, Survey
Research Methods Section, American Statistical Association, Denver, CO.
Dippo, C., Fay, R. y Morganstein, D. (1984). Computing variances from complex samples
with replicate weights, Proceedings of the Survey Research Methods Section, American
Statistical Association pp. 489–494.
Fay, R. (1984). Some properties of estimates of variance based on replication methods, Pro-
ceedings of the Survey Research Methods Section, American Statistical Association pp. 495–
500.
Fournier, P., C. F. S. S. y Stolle, D. (2013). Canadian election study 2011: Study documen-
tation, Technical report, Queen’s University, Kingson, Ontario.
243
244 BIBLIOGRAFÍA
Hajek, J. (1960). Limiting distributions in simple random sampling from a finite population,
Magyar Tudoanyos Akademia Budapest Matematikai Kutato Intezet Koezlemenyei 5: 361–
374.
Koch, GG., F. D. y Freeman, J. (1975). Strategies in the multivariate analysis of data from
complex surveys, International Statistical Review 43: 59–78.
Lehtonen, R. y Pahkinen, E. (2004). Practical Methods for Design and Analysis of Complex
Surveys, Jhon Wiley Sons, Ltd.
Little, R. y Rubin, D. (2002). Statistical Analysis with Missing Data, Jhon Wiley Sons, Inc.
New Jersey.
Lumley, T. y Scott, A. (2014). Tests for regression models fitted to survey data, Australian
and New Zealand Journal of Statistics 56: 1–14.
Rao, J. y Scott, A. (1981). The analysis of categorical data from complex sample surveys:
Chi-squared tests for goodness of fit and independence in two-way tables, Journal of the
American Statistical Association 76: 221–230.
Rao, J. y Scott, A. (1984). On chi-squared tests for multiway contigency tables with pro-
portions estimated from survey data, Annals of Statistic 12: 46–60.
Rao, J. y Wu, C. (1988). Resampling inference with complex survey data, Journal of the
American Statistical Association 83: 231–241.
Thomas, D. y Rao, J. (1990). Small-sample comparison of level and power for simple
goodness-of-fit statistics under cluster sampling, Journal of the American Statistical As-
sociation 82: 630–636.
Thomas, D.R., S. A. y Roberts, G. (1996). Tests of independence on two- way tables under
cluster sampling: An evaluation, International Statistical Review 64: 295–311.
Tukey, J. W. (1958). Bias and confidence in not quite large samples, Annals of Mathematical
Statistics 29: 614.
Valliant, R. (1993). Post-stratification and conditional variance estimation, JASA 88: 89–96.
Valliant, R., Dever, J. y Kreuter, F. (2013). Practical Tools for Designing and Weighting
Survey Samples, Springer.
246 BIBLIOGRAFÍA
Resource Response Theory (RRT) enhances survey research by improving the reliability and validity of data gathered, especially in contexts involving sensitive questions or non-response issues. Computationally, RRT can be advantageous by allowing indirect questioning methods that can reduce the bias related to social desirability or fear of disclosure. This can lead to more honest responses and a higher accuracy of data collection. Moreover, RRT can simplify computational requirements by reducing the need for extensive post-survey adjustments, as well as potentially enhancing statistical power by increasing the effective sample size through better participation rates .
A stratified multistage sampling design offers several advantages when estimating total population variance, including improved precision of estimates and the ability to efficiently handle population heterogeneity. By stratifying the population, researchers ensure that important subgroups are proportionally represented, which helps in reducing error variances and obtaining more accurate variance estimates of the total population. The multistage approach also reduces costs and logistical complexity by limiting data collection to representative clusters. This approach can dynamically adjust for different population densities and characteristics, enhancing the accuracy and efficiency of the variance estimation process .
A multistage sampling method might be preferred over simple random sampling in large-scale surveys due to logistical and cost-efficiency benefits. Multistage sampling allows for the reduction of fieldwork by concentrating efforts in selected clusters, which minimizes travel and data collection costs. Additionally, it improves estimates' precision by allowing for stratification within clusters, addressing heterogeneity in large populations. This method also provides flexibility in sampling design, accommodating complex population structures and enabling more manageable portions of a population to be surveyed effectively .
In a cluster sampling context, the Horvitz-Thompson estimator ensures unbiased estimation of a total population by using inclusion probabilities for both the primary sampling units (PSUs) and any two units selected. Specifically, the total population estimate involves calculating a weighted sum of estimates from each cluster, where weights are the inverse probabilities of selecting each PSU. The estimator requires independence between sampling stages and that inclusion probabilities satisfy the condition that their sum equals the sample size for PSUs .
In stratified sampling, the overall population mean is estimated by weighting the sample means of each stratum by the proportion of the total population that the stratum represents. Specifically, the mean of each stratum is estimated using simple random sampling, and then these means are combined with weights reflecting the proportion of the population each stratum covers to ensure an overall unbiased estimator. The accuracy is ensured by the smaller variances within strata, as typically the variation is lower within a homogenous group, improving precision .
The variance estimator plays a critical role in ensuring the validity of sample-based population estimates by providing a measure of the estimate's precision. Specifically, it accounts for the variation inherent in the sample data due to the randomness of selection and sample size. For complex designs like stratified or cluster sampling, calculating correctly adjusted variance estimates is crucial because these designs often involve dependencies and differing probabilities of selection, which affect the precision of estimates. By accurately estimating variance, researchers can construct confidence intervals, perform hypothesis testing, and ensure reliable decision-making based on the sample data .
Confidence intervals for population proportions benefit from using stratified sampling designs, especially in heterogeneous populations, by achieving greater precision. Stratified sampling reduces variance within strata since each group is more homogenous than the entire population. This reduction in within-stratum variability translates to smaller standard errors for estimates, allowing for narrower confidence intervals than those obtained from simple random sampling of the entire population. Such precision ensures more reliable estimation of proportions, crucial when high accuracy and specific subgroup estimates are needed .
The main advantage of using the 'survey' package in R for complex sample analyses lies in its ability to link data to the design metadata automatically and reliably. This involves incorporating weights, probabilities of selection, and identifiers for the primary sampling units and strata. Functions like 'svydesign' and 'svrepdesign' facilitate this process by creating objects that include not only the data but also the design information. This ensures valid estimations with appropriate standard errors respecting the sampling design used .
The Satterthwaite approximation is significant in statistical analysis with complex samples because it provides an effective way to calculate degrees of freedom for hypothesis tests, particularly when sample sizes among strata are small or unequal. This approximation helps correct for the additional variability observed in complex sample designs, ensuring more accurate p-values and confidence intervals. By using the approximation, researchers can maintain the accuracy of inferential statistics, which is crucial when analyzing non-normally distributed data or data with unequal variances across groups .
Without-replacement sampling often results in lower variance estimates compared to with-replacement sampling because each unit's chance of selection decreases after its selection. However, it complicates the calculation of inclusion probabilities and can introduce bias if not managed correctly. With-replacement sampling simplifies probability calculations but may require larger sample sizes to achieve similar precision .