100% encontró este documento útil (2 votos)

2K vistas255 páginas

Notas de Técnicas de Muestreo: Luis Valdivieso Serrano

Este documento presenta notas sobre técnicas de muestreo. Explica que el autor, Luis Valdivieso Serrano del Departamento Académico de Ciencias de la Pontificia Universidad Católica del Perú, ha escrito este texto como material de apoyo para estudiantes de maestría en estadística. El texto introduce conceptos básicos de muestreo probabilístico y técnicas como muestreo aleatorio simple, estratificado y por conglomerados, con ejemplos de su implementación en R.

Cargado por

Christian Vallejos

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

100% encontró este documento útil (2 votos)

2K vistas255 páginas

Notas de Técnicas de Muestreo: Luis Valdivieso Serrano

Cargado por

Christian Vallejos

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

NOTAS DE

TÉCNICAS
DE MUESTREO
Luis Valdivieso Serrano

Departamento
Académico de Ciencias
NOTAS DE TÉCNICAS
DE MUESTREO
Luis Valdivieso Serrano

Departamento
Académico de Ciencias
Autor
Luis Valdivieso Serrano

@Ponti�icia Universidad Católica del Perú

Departamento Académico de Ciencias
Sección Matemáticas
Av. Universitaria 1801, San Miguel
Teléfono: 6262000
Correo electrónico: publicacionesdac@[Link]

Notas de Técnicas de Muestreo

Lima, Departamento Académico de Ciencias -
Sección Matemática, 2021

Diseño y diagramación: Elit León Atauqui

Calle Santa Francisca Romana 395, Lima
Teléfono: 6571260
[Link]@[Link]

Primera edición digital: diciembre de 2020

Segunda edición digital: octubre de 2021
[Link]
publicaciones/publicaciones-del-departamento/?q=0

ISBN: 978-612-47757-2-7
Hecho el Depósito Legal en la Biblioteca Nacional del Perú: 2021-11437

Derechos reservados, prohibida la reproducción de este libro por cualquier medio, total
o parcialmente, sin permiso expreso de los editores.
Presentación

Este texto, que fue inicialmente redactado como material de apoyo para los estudiantes
de la maestrı́a en Estadı́stica de la Pontificia Universidad Católica del Perú, ofrece una
introducción al estudio de las principales técnicas de muestreo probabilı́stico.
Si bien en la literatura existen varios textos clásicos sobre muestreo como el de Cochran
(1977), Mendenhall et al. (2007) y Lohr (2000) y más avanzados como el de Tillé (2006)
y Lumley (2010), falta todavı́a, a mi humilde opinión, un texto de nivel intermedio que
integre estos enfoques y que a su vez incluya más aplicaciones a datos reales de dominio p
úblico. Este texto, en su segunda edición corregida y aumentada, pretende cubrir tal vacı́o
presentando no solo las técnicas de muestreo probabilı́stico clásicas, sino también tópicos de
muestreo complejo y una implementación computacional que actúe transversalmente a lo
largo de los diferentes temas del curso. Para ello usaremos principalmente los paquetes survey
y sampling escritos en el software libre R. Información sobre estos se puede consultar,
respectivamente, en los siguientes enlaces:

[Link]

o en los textos de Lumley (2010) y Tillé (2006). Otra excelente referencia en el espı́ritu de
estas notas, y que incluye al paquete PracTools de R, es Valliant et al. (2013).
El texto está dividido en cinco capı́tulos. En el primer capı́tulo introducimos algunos
conceptos básicos de estadı́stica y ponemos énfasis en la diferencia que existe entre los en-
foques basados en el modelo y en el diseño. En el segundo capı́tulo presentamos la teorı́a
del muestreo aleatorio simple (MAS) e introducimos aquı́ no solo los conceptos teóricos per-
tinentes, sino también su implementación computacional y aplicación a datos reales. En el
tercer capı́tulo definimos el muestreo aleatorio estratificado como el agregado de un MAS
aplicado a subconjuntos relativamente homogéneos de la población, a los cuales denomina-
remos estratos. En el capı́tulo cuatro abordamos el muestreo por conglomerados, el cual es
quizás el esquema clásico más utilizado para grandes poblaciones. A diferencia del diseño
anterior, este esquema resulta ser más eficiente cuando los subconjuntos de la población (que
denominaremos conglomerados) muestran una marcada heterogeneidad en su interior pero
gran similitud entre ellos. Un tema central y unificador en este capı́tulo será el estudio de
los estimadores de Horvitz-Thompson para totales en diseños de conglomerados de una o
más etapas con probabilidades de selección no siempre constantes. De este se derivan casi
todos los esquemas anteriores, como el de conglomerados de una etapa y su caso particular
el muestreo sistemático. En el último capı́tulo nos dedicamos al estudio de muestras com-
plejas. Estas se originan cuando debido a la configuración y al tamaño de la población en
estudio se hace necesario restringir o combinar dos o más técnicas, ya sea que cada selección
se haga con igual probabilidad o no. Aquı́ nos interesará no solo obtener estimaciones pun-
tuales de los parámetros de interés, al expandir apropiadamente la muestra a la población,
sino fundamentalmente estimar la variabilidad de las estimaciones. Para ello discutiremos
diversas técnicas como la linealización y el remuestreo y nos apoyaremos, al igual que en los
capı́tulos anteriores, en los paquetes survey y sampling de R. Este capı́tulo brindará también
una introducción al análisis estadı́stico bajo muestras complejas. Como ilustración, veremos
aquı́ el análisis de datos categóricos, el de regresión y los contrastes de hipótesis para una,
dos o más poblaciones. El capı́tulo incluye algunos diseños muestrales y sus correspondiente
análisis para las bases de datos introducidas en el curso.
El texto se complementa con diversos ejercicios propuestos y algunas sugerencias o solu-
ciones a estos en un anexo final. Tales ejercicios son de nivel teórico y práctico y se usan, en
muchos de ellos, bases de datos de dominio público tanto locales como foráneas.

Dr. Luis Valdivieso

Índice general

1. Introducción 1
1.1. Enfoques basados en el diseño y el modelo . . . . . . . . . . . . . . . . . . . 1
1.2. Estimadores puntuales y por intervalos . . . . . . . . . . . . . . . . . . . . . 3
1.3. Distribuciones importantes asociadas al muestreo . . . . . . . . . . . . . . . 5
1.3.1. La distribución binomial . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3.2. La distribución multinomial . . . . . . . . . . . . . . . . . . . . . . . 6
1.3.3. La distribución hipergeométrica . . . . . . . . . . . . . . . . . . . . . 8
1.3.4. La distribución hipergeométrica multivariada . . . . . . . . . . . . . . 9
1.4. Esperanza, varianza y covarianza condicional . . . . . . . . . . . . . . . . . . 11
1.5. Selección de muestras al azar con y sin reemplazamiento . . . . . . . . . . . 13
1.6. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

2. Muestreo aleatorio simple 21

2.1. Muestreo con y sin reemplazamiento . . . . . . . . . . . . . . . . . . . . . . 21
2.2. Tamaños de muestra y errores de estimación . . . . . . . . . . . . . . . . . . 29
2.2.1. Tamaños de muestra para la estimación de una media y una proporción 29
2.2.2. Estimaciones previas . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.3. Aspectos computacionales y el paquete survey . . . . . . . . . . . . . . . . . 35
2.3.1. La base de datos api . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.3.2. La evaluación censal de estudiantes 2019 . . . . . . . . . . . . . . . . 39
2.3.3. El censo nacional de población penitenciaria 2016 . . . . . . . . . . . 42
2.3.4. La población peruana con DNI 2018 . . . . . . . . . . . . . . . . . . 46
2.4. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

3. Muestreo aleatorio estratificado 63

3.1. Introduccción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
3.2. Teorı́a del muestreo aleatorio estratificado . . . . . . . . . . . . . . . . . . . 63
3.3. Pesos de muestreo y efectos de diseño . . . . . . . . . . . . . . . . . . . . . . 65
3.4. Tamaños de muestra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
3.5. Dominios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

3
3.6. Uso del paquete survey . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
3.6.1. MAE con la base de datos api . . . . . . . . . . . . . . . . . . . . . . 75
3.6.2. MAE con la evaluación censal de estudiantes 2019 . . . . . . . . . . . 78
3.6.3. MAE para la población penitenciaria 2016 . . . . . . . . . . . . . . . 80
3.7. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

4. Muestreo por conglomerados 93

4.1. Teorı́a del muestreo por conglomerados . . . . . . . . . . . . . . . . . . . . . 94
4.2. Muestreo por conglomerados de una etapa . . . . . . . . . . . . . . . . . . . 95
4.3. El estimador de razón . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
4.4. Estimación de una proporción . . . . . . . . . . . . . . . . . . . . . . . . . . 99
4.5. Muestreo por conglomerado bietápico . . . . . . . . . . . . . . . . . . . . . . 101
4.6. La correlación intraclase y el efecto de diseño . . . . . . . . . . . . . . . . . . 103
4.7. Muestreo sistemático . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
4.8. Tamaños de muestra para diseños multietápicos . . . . . . . . . . . . . . . . 110
4.9. El estimador de Horvitz-Thompson . . . . . . . . . . . . . . . . . . . . . . . 112
4.10. Muestreo ppt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
4.11. Muestreo secuencial ppt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
4.12. Muestreo sin reemplazamiento con probabilidades desiguales . . . . . . . . . 123
4.12.1. El esquema de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . 124
4.12.2. El esquema sistemático ordenado . . . . . . . . . . . . . . . . . . . . 124
4.12.3. El esquema de Sampford . . . . . . . . . . . . . . . . . . . . . . . . . 125
4.12.4. Esquemas de división . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
4.13. Muestreo por conglomerados para la población api . . . . . . . . . . . . . . . 127
4.14. Diseño por conglomerados ppt para la población penal . . . . . . . . . . . . 130
4.15. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134

5. Una introducción al muestreo complejo 145

5.1. Pesos de muestreo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
5.1.1. Ajuste de pesos por no respuesta . . . . . . . . . . . . . . . . . . . . 148
5.1.2. Ajuste de pesos por elegibilidad desconocida . . . . . . . . . . . . . . 150
5.2. Estimadores no lineales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
5.3. Efectos de diseño y consideraciones prácticas para obtener tamaños de muestra156
5.4. Estimación de la varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159
5.4.1. El método de linealización . . . . . . . . . . . . . . . . . . . . . . . . 160
5.4.2. El estimador de razón y regresión . . . . . . . . . . . . . . . . . . . . 160
5.4.3. Métodos de remuestreo . . . . . . . . . . . . . . . . . . . . . . . . . . 162
5.4.4. El muestreo por mitades balanceado . . . . . . . . . . . . . . . . . . 163
5.4.5. El método Jackknife . . . . . . . . . . . . . . . . . . . . . . . . . . . 171
0

5.4.6. El método Bootstrap . . . . . . . . . . . . . . . . . . . . . . . . . . . 174

5.5. Una introducción al análisis estadı́stico con muestras complejas . . . . . . . . 176
5.5.1. Análisis de datos categóricos con muestras complejas . . . . . . . . . 177
5.5.2. Análisis de regresión . . . . . . . . . . . . . . . . . . . . . . . . . . . 182
5.5.3. Contrastes de medias para una, dos o más poblaciones. . . . . . . . . 197
5.6. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200

A. Sugerencias o respuestas a los ejercicios pares 209

Bibliografı́a 243
Capı́tulo 1

Introducción

1.1. Enfoques basados en el diseño y el modelo

Supongamos que un banco busca estimar el ahorro medio que las familias de un distrito
planifican para un mes. Sea y la variable (estadı́stica) que asigna a cada familia del distrito
este monto de ahorro en soles. Naturalmente, si aquı́ se hace un censo en el que se pregunte
y averigue (con fortuna) sobre los ahorros de las N familias del distrito, uno obtendrá N
números y1 , y2 , . . . , yN y el ahorro medio de interés será:
N
1
µN = yi .
N i=1
Desafortunadamente, el banco no puede hacer un censo, y por ello planifica realizar un
muestreo probabilı́stico seleccionando al azar, y por simplicidad con reemplazamiento, una
por una a las familias del padrón de la municipalidad hasta un número n < N . Note que
bajo este esquema toda familia tiene la misma probabilidad de ser escogida. Al término del
estudio, el banco obtendrá la muestra
Y1 , Y2 , . . . , Yn , (1.1)
donde Yi denota el valor (aleatorio) que podrı́a tomar la variable estadı́stica y en la i-
ésima selección de la muestra. Realizadas las observaciones, el ahorro medio mensual de
las familias del distrito podrá estimarse mediante la media aritmética de estos valores. Note
aquı́ que la aleatoriedad es introducida por el esquema de selección en el diseño de la muestra.
Ası́, podrı́amos escribir indistintamente la variable aleatoria correspondiente a la estimación
anterior como
n N
1 1
Ȳ = Yi o Ȳ = yi δ i , (1.2)
n i=1 n i=1
siendo δi una variable aleatoria con distribución binomial de parámetros n y probabilidad
1
N
que denota el número de veces que la i-ésima familia del distrito es seleccionada en la
muestra.

1
2 CAPÍTULO 1. INTRODUCCIÓN

Estadı́sticamente, (1.2) es un buen estimador de µN . Como podemos ver, su valor es-

perado o media es precisamente el parámetro que buscamos; es decir, Ȳ es un estimador
insesgado de µN :
N N N
1 1 n 1
E(Ȳ ) = yi E(δi ) = yi = yi = µN
n i=1 n i=1 N N i=1

El enfoque hasta aquı́ comentado se denomina enfoque basado en el diseño. Un lector

perspicaz podrı́a preguntarse por qué este difiere del esquema clásico de inferencia en el
que uno simplemente asume una distribución o “superpoblación” para el ahorro Y de las
familias del distrito, digamos normal con media µ y varianza σ 2 y, por tanto, estima µ (que
es la cantidad que el banco quiere) al tomarse una muestra aleatoria Y1 , Y2 , . . . , Yn de Y y
considerarse el estimador n
1
Ȳ = Yi .
n i=1
La respuesta a esta interrogante no es tan directa. El enfoque clásico comentado, que se basa
en el modelo normal, difiere del que se basa en el diseño en el sentido que los parámetros
poblacionales µ y µN son por naturaleza distintos, a menos que la población sea infinita y el
modelo esté bien especificado. En efecto, uno puede integrar ambos enfoques pensando que
si la población fuese hipotéticamente grande (N → ∞), entonces la distribución empı́rica de
los números y1 , y2 , . . . , yN (piense por simplicidad en el polı́gono de frecuencias relativas del
histograma de estos datos) deberı́a converger (si el modelo es correcto) hacia la curva normal.
Luego podrı́amos pensar en la colección dada por (1.1) como una muestra aleatoria de la
variable aleatoria Y . En la realidad, las poblaciones son finitas; por ello si el interés radica
en estudiar la variable y, uno podrı́a asumir que esta población es a su vez una muestra
representativa de la superpoblación.
Observe que en un modelo basado en el diseño, a diferencia que en el de su par basado
en el modelo, la distribución de Y es irrelevante, a menos que, como precisamos, uno tenga
interés y tenga sentido analizar cuestiones asintóticas. Desde un punto de vista práctico, el
enfoque basado en el diseño nos será más útil para estudiar poblaciones finitas; mientras
que el enfoque basado en el modelo lo será para el estudio de poblaciones infinitas o muy
grandes.
Resumiendo, en un enfoque basado en el diseño, la aleatoriedad es introducida por el
esquema de selección de las unidades en la muestra, y la población finita de tamaño N sobre
la que se mide una o más caracterı́sticas, como y, es fija e invariable. Por otro lado, en un
enfoque basado en el modelo, la aleatoriedad es introducida por el modelo de distribución
que se asigne a la variable de interés. Ası́, ella define una superpoblación con un número
muy grande o infinito de posibles valores para esta variable, y los valores que ella toma
en la población finita de tamaño N conforman tan solo un subconjunto que se espera sea
representativo de esta superpoblación.
1.2. ESTIMADORES PUNTUALES Y POR INTERVALOS 3

1.2. Estimadores puntuales y por intervalos

Al margen del enfoque o diseño muestral utilizado, existen tres caracterı́sticas primor-
diales que uno debe tomar en cuenta en todo estudio inferencial. Estas son: el tamaño de la
muestra que se utilizará, el nivel de confianza y el error de estimación. Todos estos conceptos
están ı́ntimamente ligados a la teorı́a de la estimación puntual y por intervalos, puntos que
revisamos brevemente antes de presentar los principales tipos de muestreo probabilı́stico.
Sea X una variable aleatoria (v.a.) cuya distribución depende de un parámetro pobla-
cional desconocido θ. Dada una muestra aleatoria (m.a.) de tamaño n de X; vale decir, una
colección X1 , X2 , . . . , Xn de n v.a. independientes y con la misma distribución que X, es
de interés obtener un estimador θ̂n = g(X1 , X2 , . . . , Xn ) de θ. Por definición, este estimador
puede ser cualquier estadı́stica (función de la m.a.), pero es claro que nos interesarán esti-
madores buenos en el sentido, que de observarse la muestra, podamos garantizar que el valor
observado g(x1 , x2 , . . . , xn ) de θ̂n , al que llamaremos una estimación, se ubique cerca a θ.
Dado que no conocemos θ, esta cercanı́a debe evaluarse por métodos probabilı́sticos. En ge-
neral, un buen estimador, θ̂n de θ, debe verificar en lo posible las siguientes tres propiedades
básicas:
θ̂n debe ser un estimador insesgado; i.e, E(θ̂n ) = θ

θ̂n debe ser eficiente; i.e, debe tener varianza pequeña, por lo usual mı́nima bajo una
clase de estimadores insesgados
P
θ̂n debe ser consistente; i.e, θ̂n → θ, conforme n → ∞
Si bien el error estándar de estimación de θ̂n , definido como la desviación estándar de θ̂n ,
podrı́a resumir la calidad del estimador, la estimación puntual no nos brinda información
de cuán cerca o lejos se pueda encontrar la estimación de θ̂n de θ. Por tal motivo, surge la
llamada estimación por intervalos.
Un intervalo de confianza (IC) al 100(1 − α) % para un parámetro poblacional θ de una
v.a. X es un intervalo con estadı́sticas L1 y L2 en sus extremos (IC = [L1 , L2 ]), tal que
P (L1 ≤ θ ≤ L2 ) = 1 − α.
Una técnica para obtener un IC es utilizar alguna variable pivote de distribución conocida
que dependa de la m.a. y de solo θ como valor desconocido. Por ejemplo, si deseamos estimar
la media de una v.a. X ∼ N (µ, σ 2 ) con varianza conocida, podrı́amos utilizar como variable
pivote a
X̄ − µ
Z= √ ∼ N (0, 1).
σ/ n
Tomando luego dos valors de esta v.a., cuyas áreas en las colas sean iguales a α2 (¿por qué?),
obtendremos el siguiente intervalo de confianza al 100(1 − α) % para µ:
σ σ
IC = [X̄ − z1− α2 √ , X̄ + z1− α2 √ ] .
n n
4 CAPÍTULO 1. INTRODUCCIÓN

Cabe destacar que, gracias al teorema del lı́mite central (TLC), este IC es aún válido para
la media de cualquier distribución, siempre que n sea lo suficientemente grande y se tenga,
de no conocerse σ, una estimación consistente de esta desviación estándar.
Otro parámetro recurrente en diversas aplicaciones lo constituye la proporción p de ele-
mentos en la población que comparten cierta caracterı́stica. A fin de obtener un intervalo de
confianza aproximado al 100(1 − α) % para p, tomemos al azar n elementos de la población
fı́sica y consideremos las v.a. Xi definidas como 1 si es que en la i-ésima selección se en-
cuentra un elemento con la caracterı́stica buscada y como 0 en caso contrario. Note que los
elementos de esta muestra solo podrán garantizarse distintos si es que la muestra se toma sin
reemplazamiento. Esto ocasiona que las variables X1 , X2 , . . . , Xn no sean más independien-
tes; sin embargo, si el tamaño N de la población es grande o infinito, se podrı́a garantizar
una casi independencia (veremos un tratamiento más formal en el capı́tulo 2). En la prácti-
ca, si N es grande, estas variables se consideran independientes, por lo que la distribución

de X = ni=1 Xi , que representa al número de elementos en la muestra que comparten la
caracterı́stica buscada, puede asumirse que tiene aproximadamente una distribución bino-
mial de parámetros n y p. Más aún, si n es grande, podremos utilizar la aproximación de la
distribución binomial por la normal y usar:
X − np p̄ − p
Z= = ∼ N (0, 1),
np(1 − p) p(1−p)
n
X
con p̄ = n
,
como variable pivote para la construcción del IC para p. En efecto, tomando
simétricamente valores −z1− α2 y z1− α2 en la tabla normal estándar, podemos afirmar que
p̄ − p
P (−z1− α2 ≤ ≤ z1− α2 ) = 1 − α.
p(1−p)
n

Con el fin de despejar p en esta expresión, podemos considerar la probabilidad equivalente

p̄ − p 2 2
P (| | ≤ z1− α) = 1 − α
p(1−p) 2

n
o
2 2
z1− α z1− α
P (p2 (1 + 2
) − p(2p̄ + 2
) + p̄2 ≤ 0) = 1 − α.
n n
Esta probabilidad puede escribirse como
P ((p − p1 )(p − p2 ) ≤ 0) = 1 − α,
donde p1 y p2 constituyen las raı́ces de la ecuación cuadrática asociada a la inecuación
anterior, las cuales vienen explı́citamente dadas por

2
z1− 2
z1− 2
z1− 2
z1− 4
z1−
α α α α z1− α α
2p̄ + n
2
− (2p̄ + n
2
)2 − 4p̄2 (1 + n
2
) p̄ + 2n
2
− √ 2
n
p̄(1 − p̄) + n2
2

p1 = 2
z1−
= 2
z1−
α α
2(1 + n
2
) 1+ n
2
1.3. DISTRIBUCIONES IMPORTANTES ASOCIADAS AL MUESTREO 5

y

2
z1− 2
z1− 2
z1− 2
z1− 4
z1−
α α α α z1− α α
2p̄ + n
2
+ (2p̄ + n
2
)2 − 4p̄2 (1 + n
2
) p̄ + 2n
2
+ √ 2
n
p̄(1 − p̄) + n2
2

p2 = 2
z1−
= 2
z1−
.
α α
2(1 + n
2
) 1+ n
2

Del análisis de los signos de la inecuación al interior de la probabilidad anterior se sigue que

P (p1 ≤ p ≤ p2 ) = 1 − α

y, por tanto, [p1 , p2 ] es un intervalo de confianza al 100(1−α) % para p . Este se conoce como
2
z1− α
el intervalo de Wilson. Si, por otro lado, para simplificar despreciamos aquı́ al término n 2 ,
por ser este pequeño cuando n es grande, obtendremos para p el IC = [p1 , p2 ] al 100(1− α) %
siguiente:
p̄(1 − p̄) p̄(1 − p̄)
IC = [p̄ − z1− α2 , p̄ + z1− α2 ].
n n
Este se conoce como el intervalo de Wald para p.

1.3. Distribuciones importantes asociadas al muestreo

Aparte de la muy conocida distribución normal, en el curso requeriremos las formas tanto
univariadas como multivariadas de las distribuciones binomial e hipergeométrica. Estas las
asociaremos luego al contexto de los muestreos con y sin reemplazamiento, respectivamente.

1.3.1. La distribución binomial

Consideremos un experimento aleatorio sencillo, llamado de Bernoulli, que tiene solo dos
posibles resultados: E (de éxito) y F (de fracaso). Sea p = P (E) la probabilidad de que
ocurra un éxito. Si repetimos este experimento n veces de manera independiente y definimos
la variable aleatoria

X = Número de éxitos en los n experimentos independientes de Bernoulli,

entonces diremos que X es una v.a. con distribución binomial de parámetros n y p, y la

denotaremos por X ∼ B(n, p).

Proposición 1.1. Si X ∼ B(n, p), entonces:

a) La función de probabilidad de X viene dada por

Cxn px (1 − p)n−x si x = 0, 1, 2, ..., n
PX (x) = P (X = x) =
0 en otro caso
6 CAPÍTULO 1. INTRODUCCIÓN

b) E(X) = np

c) V (X) = np(1 − p)

Demostración: a) Note que el conjunto de posibles valores que X pueda tomar (rango de
X) es RX = {0, 1, 2, · · · , n}, ya que puede ocurrir que nunca se presente el éxito, en cuyo
caso X valdrá 0; ocurra una sola vez, en cuyo caso X valdrá 1, y ası́ sucesivamente hasta
el caso extremo en que el éxito siempre esté presente, en cuyo caso X será n. Ahora bien,
que el éxito se presente en x oportunidades especı́ficas y que el fracaso ocurra en los (n − x)
experimentos restantes tiene la siguiente probabilidad:

x términos (n − x) términos

(p.p. · · · .p) (1 − p)(1 − p) · · · (1 − p) = px (1 − p)n−x .

Dado que en total hay Cxn casos como este (piense en el número total de x posiciones que
se podrı́an escoger de las n para que en ellas ocurra el éxito), se tiene que P (X = x) =
Cxn px (1 − p)n−x , siendo x un valor cualesquiera de RX = {0, 1, 2, · · · , n}.
b) Haciendo en la sumatoria de abajo el cambio de variable k = x − 1, se tiene que
n
n

E(X) = xCxn px (1 − p)n−x = n n−1 x
Cx−1 p (1 − p)n−x
x=0 x=1

n−1

= np Ckn−1 pk (1 − p)n−1−k = np(p + 1 − p)n−1 = np.
k=0

c) De manera similar, se cumple que

n
n−1

E(X 2 ) = x2 Cxn px (1 − p)n−x = np (k + 1)Ckn−1 pk (1 − p)n−1−k
x=0 k=0

= np((n − 1)p + 1) = n(n − 1)p2 + np.

Por tanto, V (X) = E(X 2 ) − E(X)2 = n2 p2 − np2 + np − n2 p2 = np(1 − p).

1.3.2. La distribución multinomial

Esta es la extensión multivariada de la distribución anterior. Para describirla, conside-
remos un experimento aleatorio cuyos resultados pueden caer en cualquiera de k categorı́as
excluyentes y exhaustivas C1 , C2 , . . . , Ck , con probabilidades respectivas p1 , p2 , . . . , pk que

satisfacen ki=1 pi = 1. Si este experimento se repite de manera independiente n veces y se
definen las variables aleatorias

Xi = número de veces en que ocurre la categorı́a Ci , i = 1, 2, . . . , k,

1.3. DISTRIBUCIONES IMPORTANTES ASOCIADAS AL MUESTREO 7

entonces se dice que el vector aleatorio (X1 , X2 , . . . , Xk ) tiene distribución multinomial de

parámetros n, p1 , p2 , . . . , pk y se le denota por (X1 , X2 , . . . , Xk ) ∼ M ul(n; p1 , p2 , . . . , pk ).
Detallamos seguidamente algunas de las propiedades de esta distribución.

Proposición 1.2. Si (X1 , X2 , . . . , Xk ) ∼ M ul(n; p1 , p2 , . . . , pk ), entonces:

a) La función de probabilidad (conjunta) de este vector viene dada por

n!
px1 px2 . . . pxk k si (x1 , x2 , . . . , xk ) ∈ R
x1 !x2 !...xk ! 1 2
P (X1 = x1 , X2 = x2 , . . . , Xk = xk ) =
0 en caso contrario
k
donde R = {(n1 , n2 , . . . , nk ) ∈ {0, 1, . . . , n}k / i=1 ni = n} denota rango del vector

b) Xi ∼ B(n, p), ∀i = 1, 2, . . . , k

c) Cov(Xi , Xj ) = −npi pj , ∀i = j ∈ {1, 2, . . . , k}

Demostración: a) La probabilidad de que en las primeras x1 repeticiones ocurra C1 , en las

siguientes x2 repeticiones ocurra C2 y ası́ sucesivamente hasta que en las últimas xk re-
peticiones ocurra Ck es por la independencia px1 1 px2 2 . . . pxk k . Sin embargo, estas ocurrencias
podrı́an darse de otras formas en términos del orden de ocurrencia de cada categorı́a. Todas
las ordenaciones posibles de los n experimentos en donde x1 serán de tipo C1 , y ası́ sucesi-
vamente hasta xk del tipo Ck , vienen dadas por x1 !x2n!!...xk ! . Por tanto, la probabilidad pedida
viene dada por la fórmula en a).
b) Basta notar que los experimentos que generan la multinomial podrı́an redefinirse como
experimentos de Bernoulli. En efecto, si llamamos éxito a que ocurra la categorı́a Ci y fracaso
a que ocurra cualquier otra categorı́a, el número de éxitos en las n repeticiones independientes
tiene distribución binomial de parámetros n y pi . Ella será entonces la distribución marginal
de la v.a. Xi .
c) Basta notar que de juntar en una a las categorı́as Ci y Cj , con i = j, se tiene que

Xi + Xj ∼ B(n, pi + pj ).

Ası́,
n(pi + pj )(1 − pi − pj ) = V (Xi + Xj ) = V (Xi ) + V (Xj ) + 2Cov(Xi , Xj )

npi (1 − pi ) + npj (1 − pj ) + 2Cov(Xi , Xj ).

Un despeje directo en esta ecuación nos lleva a que Cov(Xi , Xj ) = −npi pj .

Cabe comentar que las variables aleatorias δi definidas en (1.2), que denotan el número
de veces en que la i-ésima unidad de la población fı́sica de tamaño N es seleccionada en
una muestra al azar y con reemplazamiento de tamaño n, son todas v.a. con distribución
8 CAPÍTULO 1. INTRODUCCIÓN

B(n, N1 ). Más aún, si se tuviera interés en las frecuencias de selección de los elementos i = j
de la población, entonces no es difı́cil verificar que
1 1 2
(δi , δj , δ0 ) ∼ M ul(n; , , 1 − ),
N N N
donde δ0 denota la frecuencia de selecciones de otras unidades distintas a i y j. Note que
estas v.a. no son independientes, desde que, por ejemplo:
P (δi = x, δj = y, δ0 = n − x − y) 1 1
P (δj = y | δi = x) = = Cyn−x ( )y (1 − )n−y
P (δi = x) N −1 N −1
1 y 1
= Cyn (
) (1 − )n−y = P (δj = y), ∀x, y ∈ {0, 1, . . . , n} con x + y ≤ n.
N N
De manera general se cumple que
1 1 1
(δ1 , δ2 , . . . , δN ) ∼ M ul(n; , , . . . , ).
N N N

1.3.3. La distribución hipergeométrica

Considere una población de N elementos, M de los cuales son de tipo A, y supongamos
que se extrae al azar y sin reemplazamiento una muestra de n elementos de esta población.
Si definimos
X = Número de elementos de tipo A en la muestra,
entonces se dice que X es una v.a. con distribución hipergeométrica de parámetros N , M y
n y se le denota por X ∼ H(N, M, n).

Proposición 1.3. Si X ∼ H(N, M, n), entonces:

a) La función de probabilidad de X viene dada por

M N −M
Cx Cn−x
N si x = 0, 1, 2, ..., n
PX (x) = P (X = x) = Cn
0 en otro caso,

donde se conviene que Cab = 0, si a > b

b) E(X) = n M
N

−n
c) V (X) = n M
N
(1 − M
N
)( N
N −1
)

Demostración: a) Supongamos, sin pérdida de generalidad, que N − M < n < M (analice

como ejercicio los otros casos) y consideremos un elemento cualesquiera x de su rango RX , el
cual por las condiciones dadas serı́a RX = {0, 1, 2, . . . , n}. Sea x un elemento cualquiera de
RX , entonces el evento (X = x) = {ω ∈ Ω / X(ω) = x}, donde Ω denota espacio muestral
conformado por todas las muestras o subconjuntos de n elementos que podrı́amos tomar de
1.3. DISTRIBUCIONES IMPORTANTES ASOCIADAS AL MUESTREO 9

los N de la población, ocurre si y sólo si en la muestra x elementos poseen la caracterı́stica

A y n − x no la poseen. Dado que cualquier subconjunto de tamaño n de la población tiene la
misma probabilidad de ser seleccionado en la muestra, podrı́amos aplicar la definición clásica
de probabilidad y escribir
n(X = x)
PX (x) = P (X = x) = .
n(Ω)
N −M
Por tanto, n(Ω) = CnN y por el principio de multiplicación n(X = x) = CxM Cn−x (pues, en
la muestra, primero debemos seleccionar x de los M elementos que tienen la caracterı́stica
C M C N −M
A y luego n − x de los N − M que tienen la caracterı́stica Ac ). Ası́, PX (x) = x C Nn−x .
n
b) Mostraremos solo b) y dejaremos como ejercicio c), el cual podrı́a obtenerse con un
procedimiento análogo. Como en la proposición anterior, asumiremos, sin pérdida de gene-
ralidad, que para n ≥ 2 (si n = 1 el resultado es directo) se cumple que N − M < n < M .
Dado x ∈ RX = {0, 1, 2, . . . , n}, el siguiente resultado directo de combinatorias nos será de
utilidad:
M! M (M − 1)! M −1
xCxM = x = = M Cx−1 , si x > 0.
(M − x)!x(x − 1)! (M − x)!(x − 1)!
Luego, al hacer en la sumatoria de abajo el cambio de variable k = x − 1, se tiene que
n N −M n M −1 N −M
C M Cn−x Cx−1 Cn−x
E(X) = x x N =M
x=0
Cn x=1
CnN

n−1
M M −1 CkM −1 Cn−1−k
N −M
M M −1 M
= C = N Cn−1 =n ,
CnN n−1 k=0 M −1
Cn−1 Cn N
donde la última suma en la ecuación anterior es 1, pues se está sumando allı́ la función de
probabilidad de una v.a. con distribución H(N − 1, M − 1, n − 1).

1.3.4. La distribución hipergeométrica multivariada

Esta es la extensión multivariada de la distribución anterior. Aquı́, en lugar de estar la
población de tamaño N dividida en dos clases (A y Ac ), esta se particiona en k clases, a las
que denotaremos por C1 , C2 , . . . , Ck . Cada clase Ci posee Mi elementos, de tal manera que
N = M1 + M2 + . . . + Mk . Si seleccionamos ahora al azar y sin reemplazamiento n elementos
de esta población y definimos las variables aleatorias

Xi = número de elementos de la clase Ci seleccionados en la muestra, i = 1, 2, . . . , k,

entonces se dice que el vector aleatorio (X1 , X2 , . . . , Xk ) tiene distribución hipergeométri-

ca multivariada de parámetros n, M1 , M2 , . . . , Mk y se le denota por (X1 , X2 , . . . , Xk ) ∼
Hmul(n; M1 , M2 , . . . , Mk ).
10 CAPÍTULO 1. INTRODUCCIÓN

Proposición 1.4. Si (X1 , X2 , . . . , Xk ) ∼ Hmul(n; M1 , M2 , . . . , Mk ), entonces:

a) La función de probabilidad (conjunta) de este vector viene dada por

CxM1 1 CxM2 2 . . . CxMkk

P (X1 = x1 , X2 = x2 , . . . , Xk = xk ) = ,
CnN

donde algunas de las combinatorias Cab = 0 arriba son nulas si a > b

b) Xi ∼ H(N, Mi , n), ∀i = 1, 2, . . . , k
nMi Mj N −n
c) Cov(Xi , Xj ) = − N2
( N −1 ), ∀i = j ∈ {1, 2, . . . , k}

d) Si la muestra fuera tomada con reemplazamiento,

M1 M2 Mk
(X1 , X2 , . . . , Xk ) ∼ M ul(n; , ,..., )
N N N

Demostración: a) El espacio muestral asociado a esta selección está constituido por todos
los conjuntos de n elementos que se pueden formar con los N y, por tanto, tiene CnN ele-
mentos. El evento de interés tiene, por otro lado, en base al principio de multiplicación,
CxM1 1 CxM2 2 . . . CxMkk elementos. Ası́, por la definición clásica, la probabilidad pedida es el co-
ciente de estas cantidades.
b) Basta observar que de segmentarse la problación en solo dos clases: la clase Ai de Mi
elementos y la clase Aci de N − Mi elementos, entonces Xi ∼ H(N, Mi , n).
c) Como en el multinomial, si juntamos juntamos dos categorı́as Ai y Aj (con i = j) en una
sola, se tendrá que Xi + Xj ∼ H(N, Mi + Mj , n). Ası́,

M i + Mj M i + Mj N − n
n( )(1 − )( ) = V (Xi + Xj )
N N N −1

Mi Mi N − n Mj Mj N − n
= n( )(1 − )( ) + n( )(1 − )( ) + 2Cov(Xi , Xj ).
N N N −1 N N N −1
−n nM M
Un despeje directo en esta ecuación nos lleva a que Cov(Xi , Xj ) = − Ni2 j ( N N −1
).
d) Si se admitiera reemplazamiento, cada selección generarı́a un experimento con k posibles
resultados, siendo pi = M N
i
la probabilidad de que en el i-ésimo experimento se obtenga un
elemento de la categorı́a Ci . Además, dada la independencia de estos experimentos por el
reemplazo, el vector aleatorio (X1 , X2 , . . . , Xk ) que cuenta las veces que ocurren cada una de
estas k categorı́as en los n experimentos tendrá la distribución multinomial descrita.

Por último, note que las v.a. δi discutidas en (1.2) tienen una naturaleza completamente
distinta si la muestra se toma sin reemplazamiento. En efecto, si esta fuera la situación y
se tuviera interés en la selección, por decir, de las unidades i = j de la población fı́sica,
1.4. ESPERANZA, VARIANZA Y COVARIANZA CONDICIONAL 11

entonces para la distribución conjunta del vector (δi , δj , δ0 ), que denota respectivamente a
las frecuencias de selección de las unidades i, j u otras en la muestra, se cumplirı́a que

(δi , δj , δ0 ) ∼ Hmul(n; 1, 1, N − 2).

Aprecie que las v.a. δi y δj de este vector están ahora restringidas a tomar solo dos valores
(0 o 1) y no son independientes desde que

P (δi = 1, δj = 1, δ0 = n − 2) n−1 n
P (δj = 1 | δi = 1) = = = = P (δj = 1),
P (δi = 1) N −1 N

ya que marginalmente δj ∼ H(N, 1, n). En general, se cumplirá que

(δ1 , δ2 , . . . , δN ) ∼ HM ul(n; 1, 1, . . . , 1).

1.4. Esperanza, varianza y covarianza condicional

Discutiremos seguidamente una propiedad recurrente en varias aplicaciones del curso.
Esta se refiere al cálculo indirecto de la media, varianza y covarianza mediante el condicio-
namiento de las variables de interés a un vector aleatorio Z.

Proposición 1.5. Si X, Y son dos v.a. con varianza finita y Z es un vector aleatorio,
entonces:
E(X) = E (E(X | Z))
y
Cov(X, Y ) = E (Cov(X, Y | Z)) + Cov (E(X | Z), E(Y | Z)) .
En particular,
V (X) = E (V (X | Z)) + V (E(X | Z)) .
Demostración: Para probar la primera afirmación asumamos, sin pérdida de generalidad, que
Z es un vector aleatorio discreto (que es el caso más recurrente en el muestreo). Entonces,
sumando sobre todo valor posible del vector aleatorio Z, se tiene que

E (E(X | Z)) = E(X | Z = z)P (Z = z) = xP (X = x | Z = z)P (Z = z)
z z x∈RX

= xP (X = x, Z = z) = x P (X = x, Z = z) = xP (X = x) = E(X).
z x∈RX x∈RX z x∈RX

En relación con la covarianza, podrı́amos usar el resultado anterior y escribir

E (Cov(X, Y | Z)) = E (E(XY | Z) − E(X | Z)E(Y | Z))

= E(XY ) − E (E(X | Z)E(Y | Z))

12 CAPÍTULO 1. INTRODUCCIÓN

Caja (i) 1 2 3 4 5 6
Número de artı́culos (Ni ) 60 43 97 80 120 100
Número de defectos (Mi ) 5 4 6 5 15 10

Si para estimar la proporción de defectos en este almacén usted selecciona al azar una caja
y extrae aleatoriamente y sin reemplazamiento un 20 % de sus artı́culos,

a) ¿Define tal procedimiento un estimador insesgado de la proporción buscada?

b) Obtenga la varianza del estimador propuesto.

Solución: a) Denotemos por δi a la variable indicadora que nos dice si la caja i ha sido
(δi = 1) o no (δi = 0) seleccionada. Entonces, (δ1 , δ2 , δ3 , δ4 , δ5 , δ6 ) ∼ M ul(1; 16 , 16 , 16 , 16 , 16 , 16 ).

El estimador propuesto se puede escribir luego como p̂ = 6i=1 p̄i δi , donde p̄i = X ni
i
denota la
proporción muestral de defectos en la caja i; Xi ∼ H(Ni , Mi , ni ) denota el número de defectos
en la muestra de la caja i, y ni es el tamaño de muestra para la caja i, el cual es igual al 20 %
de Ni o a su entero superior, pensando como es racional que se desean minimizar costos.
Para el insesgamiento usaremos, tal como se ilustra seguidamente, la proposición 1.5:
6
6
6
E(Xi ) Mi 1
E(p̂) = E (E(p̂ | δ1 , δ2 , . . . , δ6 )) = E( δi ) = E(δi ) = pi ,
i=1
ni i=1
Ni 6 i=1
Mi
siendo pi = Ni
la proporción de defectos en la caja i. Dado que en general
6 6
1 Mi Mi
E(p̂) = i=1
= 6 = p,
6 i=1 Ni i=1 Ni

p̂ no es un estimador insesgado de p.
Note que si conociéramos la distribución dada para este ejemplo (lo cual probablemente
no ocurra y por eso se hace el muestreo), se tendrı́a que E(p̂) = 0.0876, valor que difiere de
la verdadera proporción de defectos en el almacén que es de p = 0.09.
b) Por la proposición 1.5, V (p̂) = E (V (p̂ | δ1 , . . . , δ6 )) + V (E(p̂ | δ1 , . . . , δ6 )). Como las
muestras en cada caja se pueden asumir independientes, se tendrá que
6
6
1 Mi Mi Ni − ni 2
V (p̂ | δ1 , . . . , δ6 ) = V (p̄i )δi2 = (1 − )( )δ ,
i=1 i=1
n i N i Ni Ni − 1 i
1.5. SELECCIÓN DE MUESTRAS AL AZAR CON Y SIN REEMPLAZAMIENTO 13

y ası́
6 6
1 1 Mi Mi Ni − ni 1 1 pi (1 − pi )(Ni − ni )
E (V (p̂ | δ1 , . . . , δ6 )) = (1 − )( )= .
6 i=1 ni Ni Ni Ni − 1 6 i=1 ni ni (Ni − 1)
6
Por otro lado, como E(p̂ | δ1 , . . . , δ6 ) = i=1 pi δi , se tiene que
6
6
6 6 6 6
5 2 1
V (E(p̂ | δ1 , . . . , δ6 )) = p2i V (δi ) + pi pj Cov(δi , δj ) = pi − pi pj .
i=1 i=1 j=1
36 i=1 36 i=1 j=1
i=j i=j

Por tanto, la varianza pedida viene dada por

6 6 6 6
1 1 pi (1 − pi )(Ni − ni ) 5 2 1
V (p̂) = + pi − pi pj .
6 i=1 ni ni (Ni − 1) 36 i=1 36 i=1 j=1
j=i

En el caso que se conociera la distribución en el almacén, esta varianza podrı́a evaluarse y

vendrı́a dada por V (p̂) = 0.004711247.

1.5. Selección de muestras al azar con y sin reempla-

zamiento
A lo largo del curso exploraremos diferentes librerı́as en R que nos permitirán no solo
tomar muestras complejas, sino también analizarlas. En esta sección veremos las dos formas
más básicas de seleccionar una muestra: las de tomarlas al azar con y sin reemplazamiento
y en las que todos los elementos tendrán la misma probabilidad de selección. En adelante, a
todo procedimiento de selección lo denominaremos un algoritmo de muestreo.
El algoritmo de muestreo con reemplazamiento es directo y se realiza utilizando la función
de distribución empı́rica asociada a la selección de los elementos de una población fı́sica
P = {1, 2, . . . , N }:
i
F̂ (i) = .
N
Aquı́ basta generar de manera independiente n números aleatorios de una distribución uni-
forme en el intervalo [0, 1], u1 , u2 , . . . , un y seleccionar las n unidades i1 , i2 , . . . , in en P
mediante
ik = mı́n{i ∈ P /F̂ (i) ≥ uk }, ∀k = 1, 2, . . . , n.

En un muestreo sin reemplazamiento, el procedimiento anterior no es tan directo, pues la

no restitución de los elementos previamente tomados modifica la función de distribución
empı́rica asociada a la selección de los elementos de la población fı́sica, la cual se va también
14 CAPÍTULO 1. INTRODUCCIÓN

modificando. Una manera de realizar esto es procediendo de forma secuencial; es decir, em-
pezando por generar independientemente n números aleatorios u1 , u2 , . . . , un en el intervalo
[0, 1] y obteniendo, como antes, el primer elemento de la muestra mediante

i1 = mı́n{i ∈ P /F̂ (i) ≥ u1 }.

Una vez seleccionado el k-ésimo elemento, ik , el siguiente a incluir será

o(i)
ik+1 = mı́n{i ∈ P \ {i1 , i2 , . . . , ik } / ≥ uk+1 }, ∀k = 1, 2, . . . , n − 1,
N −k
donde o(i) denota la posición ordinal que la unidad i ocupa en el conjunto P \ {i1 , i2 , . . . , ik }.
El proceso se repetirá luego hasta obtenerse in .
Otro algoritmo de muestreo sin reemplazamiento es el enumerativo. Este consiste en
etiquetar cada una de las CnN muestras posibles, seleccionar al azar un número aleatorio
u ∈ [0, 1] y escoger la muestra cuya etiqueta k dividida entre N sea la primera en superar a
u.
Como se aprecia, los procedimientos anteriores pueden resultar engorrosos, sobre todo si la
muestra es sin reemplazamiento. Afortunadamente, se dispone en R del comando sample,el
cual nos permite seleccionar muestras de manera directa. La sintaxis de este comando es

m = sample(x, size, replace, prob),

donde x denota un vector con los valores de alguna variable de interés que se evaluó en
cada elemento de la población; size es el tamaño de muestra; replace es TRUE o FALSE,
dependiendo si la muestra es con o sin reemplazamiento, respectivamente (argumento que
por defecto es sin reemplazamiento), y prob es un vector con las probabilidades de selección
para cada elemento en x (argumento opcional que por defecto asume que todos los elementos
en la población tienen la misma probabilidad de selección). Si los valores de la variable en x
no son de interés, sino que solo deseamos elegir n elementos de esta, el primer argumento de
esta función puede también ser N , que es el tamaño de la población. Si escribimos en R

[Link](12345)
(m = sample(80, 10))

## [1] 58 70 60 69 35 13 25 38 53 71

m es un vector cuyas componentes corresponden a los elementos seleccionados en P =

{1, 2, . . . , 80} mediante un muestreo al azar y sin reemplazamiento de tamaño 10. Cabe
aclarar que estamos fijando en la primera lı́nea de comandos una semilla aleatoria. Esta
será la misma semilla que usaremos, en lo posible, a lo largo del texto con el fin de garantizar
que nuestros resultados sean replicables por parte del lector. Por otro lado, los paréntesis en
la segunda lı́nea de comandos indican que este resultado se mostrará en pantalla.
1.6. EJERCICIOS 15

1.6. Ejercicios
1. Obtenga los intervalos de confianza de Wald y Wilson al 95 % para la proporción p de
defectos de los artı́culos de una lı́nea continua de producción, si al seleccionarse al azar 100
artı́culos de esta lı́nea se encontraron 4 artı́culos defectuosos.

2. Juan, Pepe, Rosa, Luis y Marı́a participan en un sorteo donde se han de repartir entre
ellos 4 vales de 50 soles cada uno.
a) Si Juan desea ganar algo, ¿qué le convendrı́a más: un sorteo con o sin reemplazamiento?
b) Si la selección se hace con reemplazamiento, ¿qué probabilidad hay de que Juan gane 1
vale y Rosa 2? ¿Es esta probabilidad la misma a que Juan gane los cuatro vales?
c) Bajo reemplazamiento, ¿con qué probabilidad solo Rosa y Luis ganarán vales?
d) Halle, en el caso de que el sorteo se haga con reemplazamiento, el monto que esperará ob-
tener Juan en el sorteo.

3. a) Sea X una variable aleatoria con distribución binomial de parámetros N y p, y supon-

gamos que la distribución condicional de una v.a. Y , dado que X = x, es hipergeométrica
con Y |X=x ∼ H(N, x, n). Demuestre que Y ∼ B(n, p).
b) Suponga que en un estudio sobre la prevalencia de una enfermedad (proporción p de
personas que la padecen) se piensa tomar una muestra al azar y con reemplazamiento de
tamaño 420. Un estadı́stico opina que esto es excesivo, pues conocer si las personas tienen
o no la enfermedad implicará aplicar una prueba cara y de logı́stica algo complicada. Dado
que ya se han enviado cartas a las personas seleccionadas, el estadı́stico suguiere tomar más
bien un muestreo al azar y sin reemplazamiento de tamaño 80 de la población inicialmente
contactada. Si se acepta la sugerencia del estadı́stico y si p es 0.1, ¿con qué probabilidad se
encontrará en la muestra más de 5 personas que padezcan la enfermedad?

4. La producción diaria de una fábrica, que es de 200 artı́culos, contiene 12 artı́culos con
un defecto de tipo A y 8 artı́culos con un defecto de tipo B. Si usted adquiere al azar y
sin reemplazamiento 20 de estos artı́culos y sabe que cada artı́culo bueno le reportará una
utilidad de 25 soles; mientras que cada artı́culo con defectos de tipo A y B le reportará una
pérdida de 5 y 10 soles, respectivamente,
a) ¿Con qué probabilidad obtendrá una utilidad de 400 soles al vender los 20 artı́culos?
b) Halle el valor esperado y la desviación estándar de la utilidad de venta de los 20 artı́culos.

5. En un experimento se colocan, uno a uno, 20 ratones en una caja con 8 puertas idénticas.
Dos de las puertas conducen a un premio; una a un castigo, y las otras son neutras. Sean
XP , XC y XN el número de estos ratones que eligen la puerta con premio, castigo y neutra,
respectivamente, en su primer intento.
a) ¿Cuál es la distribución conjunta de estas variables aleatorias?
b) Halle e interprete la correlación de Pearson entre XP y XN .
16 CAPÍTULO 1. INTRODUCCIÓN

6. Dos encuestadoras han seleccionado al azar y sin reemplazamiento muestras de tamaños

20 y 10 en una población de 50 personas. Halle la función de probabilidad, valor esperado y
varianza del número de personas que serán entrevistadas por ambas encuestadoras.

7. Un encuestador tiene asignado un área de trabajo de 100 viviendas, donde se sabe que el
10 % de estas presentan cierta caracterı́stica que solo podrá conocerse durante la entrevista.
El entrevistador visitará casa por casa y aplicará una encuesta más larga a las viviendas que
poseen la caracterı́stica. Suponga que el encuestador tiene una cuota de 5 viviendas con la
caracterı́stica de interés, luego de lo cual será reemplazado por otro encuestador.
a) Halle la función de probabilidad del número de entrevistas que realizará el entrevistador.
b) Suponga que el tiempo en minutos que emplea el entrevistador en realizar una encuesta
a una vivienda, sin y con la caracterı́stica de interés, es una v.a. con distribución normal
de media 8 minutos y desviación estándar de 2 minutos y media 15 minutos y desviación
estándar de 4 minutos, respectivamente. Halle el tiempo efectivo que se espera le tome al
entrevistador realizar todas sus encuestas.

8. Suponga que 4 cápsulas de un medicamento genérico fueron mezcladas con 20 de marca

y luego distribuidas al azar en 4 cajas de 6 cápsulas cada una. Una manera de pensar la
distribución de las cápsulas en las cajas es secuencialmente; esto es, eligiendo primero al
azar y sin reemplazamiento 6 cápsulas para colocarlas en una caja, que etiqueraremos 1;
seleccionando luego al azar y sin reemplazamiento otras 6 cápsulas de las 18 restantes para
colocarlas en una caja 2, y seleccionando finalmente al azar y sin reemplazamiento 6 de las
12 cápsulas restantes para colocarlas en una caja 3. Las cápsulas sobrantes conformarán la
caja 4.
a) Halle la función de probabilidad del número de cápsulas del medicamento genérico que
contendrá la caja etiquetada como 1.
b) Halle la probabilidad de que solamente la caja 3 contenga cápsulas del medicamento
genérico. ¿Es esta probabilidad la misma si se tratara de la caja 1?
c) Verifique que la probabilidad de que una caja contenga x cápsulas genéricas es siem-
pre la misma al margen de la etiqueta que tenga la caja. Ello puede hacerlo calculando
esta probabilidad para cada etiquetado y cada valor posible x. Como ayuda, puede usar
la función dhyper(x,M,N-M,n) de R que le permite hallar la probabilidad de que una v.a.
X ∼ H(N, M, n) tome el valor x.
d) Muestre que la función de probabilidad conjunta del número de cápsulas del medicamento
genérico que contendrá cada una de las 4 cajas (X1 , X2 , X3 , X4 ) viene dada por

Cx61 Cx62 Cx63 Cx64

PX1 X2 X3 X4 (x1 , x2 , x3 , x4 ) = .
C424

e) Halle la función de probabilidad del número de cajas que contendrá alguna cápsula del
medicamento genérico.
1.6. EJERCICIOS 17

9. Un peaje tiene 10 casetas de pago, 3 de las cuales son exclusivas para buses y camiones
y el resto se destina a solo autos. Suponga que el 20 % de los vehı́culos que pasan por este
peaje son buses o camiones y el resto autos, y que los vehı́culos tienen igual probabilidad de
escoger cualquier caseta que les corresponda. Si la administradora le informa que en un dı́a
pasaron por el peaje 800 vehı́culos, que en las 3 casetas para buses y camiones se registraron
56, 65 y 60 unidades, pero no le informa sobre la distribución del número de autos en las
demás casetas,
a) ¿Cuál será la distribución conjunta del número de autos que pasaron durante ese dı́a por
las casetas correspondientes?
b) ¿Que tán probable fué que se hayan obtenido estos resultados para las casetas de buses o
camiones?
c) ¿Cuántos autos se espera que hayan pasado por la caseta 4 (de autos) durante ese dı́a?
10. Sea (X1 , X2 , . . . , Xk ) ∼ HM ul(n; M1 , M2 , . . . , Mk ) y supongamos seleccionamos tres
componentes cualesquieras i, j y m de este vector. ¿Es cierto que el vector aleatorio
(Xi , Xj , Xm ) tiene también una distribución hipergeométrica multivariada?
11. Se ha creado una nueva agrupación polı́tica producto de la fusión de 3 partidos polı́ticos
A, B y C. En esta nueva agrupación participan 10 personas del partido A, 20 personas del
partido B y 15 personas del partido C. Para crear esta nueva agrupación cada miembro de
estos partidos aportó, respectivamente, 100, 500 y 300 u.m. Si usted selecciona al azar y sin
reemplazamiento a 10 personas de esta nueva agrupación para aplicarles una encuesta,
a) ¿Con qué probabilidad la mitad de los encuestados serán ex integrantes del partido C?
b) ¿Cuál es la probabilidad de que todas las personas encuestadas menos una hayan sido
integrantes del partido B?
c) ¿Cuál es el monto total de aporte que se esperará reporten las personas en la encuesta?
d) Si le informan, luego de tomarse la muestra, que solo 3 personas que pertenecieron al
partido A fueron encuestadas, ¿cuántas personas del otrora partido B se espera hayan sido
encuestadas?
e) Suponga que el 80 %, 50 % y 60 % de las personas de los otrora partidos A, B y C tenı́an
interés en formar parte del Ejecutivo.

e.1) ¿Cuántos encuestados, ex-integrantes del partido C, se esperan tengan interés en el

Ejecutivo?

e.2) En general, ¿cuántas de las personas seleccionados para la encuesta espera que tengan
interés en el Ejecutivo?

e.3) Si se propone como estimador de la proporción de interés en el Ejecutivo a la corres-

pondiente proporción muestral en la encuesta, ¿forma este un estimador insesgado?

e.4) ¿Cuál es la varianza del estimador propuesto en e.3)?

18 CAPÍTULO 1. INTRODUCCIÓN

12. Proponga, para el ejemplo 1.1, un estimador insesgado de la proporción buscada y calcule
su varianza.

13. En este ejercicio, tomado de Valdivieso (2017), una empresa recibe lotes de 500 artı́culos
de un fabricante y utiliza el siguiente plan de muestreo doble para la inspección de recibo:

i ) Se toma una muestra al azar y sin reemplazamiento de 15 unidades. Si ningún artı́culo

es defectuoso, se acepta el lote; si se encuentran 3 o más artı́culos defectuosos, se lo rechaza;
en cualquier otro caso se toma una segunda muestra de 13 unidades.

ii ) Si el número total de unidades defectuosas (en ambas muestras) es mayor que 3, se

rechaza el lote, en caso contrario se acepta.

iii) Finalmente, si se rechaza el lote, se inspeccionan el 100 % de sus unidades y el fabricante

debe cambiar las unidades defectuosas por buenas y pagar los costos de inspección.

Si los lotes recibidos tienen un 5 % de unidades defectuosas y el costo de inspección de una

unidad es de un sol, halle:

a) La probabilidad de rechazar el lote.

b) El gasto esperado por inspección de un lote por parte de la empresa y del fabricante.

14. Un congreso cuenta con la participación de N instituciones, siendo Mi el número de

participantes de la i-ésima institución. A fin de recabar información de los participantes
y sobre todo de sus instituciones, se ha diseñado una encuesta por muestreo en la que se
seleccionarán al azar a n personas, pero en la que solo se preguntará sobre la institución a
la primera persona que se encuentre de cada institución. Sea N e el número de instituciones
distintas que se encuentran en la muestra.
a) ¿Con qué probabilidad la muestra estará conformada por solo participantes de las tres
primeras instituciones?
b) Si solo la primera institución tiene n o más participantes, ¿con qué probabilidad N e = 1?
c) ¿Cuántas instituciones se esperará encuestar? SUG: Considere las v.a. indicadoras 1{Xi >0} ,
donde Xi denota el número de personas de la institución i que serán encuestadas.
d) Si la distribución de los participantes en el congreso fue la siguiente:

Institución (i) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Número de
participantes (Mi ) 17 8 3 4 6 9 12 14 1 2 1 4 2 10 2 5

y la muestra es de tamaño n = 16, obtenga las cantidades anteriormente pedidas y calcule

la probabilidad de que N e = 2.
1.6. EJERCICIOS 19

15. Con el fin de obtener una muestra al azar y sin reemplazamiento que corresponda exacta-
mente al 20 % de una población de tamaño N = 100, un alumno ha desarrollado el siguiente
algoritmo: simular 100 números aleatorios en el intervalo [0, 1] y tomar como muestra aque-
llas unidades i ∈ P = {1, 2, . . . , 100}, tales que sus correspondientes números aleatorios sean
menores o iguales a 0.2. ¿Es correcto este algoritmo de muestreo para los propósitos de este
muestreo? Justifique.
16. Un gran complejo turı́stico tiene 12 parques temáticos que se pueden visitar uno por dı́a.
Un turista solo tiene 4 dı́as de estadı́a, por lo cual elige al azar 4 de estos parques. Tiempo
después de comprar sus entradas se entera de que 3 de los parques cobran parqueo.
a) Halle la función de probabilidad del número de parqueos que tendrá que pagar el turista
y calcule su valor esperado.
b) Simule el número de parqueos que tendrá que pagar el turista durante su estadı́a.
c) Si se propone el siguiente algoritmo de muestreo:

m <- u <- runif(4)

for(i in 1:4){m[i] = min(which((1:12/12>u[i])==TRUE))}
sum([Link](m<=9))

¿Es este algoritmo de muestreo adecuado para lo que se pide en b)?

17. Si selecciona al azar 6 compañeros de su salón de clase basándose en la lista de alumnos
del salón,
a) ¿Con qué probabilidad usted saldrá elegido de tomarse la muestra sin reemplazamiento?
b) ¿Con qué probabilidad algunos de sus compañeros serán elegidos en más de una oportu-
nidad de tomarse la muestra con reemplazamiento?
Capı́tulo 2

Muestreo aleatorio simple

En un muestreo aleatorio simple (MAS) toda muestra de tamaño n tiene la misma proba-
bilidad de ser seleccionada, lo cual corresponde teóricamente a la noción de muestra aleatoria
dada en la sección anterior si la población es infinita. En la práctica las poblaciones son fi-
nitas, digamos con N elementos. Aquı́ veremos cómo tomar en cuenta este hecho y nos
interesará encontrar tamaños de muestra y errores de estimación para tres de los paráme-
tros más frecuentemente referidos en un estudio inferencial, la media poblacional µ, el total
poblacional τ y la proporción de elementos p de la población que comparten alguna carac-
terı́stica particular. Para ser más precisos enfatizaremos sobre todo el primero y último de
estos parámetros, pues el análisis para el total poblacional

τ = Nµ o τ = Np

es directamente deducible de los de µ y p.

2.1. Muestreo con y sin reemplazamiento

Existen dos esquemas de muestreo aleatorio simple importantes: el muestreo aleatorio
simple con reemplazamiento, que lo denotaremos en adelante por MASc, y el muestreo alea-
torio simple sin reemplazamiento, que lo denotaremos en adelante por MASs. En la sección
1.5 adelantamos ya varias de las caracterı́sticas de estos esquemas, ası́ como algunos de sus
algoritmos de muestreo; es decir, cómo realizar el muestreo en la práctica. En esta sección
nos enfocaremos más en el análisis de las unidades seleccionadas cuando en ellas se desee
estudiar una o más variables de interés.
Con base en un enfoque basado en el diseño, consideremos primero para ello una población
fı́sica P = {1, 2, . . . , N } de tamaño N a cuyos elementos los estamos identificando, por
simplicidad, con los números naturales positivos. A estos que pudieran ser sujetos, eventos,
materiales, escuelas, paı́ses, etc, los llamaremos unidades. Sobre estas unidades mediremos

21
22 CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE

una variable estadı́stica y para generar la población estadı́stica Py constituida por todos los
valores de y en P; es decir,
Py = {y1 , y2 , . . . , yN },
siendo yi el valor de y para la unidad i. Note que algunos de estos valores pueden repetirse,
lo cual no ocurre en P. Sea n < N el tamaño de muestra a seleccionarse.
En un esquema MASc, las unidades se seleccionan al azar una a una de la población,
con la peculiaridad de que estos son repuestos o reemplazados en cada etapa de selección.
Ası́, una unidad cualesquiera j ∈ P podrı́a ser elegida en más de una oportunidad. Por otro
lado, en el esquema MASs, las unidades seleccionadas no se reponen y, por tanto, una unidad
cualesquiera j ∈ P podrı́a ser elegida en a lo más una oportunidad. En este caso, seleccionar
las unidades una a una hasta completar la muestra equivale a seleccionar toda la muestra de
una sola vez. La ventaja del diseño MASc es que las variables aleatorias definidas en (1.1)
y asociadas a los valores de y en las unidades seleccionadas son independientes. En efecto,
esto se sigue desde que para cualquier par de selecciones j < k y cualquier par de elementos
yp , yq ∈ Py de la población estadı́stica:

P (Yj = yp , Yk = yq ) = P (Yk = yq | Yj = yp )P (Yj = yp ) = P (Yk = yq )P (Yj = yp ).

En un MASs, por otro lado, lo anterior no siempre se cumple, ya que, por ejemplo,
1 1
P (Y2 = yq | Y1 = yp ) = = = P (Y2 = yq )
N −1 N
en el que caso de que los elementos de la población estadı́stica sean todos distintos.
Si bien la falta de independencia en un MASs puede acarrear problemas técnicos, este es
en la práctica el esquema más utilizado pues garantiza siempre distintas selecciones en P.
Enfaticemos ahora el estudio y las propiedades de dos de los estimadores más recurrentes
en el muestreo, la media y la varianza muestrales
N N
1 1
Ȳ = yi δ i y S2 = (yi − Ȳ )2 δi ,
n i=1 n − 1 i=1

donde recordemos que δi es una variable aleatoria que cuenta el número de veces que la
unidad i de P es seleccionada en la muestra.
Tanto en el MASc como en el MASs, estas estadı́sticas constituyen los estimadores na-
turales de la media poblacional
N
1
µN = yi
N i=1
y varianza poblacional
N N
2 1 1
σN = (yi − µN )2 o 2
σN −1 = (yi − µN )2 .
N i=1 N − 1 i=1
2.1. MUESTREO CON Y SIN REEMPLAZAMIENTO 23

En adelante, para una mejor comprensión, convendremos en denotar las variables aleatorias
con letras mayúsculas (a excepción de los δi ) y con letras minúsculas las no aleatorias.
Antes de analizar algunas propiedades de los estimadores Ȳ y S 2 , es útil recordar que el
vector aleatorio de frecuencias de conteo para cada unidad de la muestra (δ1 , δ2 , . . . , δN ) tiene
una distribución multinomial o hipergeométrica multivariada, dependiendo de si el esquema
es un MASc o un MASs, respectivamente. Más aún, por lo visto en (1.2), tanto la media
como la varianza muestral podrı́an escribirse alternativamente como
n
1
Ȳ = Yi
n i=1

y
n
1
S2 = (Yi − Ȳ )2 ,
n − 1 i=1
donde Y1 , Y2 , . . . , Yn denotan los valores que secuencialmente la variable estadı́stica en estudio
y podrı́a tomar en cada selección de la muestra. La proposición siguiente nos brinda algunas
propiedades de estas últimas variables aleatorias.

Proposición 2.1.

a) En un MASc, las v.a. Y1 , Y2 , . . . , Yn son independientes e idénticamente distribuidas

2
con media E(Yi ) = µN y varianza V (Yi ) = σN .

b) En un MASs, las v.a. Y1 , Y2 , . . . , Yn son idénticamente distribuidas con media E(Yi ) =

2
µN , varianza V (Yi ) = σN y se cumple que Cov(Yi , Yj ) = − N1 σN 2
−1 , ∀i = j.

Demostración: Supongamos, sin pérdida de generalidad, que todos los elementos en Py son
distintos.
a) La independencia ya se analizó. Que las v.a. Y1 , Y2 , . . . , Yn tengan la misma distribución
2
de media µN y varianza σN es, por otro lado, consecuencia directa de que la distribución de
cualesquiera de estas variables, digamos Yi , viene definida por la función de probabilidad

1
N
si y = y1 , y2 , y3 , . . . , yN
PYi (y) = P (Yi = y) = (2.1)
0 en otro caso
b) Claramente, como la selección es secuencial, Y1 tiene la distribución (2.1). Más aún, con-
dicionando y trabajando inductivamente, se puede probar que la distribución de cualesquiera
de las variables Y1 , Y2 , . . . , Yn , digamos Yi , tiene la función de probabilidad dada en (2.1).
Como podemos ver, para cualquier j ∈ P:
N

P (Y2 = yj ) = P (Y2 = yj | Y1 = yi )P (Y1 = yi )
i=1
24 CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE

N
N
1 1
1 1
= P (Y2 = yj | Y1 = yi ) = = .
i=1
N i=1
N −1N N
i=j i=j

Otra manera de ver lo anterior y que nos servirá también para las otras afirmaciones es
notando que la distribución conjunta del vector (Y1 , Y2 , . . . , Yn ) viene dada por

P (Y1 = yj1 , Y2 = yj2 , . . . , Yn = yjn )

= P (Yn = yjn | Y1 = yj1 , . . . , Yn−1 = yj(n−1) ) . . . P (Y2 = yj2 | Y1 = yj1 )P (Y1 = yj1 )
1 1 1 1
= × × ... × × ,
N −n+1 N −n+2 N −1 N
cualesquiera sea k ∈ {1, 2 . . . , n} e yjk ∈ Py . De esta distribución conjunta se pueden hallar
distintas marginales, como la de la v.a. Yi , la cual se obtiene sumando la última función de
probabilidad conjunta sobre todos los valores de las demás variables. Estas sumas contienen
(N − 1)(N − 2) . . . (N − n + 1) términos, por lo cual su resultado nos dará N1 , que es preci-
samente la misma distribución que en el caso MASc. Por tal razón, las Yi tienen la misma
media y varianza anteriores. Podemos también, por otro lado, hallar la distribución conjunta
del vector (Yi , Yj ) con i = j. Esta viene dada por la suma de la distribución conjunta sobre
todos los valores de las demás n − 2 variables que no contengan los valores donde se evalúan
Yi e Yj . Estas sumas, como no es difı́cil ver, contienen (N − 2)(N − 3) . . . (N − n + 1)
términos, de aquı́ que se tenga que

(N − 2)(N − 3) . . . (N − n + 1) 1
P (Yi = yp , Yj = yq ) = = , ∀p = q ∈ P.
(N − n + 1)(N − n + 2) . . . (N − 1)N N (N − 1)

Consecuentemente,
N
N
Cov(Yi , Yj ) = E((Yi − µN )(Yj − µN )) = (yp − µN )(yq − µN )P (Yi = yp , Yj = yq )
p=1 q=1

N
N N N
1 1
= (yp − µN )(yq − µN ) = (yp − µN )( (yq − µN ) − (yp − µN ))
p=1 q=1
N (N − 1) N (N − 1) p=1 q=1
q=p

N N
= 1
N (N −1)
(( p=1 (yp − µN ))2 − p=1 (yp − µN )2 ) = − N1 σN
2
−1 .

Ejemplo 2.1. Considere la población de sujetos P = {1, 2, 3, 4, 5, 6, 7} y su población es-

tadı́stica Py = {12, 32, 18, 37, 22, 18, 28} asociada a la edad y de ellos en años. Suponga que
se toma un MAS con n = 3. Halle la distribución muestral de la media y varianza para esta
muestra y verifique que estos son estimadores insesgados. Realice esto para los dos esquemas
de muestreo estudiados.
2.1. MUESTREO CON Y SIN REEMPLAZAMIENTO 25

Solución: La media y varianza poblacionales de y vienen dadas por µ7 = 23.9, σ62 = 78.1 y
σ72 = 67. En un MASc tenemos, de tomarse en cuenta el orden, un total de 73 = 343 muestras
posibles; mientras que en un MASs tenemos un total de C37 = 35. Nosotros desarrollaremos
aquı́ el caso de un MASs dejando el otro esquema como ejercicio para el lector. Como ayuda
utilizaremos el paquete combinat de R. Dado que en este problema precisamos obtener la
distribución muestral de la media y varianza muestrales, apelaremos al uso del comando
combn y obtendremos para cada posible muestra tanto su media, varianza y probabilidad de
selección. El código respectivo se muestra seguidamente y los resultados se resumen en los
cuadros 2.1, 2.2 y 2.3.

library(combinat)
options(digits=3)
ypop = c(12, 32, 18, 37, 22, 18, 28)
samplesMASs = t([Link](combn(ypop,3)))
ybar = apply(samplesMASs,1,mean)
s2 = apply(samplesMASs,1,var)
probs = rep(1/length(ybar), length(ybar))
bsamplesMASs = cbind(samplesMASs,ybar,s2,probs)
pp1 = aggregate(bsamplesMASs[,6],by = list(bsamplesMASs[,4]),sum)
colnames(pp1) = c("Media muestral","Probabilidad")
pp2 = aggregate(bsamplesMASs[,6],by = list(bsamplesMASs[,5]),sum)
colnames(pp2) = c("Varianza muestral","Probabilidad")

Cabe comentar que si la muestra fuese con reemplazamiento, podrı́amos encontrar los ı́ndices
de todas las posibles muestras con el comando [Link](rep(list(1:7),3)).
Según las tablas mostradas, los valores esperados de la media y varianza muestrales vendrán
dados, respectivamente, por

c(sum(pp1[,1]*pp1[,2]),sum(pp2[,1]*pp2[,2]))

## [1] 23.9 78.1

mientras que la varianza de la media muestral es

sum(((pp1[,1] - sum(pp1[,1]*pp1[,2]))^2)*pp1[,2])

## [1] 14.9

Esto nos indica que la media muestral Ȳ es efectivamente un estimador insesgado de µ7 ;

mientras que la varianza muestral S 2 es un estimador insesgado de σ62 .

26 CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE

Muestra Mediam Varm Probs Muestra Mediam Varm Probs

1 12 32 18 20.7 105.3 0.0286 19 32 18 28 26 52 0.0286
2 12 32 37 27 175 0.0286 20 32 37 22 30.3 58.3 0.0286
3 12 32 22 22 100 0.0286 21 32 37 18 29 97 0.0286
4 12 32 18 20.7 105.3 0.0286 22 32 37 28 32.3 20.3 0.0286
5 12 32 28 24 112 0.0286 23 32 22 18 24 52 0.0286
6 12 18 37 22.3 170.3 0.0286 24 32 22 28 27.3 25.3 0.0286
7 12 18 22 17.3 25.3 0.0286 25 32 18 28 26 52 0.0286
8 12 18 18 16 12 0.0286 26 18 37 22 25.7 100.3 0.0286
9 12 18 28 19.3 65.3 0.0286 27 18 37 18 24.3 120.3 0.0286
10 12 37 22 23.7 158.3 0.0286 28 18 37 28 27.7 90.3 0.0286
11 12 37 18 22.3 170.3 0.0286 29 18 22 18 19.3 5.3 0.0286
12 12 37 28 25.7 160.3 0.0286 30 18 22 28 22.7 25.3 0.0286
13 12 22 18 17.3 25.3 0.0286 31 18 18 28 21.3 33.3 0.0286
14 12 22 28 20.7 65.3 0.0286 32 37 22 18 25.7 100.3 0.0286
15 12 18 28 19.3 65.3 0.0286 33 37 22 28 29 57 0.0286
16 32 18 37 29 97 0.0286 34 37 18 28 27.7 90.3 0.0286
17 32 18 22 24 52 0.0286 35 22 18 28 22.7 25.3 0.0286
18 32 18 18 22.7 65.3 0.0286

Cuadro 2.1: Probabilidades, medias y varianzas de todas las posibles muestras en un MASs
para el ejemplo 2.1

Varianza muestral Probabilidad

Media muestral Probabilidad
1 5.333 0.029
1 16.000 0.029
2 12.000 0.029
2 17.333 0.057
3 20.333 0.029
3 19.333 0.086
4 25.333 0.143
4 20.667 0.086
5 33.333 0.029
5 21.333 0.029
6 52.000 0.114
6 22.000 0.029
7 57.000 0.029
7 22.333 0.057
8 58.333 0.029
8 22.667 0.086
9 65.333 0.114
9 23.667 0.029
10 90.333 0.057
10 24.000 0.086
11 97.000 0.057
11 24.333 0.029
12 100.000 0.029
12 25.667 0.086
13 100.333 0.057
13 26.000 0.057
14 105.333 0.057
14 27.000 0.029
15 112.000 0.029
15 27.333 0.029
16 120.333 0.029
16 27.667 0.057
17 158.333 0.029
17 29.000 0.086
18 160.333 0.029
18 30.333 0.029
19 170.333 0.057
19 32.333 0.029
20 175.000 0.029
Cuadro 2.2: Distribución de la media mues-
Cuadro 2.3: Distribución de la varianza
tral para el ejemplo 2.1
muestral para el ejemplo 2.1
2.1. MUESTREO CON Y SIN REEMPLAZAMIENTO 27

Como el ejemplo anterior lo sugiere, tenemos las siguientes propiedades en un MAS.

Proposición 2.2. La media muestral Ȳ es un estimador insesgado de la media poblacional

µN y se tiene que
2
σN
a) V (Ȳ ) = n
en un MASc
2
n σN −1
b) V (Ȳ ) = (1 − N
) n en un MASs

La demostración de la proposición anterior es directa y puede deducirse de la demostra-

ción del siguiente resultado de suma importancia.

Proposición 2.3.

a) La media muestral es el MELI (mejor estimador lineal e insesgado) de la media pobla-

cional.

2 2
b) La varianza muestral es un estimador insesgado de σN para un MASc y de σN −1 para
un MASs.

Demostración: Puesto que la demostración de esta proposición es directa en el caso MASc,

la dejaremos como ejercicio. Nosotros centraremos nuestra atención al caso MASs.
a) Sea µ̂N un estimador lineal arbitrario de la media poblacional; es decir, un estimador de

la forma µ̂N = ni=1 ci Yi , donde las constantes ci que la definen son arbitrarias. Para que
este sea un estimador insesgado se debe satisfacer
n
n
n

µN = E(µ̂N ) = E( c i Yi ) = ci E(Yi ) = µN ci ;
i=1 i=1 i=1

es decir, las constantes ci deben sumar 1. Por otro lado, la varianza de este estimador lineal
viene dado por
n
n
n
V (µ̂N ) = c2i V (Yi ) + ci cj Cov(Yi , Yj )
i=1 i=1 j=1
j=i

o más explı́citamente, de lo visto en la proposición 2.1, por

n
n n n n n n
2 1 2 N −1 2 2 1 2
V (µ̂N ) = σN c2i − σN −1 ci cj = σN −1 ci − σN −1 ( ci cj − c2i )
i=1
N i=1 j=1
N i=1
N i=1 j=1 i=1
j=i

n
n n
2 1
= σN −1 ( c2i − ci cj ). (∗)
i=1
N i=1 j=1
28 CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE

Por tanto, el MELI de µN se obtendrá al hallar las constantes ci que resuelvan el siguiente
problema de optimización:
n
n n
1
mı́n
c2i − ci cj .
s.a n
i=1 ci =1
i=1
N i=1 j=1

Dada la convexidad de la función objetivo, bastará considerar las condiciones de primer orden
del lagrangiano de esta función, el cual viene dado por
n
n n n
1
l= c2i − ci cj + λ(1 − ci ).
i=1
N i=1 j=1 i=1

De las derivadas parciales con respecto a ck se obtiene que

n
∂l 2
0= = 2ck − ci − λ,
∂ck N i=1

de donde ck = N1 + λ2 . De la condición de insesgamiento, el multiplicador de Lagrange óptimo

resulta ser λ = n2 (1 − Nn ), el cual al reemplazarlo en la expresión previa nos da

1 1 n 1
ck = + (1 − ) = .
N n N n

Consecuentemente, el MELI de µN es Ȳ . Más aún, la varianza de este estimador es por (∗)

2
n σN
) −1 .
V (Ȳ ) = (1 −
N n
1
n 1
n
b) Puesto que S 2 = n−1 2
i=1 (Yi − Ȳ ) = n−1 (
2 2
i=1 Yi − nȲ ), se tiene que en un MASs

n
1
E(S 2 ) = ( E(Yi2 ) − nE(Ȳ 2 ))
n − 1 i=1

n
1
= ( (V (Yi ) + E(Yi )2 ) − n(V (Ȳ ) + E(Ȳ )2 ))
n − 1 i=1

n
1 2 n σ2
= ( (σN + µ2N ) − n((1 − ) N −1 + µ2N ))
n − 1 i=1 N n

1 N −1 2 n σ2
= (n( σN −1 + µ2N ) − n((1 − ) N −1 + µ2N )) = σN
2
−1 .
n−1 N N n
2.2. TAMAÑOS DE MUESTRA Y ERRORES DE ESTIMACIÓN 29

2.2. Tamaños de muestra y errores de estimación

2.2.1. Tamaños de muestra para la estimación de una media y una
proporción
Los intervalos de confianza del capı́tulo anterior se basaron en el clásico teorema del lı́mite
central, el cual asume una muestra aleatoria de la variable en estudio. Desafortunadamente,
en un MASs, que es a la larga el esquema de muestreo más utilizado, esta suposición no
es correcta debido a la no independencia entre las componentes de las variables dadas en
la proposición 2.1. Para subsanar este problema tenemos aquı́ dos caminos que dependerán
de la naturaleza del tamaño de la muestra. Cuando esta es fija y el tamaño de la población
N → ∞, el esquema MASs converge en un MASc. Por otro lado, si n → ∞, deberı́amos
2
también consentir que N → ∞. Denotemos por µN y σN −1 a la media y varianza de las
correspondientes superpoblaciones. Hajek (1960) propuso el siguiente teorema del lı́mite
central: Si Nn → τ ∈]0, 1[ y máx1≤i≤N N Yi(Y−µ−µ N
)2
→ 0 conforme n → ∞ y N → ∞ o
i=1 i N
Yi −µN
N máx1≤i≤N N 2
es acotado en el lı́mite cuando N → ∞, entonces
i=1 (Yi −µN )

Ȳ − µN D
Z= n σ√
→ N (0, 1),
1− N n N −1

conforme n y N − n tiendan a infinito.

Este teorema del lı́mite central nos permite entonces construir, utilizando como variable
pivote la v.a. Z, un intervalo de confianza aproximado al 100(1 − α) % para la media po-
blacional µ. Este, al suprimirse el subı́ndice N − 1 en la varianza, toma para un tamaño de
muestra y población suficientemente grandes la forma

σ n σ n
IC = [Ȳ −z1− α2 √ 1− , Ȳ +z1− α2 √ 1 − ] = [Ȳ −z1− α2 SE(Ȳ ) , Ȳ +z1− α2 SE(Ȳ ) ],
n N n N

donde a SE(Ȳ ), que es la raı́z de la varianza asintótica de Ȳ , se le denomina el error estándar

de estimación de Ȳ . Observe que este IC para µ difiere del clásico para poblaciones infinitas

solo por el factor 1 − Nn . Note además que si N → ∞, este factor tiende a 1 y, por tanto,
uno obtiene el clásico IC para µ.
De manera similar, es posible realizar un estudio inferencial para poblaciones finitas con
una proporción poblacional p, ya que este es un caso particular de media cuando la variable
Y es dicotómica. En este caso, la variable pivote Z normal toma la forma
p̄ − p
Z= ,
n N p(1−p)
1− N n(N −1)

2 N p(1−p)
con p̄ igual a la proporción muestral, desde que σN −1 = N −1
. Ası́, si tomamos simétrica-
30 CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE

mente valores −z1− α2 y z1− α2 en la tabla normal estándar, podemos escribir:

p̄ − p
P (−z1− α2 ≤ ≤ z1− α2 ) = 1 − α.
n N p(1−p)
1− N n(N −1)

A fin de despejar p en esta expresión, podemos considerar la probabilidad equivalente

p̄ − p
P (| |2 ≤ z1−
2
α) = 1 − α
n N p(1−p) 2
1− N n(N −1)

o
P (p2 (1 + a) − p(2p̄ + a) + p̄2 ≤ 0) = 1 − α,
2 N −n
donde a = z1− α
n(N −1)
. Esta probabilidad puede escribirse como
2

P ((p − p1 )(p − p2 ) ≤ 0) = 1 − α,

siendo p1 y p2 las raı́ces de la ecuación asociada a la inecuación cuadrática anterior. Conse-

cuentemente, [p1 , p2 ] constituye un IC tipo Wilson al 100(1 − α) % para p. Si ahora en el IC
2
z1− α
anterior despreciamos el término n 2 , por ser este pequeño cuando n es grande, obtendremos
el IC = [p1 , p2 ] al 100(1 − α) % para p tipo Wald siguiente:

p̄(1 − p̄) N − n p̄(1 − p̄) N − n
IC = [p̄ − z1− 2α , p̄ + z1− 2
α ].
n N −1 n N −1
Si bien en el texto utilizaremos por simplicidad este último IC, hay que tener la precaución
de que si la verdadera proporción es extrema (cercana a 0 o 1), este IC tipo Wald no presenta
en general una adecuada cobertura. En tales situaciones, una opción más recomendable serı́a
usar el IC tipo Wilson. Tal problema de cobertura puede ilustrarse a través del siguiente
estudio de simulación, donde hemos graficado la proporción de cuántos de los 1000 IC,
generados a través de 1000 MASs de tamaño 30 de una población de tamaño 400 contienen
al verdadero parámetro p.

IC<-function(x,alpha,n,N,tipo){ # tipo = 1: Wald, tipo 2 = Wilson

pbar = x/n
z= qnorm(1-alpha/2)
a = (z^2)*(N-n)/(n*(N-1))
aux = a
if(tipo==1) aux = 0
e = 4*a*pbar + aux^2 - 4*a*pbar^2
L1 = (2*pbar + aux - sqrt(e))/(2*(1+aux))
L2 = (2*pbar + aux + sqrt(e))/(2*(1+aux))
c(L1,L2)}
2.2. TAMAÑOS DE MUESTRA Y ERRORES DE ESTIMACIÓN 31

# Estudio de simulación:
cover <- function(n,N,p,alpha,tipo) {
nsim = 1000
count = 0
for (i in 1:nsim) {
x = rhyper(1,N*p,N*(1-p),n)
if(tipo==1){ci = IC(x,alpha,n,N,1)}
else {ci = IC(x,alpha,n,N,2)}
if(p >= ci[1] & p <= ci[2]) {count = count + 1}
}
cover = count/nsim
cover}
p = seq(0.005,0.995,by=0.01)
np = length(p)
cc1 = 0
cc2 = 0
N = 400
n = 30
for(j in 1:np){cc1[j] = cover(n,N,p[j],0.05,1)}
for(j in 1:np){cc2[j] = cover(n,N,p[j],0.05,2)}

Establecidas las fórmulas de los IC aproximados al 100(1 − α) % para cualquier media y

proporción poblacional, nos interesará ahora hallar el tamaño de muestra n que uno deberı́a
considerar para poder garantizar a un nivel de confianza del 100(1 − α) % un error máximo
de estimación e, donde por error de estimación entenderemos la diferencia en valor absoluto
|θ̂n − θ| entre el parámetro y su estimador. Esto se obtiene directamente de los IC obtenidos.
En efecto, si queremos estimar la media µ, su IC correspondiente al 100(1 − α) % puede
reescribirse como
σ n
P (|Ȳ − µ| ≤ z1− α2 √ 1 − ) = 1 − α.
n N
Luego, según lo convenido, se debe tener que

σ n
e = z1− 2
α √ 1− ,
n N
de donde despejando obtenemos la siguiente fórmula para el tamaño de muestra:
2 2
z1− ασ N
2
n= 2 2 2
.
z1− ασ + e N
2

Note que si N → ∞:
(z1− α2 σ)2
n= .
e2
32 CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE

Cobertura para diferentes valores de p

1.0
0.8
Proporción

0.6
0.4

IC de Wald
IC de Wilson
0.2

0.0 0.2 0.4 0.6 0.8 1.0

Figura 2.1: Simulación de la cobertura de los IC de Wald y Wilson al 95 % sobre una

proporción

De manera similar, podemos deducir la siguiente fórmula del tamaño de muestra n para
la estimación de p con un error máximo de estimación de e y un nivel de confianza del
100(1 − α) %:
2
(z1− α p̄(1 − p̄))N
2
n= 2 ,
z1− α p̄(1 − p̄) + e2 (N − 1)
2

y si N → ∞:
2
z1− α p̄(1 − p̄)
2
n= .
e2
Cabe agregar que la consideración de tamaños de muestra sobre la base de los errores máxi-
mos de estimación prefijados, también llamados errores absolutos e, no es universal. En la
literatura es también común encontrar la consideración del coeficiente de variación o de los
errores relativos. Recordemos que el coeficiente de variación poblacional (CV) de una varia-
ble estadı́stica y se define como el cociente entre la desviación estándar y la media de esta
variable, siendo este cociente usualmente expresado en porcentajes. La adimensionalidad de
este indicador facilita claramente la determinación de valores objetivos sin que interese la
escala en que uno mida la variable. Una regla práctica (que se debe de tomar con precaución)
nos dice que un estimador no es confiable si su CV estimado supera 30 %; contrariamente,
estimadores con un CV del 10 % o menos se suelen catalogar como confiables. Otra cantidad
citada en el cálculo del tamaño de muestra es el error relativo, el cual se define como
er = z1− α2 CV (θ̂),
2.2. TAMAÑOS DE MUESTRA Y ERRORES DE ESTIMACIÓN 33

siendo θ̂ el estimador de interés para θ. Para su interpretación, basta notar que si θ̂ es un es-
timador insesgado y la muestra es suficientemente grande, tendremos que aproximadamente,
con una confianza del 100(1 − α) %:

P (|θ̂ − θ| ≤ z1− α2 V (θ̂)) = 1 − α

Ası́, todas las fórmulas dadas en esta sección sobre n se satisfacen si, en lugar de especificarse
e, uno especifica un error relativo er o un coeficiente de variación CV0 para el estimador de
interés a través de la siguiente relación:

e = θer = θz1− α2 CV0 .

2.2.2. Estimaciones previas

Un aspecto problemático en las fórmulas desarrolladas lo constituyen tanto σ como p̄,
ya que el primero es en general un parámetro poblacional no conocido y el otro no puede
calcularse sin la muestra. En la práctica se tienen las siguientes alternativas para solucionar
este problema:

Estimar estas cantidades mediante un muestreo piloto (es decir, con una réplica previa,
pero en escala menor del muestreo final).

Estimar estas por cantidades similares de otros estudios semejantes.

Estimar σ por σ̂ = Rango

6
, donde Rango denota el ancho del intervalo que estimamos
contiene a todos los posibles valores de la variable Y . Esto se justifica por la desigual-
dad de Chebyshev, la cual, recordemos, nos dice que la probabilidad de que Y se
encuentre en el intervalo [µ − 3σ, µ + 3σ], siendo µ la media de Y , es muy cercana a 1
(concretamente de al menos 0.89).

Tomar p̄ = 12 . Esta es una regla conservadora que simplemente asigna el valor de p̄,
que maximiza el tamaño de muestra. Ası́, uno podrá siempre garantizar, al margen del
verdadero p̄, un error de estimación de a lo más e.

Ejemplo 2.2. La facultad de Ingenierı́a de una universidad cuenta con 1200 alumnos y
está interesada en realizar una encuesta con el fin de determinar, entre otros, el número
de alumnos que tienen una PC en casa. El coordinador de la facultad desea estimar este
34 CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE

total con un error máximo no mayor a los 30 alumnos y una confianza del 95 % ¿A cuántos
alumnos de la facultad se les deberı́a aplicar la encuesta?
Solución: Se desea estimar τ = número de alumnos de la facultad que poseen una PC en
casa con un margen de error no mayor a los 30 alumnos y un nivel de confianza del 95 %.
Dado que la población de alumnos en la facultad es finita (N = 1200) y τ = N p, donde
p denota la proporción de alumnos de la facultad que poseen una PC en casa, el problema
30
equivale a estimar p con un margen de error no mayor a e = 1200 = 0.025 y un nivel de
confianza del 95 %. Dado que p̄ se desconoce, tomaremos la regla conservadora p̄ = 12 . Con
ello, el tamaño de muestra requerido será de

z02.975 × 0.52 × 1200

n= = 674.0536 675 alumnos.
z02.975 × 0.52 + 0.0252 × 1199

Cabe observar que de no haberse tomado en cuenta el tamaño de la población (N → ∞),

uno hubiese obtenido, bajo el mismo error de estimación de 0.025, un tamaño de muestra
de n = 1537 alumnos, lo cual ciertamente no tiene sentido.

Observaciones

Dado que los tamaños de muestra se han basado en el estudio de un solo parámetro,
es lógico preguntarse qué pasarı́a si en una investigación existen varios parámetros
o variables de interés. En tal caso se sugiere ubicar, según los objetivos del estudio,
cuáles son los parámetros de relevancia. Hecho esto, uno puede obtener tantos tamaños
de muestra como parámetros de interés tenga y tomar el mayor valor de estos. Tal
estrategia garantiza que en todos los casos relevantes uno obtenga a lo más los errores
de estimación pre establecidos.

Los tamaños de muestra calculados deben siempre aproximarse por exceso a un núme-
ro entero; de lo contrario, no satisfacerı́amos el requerimiento del máximo error pre-
establecido. Por otro lado, es importante en la práctica inflar estos tamaños por no
respuesta. La información de tasas de no respuesta en estudios previos, pilotos o simi-
lares es en muchas situaciones fácil de obtener.

Hemos priorizado en el curso el muestreo bajo el contexto que nos interesa estimar
ciertos parámetros poblacionales. Sin embargo, en algunas aplicaciones el estudio es
comparativo o correlacional y más que estimar puntualmente parámetros con una pre-
cisión determinada nos podrı́a interesar, por ejemplo, poder detectar ciertas diferencias
entre las medias o proporciones de las poblaciones a comparar o estimar el efecto de
ciertas variables en un análisis de regresión. Estos análisis estadı́sticos se introducirán
en el capı́tulo 5.
2.3. ASPECTOS COMPUTACIONALES Y EL PAQUETE SURVEY 35

2.3. Aspectos computacionales y el paquete survey

Existen en la literatura diferentes softwares estadı́sticos que pueden utilizarse para ana-
lizar muestras complejas. Información sobre estos puede encontrarse, por ejemplo, en

[Link]

Nosotros usaremos, aparte del siempre útil Excel y de ciertas rutinas de R, los paquetes
survey y sampling de R. Del segundo nos ocuparemos en los capı́tulos posteriores. En cuanto
al primero, este tiene esencialmente dos propósitos principales:

Enlazar la data al diseño de metadata (pesos, probabilidades de selección, unidades

primarias, identificadores de estratos, etc.) con el fin de poder realizar los ajustes
que sean necesarios al diseño de manera confiable y automática. Esto se hace con las
funciones svydesign y svrepdesign que crean objetos que contienen no solo la base
de datos, sino también la información del diseño. Ası́, por ejemplo, uno podrı́a extraer
un subconjunto de la data y preservar su diseño aplicado a este subconjunto.

Proveer de estimaciones válidas, con sus errores estándar de estimación estimados,

para diferentes estadı́sticos y procedimientos, de tal manera que se respete el diseño
de muestreo probabilı́stico empleado.

El primer paso para realizar un análisis con el paquete survey consiste en crear un objeto
diseño apropiado que contenga la data y la metada necesarias. Esto se hace con la función
svydesign o svrepdesign en caso de que se den pesos de replicación. Las funciones de
análisis usualmente toman como argumento el objeto diseño y una fórmula modelo que
especifica las variables que se usarán. Los nombres de las funciones de análisis para los
objetos creados con svydesign y svrepdesign comienzan con svy y svr, respectivamente.
Seguidamente brindaremos una introducción al uso del paquete survey y de paso presen-
taremos algunas bases reales de datos censales que utilizaremos a lo largo del curso.

2.3.1. La base de datos api

Nuestro primer ejemplo del uso del paquete survey será con el análisis de un MAS para
la población contenida en la base de datos api. Una descripción de esta base junto y la
información de las 37 variables en ella consideradas puede encontrarse en

[Link]

Cabe comentar, como resumen, que el estado de California exige anualmente una evaluación
de sus escuelas públicas. En tal sentido, el departamento de educación de este estado registra
anualmente el ı́ndice api (de academic performance index), que mide cuán bien va una escuela
36 CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE

en términos de rendimiento. El archivo api contiene este ı́ndice e información demográfica

de todas las 6194 escuelas públicas de California con al menos 100 alumnos por escuela.
Para acceder a la base de datos y al uso del paquete survey (que debe instalarse con
antelación) escribamos

library(survey)
data(api)
head(apipop,4)

## cds stype name sname snum

## 1 01611190130229 H Alameda High Alameda High 1
## 2 01611190132878 H Encinal High Encinal High 2
## 3 01611196000004 M Chipman Middle Chipman Middle 3
## 4 01611196090005 E Lum (Donald D.) Lum (Donald D.) Elementary 4
## dname dnum cname cnum flag pcttest api00 api99 target
## 1 Alameda City Unified 6 Alameda 1 NA 96 731 693 5
## 2 Alameda City Unified 6 Alameda 1 NA 99 622 589 11
## 3 Alameda City Unified 6 Alameda 1 NA 99 622 572 11
## 4 Alameda City Unified 6 Alameda 1 NA 99 774 732 3
## growth [Link] [Link] both awards meals ell [Link] mobility acs.k3
## 1 38 Yes Yes Yes Yes 14 16 <NA> 9 NA
## 2 33 Yes No No No 20 18 <NA> 13 NA
## 3 50 Yes Yes Yes Yes 55 25 <NA> 20 NA
## 4 42 Yes Yes Yes Yes 35 26 <NA> 21 20
## acs.46 [Link] [Link] [Link] hsg [Link] [Link] [Link] [Link]
## 1 NA 25 91 6 16 22 38 18 3.45
## 2 NA 27 84 11 20 29 31 9 3.06
## 3 26 27 86 11 31 30 20 8 2.82
## 4 30 NA 96 3 22 29 31 15 3.32
## full emer enroll [Link]
## 1 85 16 1278 1090
## 2 90 10 1113 840
## 3 80 12 546 472
## 4 96 4 330 272

Aquı́ mostramos los cuatro primeros registros de la base de datos api (que está en
apipop). Consideremos ahora un MASs de escuelas públicas de tamaño 100, donde hemos
fijado la semilla aleatoria anteriormente comentada para que usted pueda replicar los mismos
resultados aquı́ obtenidos.
2.3. ASPECTOS COMPUTACIONALES Y EL PAQUETE SURVEY 37

[Link](12345)
N = dim(apipop)[1]
n = 100
index1 = sample(N,n)
sample1 = apipop[index1,]

Por razones que comentaremos luego, será también interesante agregar a esta base dos
nuevas variables: fpc y pp. La primera es el tamaño de la población (6194); y la otra, la
probabilidad de selección de cada elemento en la población pp = Nn . Ello se hace con

aux = [Link](fpc = rep(N,100), pp = rep(n/N,100))

sample1 = cbind(sample1,aux)

Definamos ahora el siguiente objeto diseño apropiado que contenga la data y metada
necesarias:

diseMASs = svydesign(ids = ~1,fpc = ~fpc,data = sample1)

El argumento ids es para indicar las variables de conglomeración, las cuales en nuestro
caso no existen y es por ello que colocamos ids=~[Link] argumento fpc (de factor de correc-
ción para poblaciones finitas) indica el tamaño de la población, con lo cual implı́citamente
asumimos que se deben aplicar las formulaciones de corrección para poblaciones finitas y que
se está realizando un muestreo sin reemplazamiento. La notación ∼ indica que la variable
fpc está ya definida en la muestra sample1. Si el argumento fpc se omite, entonces deben
indicarse las probabilidades de selección o los pesos de muestreo, en cuyo caso se estarı́a
asumiendo implı́citamente un muestreo con reemplazamiento. Tanto ids como fpc, aparte
de los valores por defecto, conforman la metadata del diseño.
Otro diseño que podrı́a aplicarse en este mismo ejemplo es un MASc, para lo cual de-
berı́amos tomar formalmente la muestra aleatoria con reemplazamiento mediante

[Link](12345)
sample2 = apipop[sample(N,100, replace=TRUE),]
sample2 = cbind(sample2,aux)

El objeto diseño correspondiente serı́a

diseMASc = svydesign(ids = ~1,probs = ~pp,data = sample2)

De pedirse información, obtendrı́amos

38 CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE

diseMASc

## Independent Sampling design (with replacement)

## svydesign(ids = ~1, probs = ~pp, data = sample2)

Supongamos ahora que estamos interesados en estimar ciertos parámetros poblacionales,

como, por ejemplo, el número total de alumnos matriculados, la proporción por tipo de
escuelas y las medias y diferencia de medias del api entre 1999 y 2000. Bajo el diseño MASs,
esto se puede hacer mediante

svytotal(~enroll,diseMASs)

## total SE
## enroll NA NA

svymean(~stype, diseMASs)

## mean SE
## stypeE 0.68 0.05
## stypeH 0.20 0.04
## stypeM 0.12 0.03

means1 = svymean(~api00+api99,diseMASs)
means1

## mean SE
## api00 652 12.6
## api99 628 12.9

svycontrast(means1,c(api00=1,api99=-1))

## contrast SE
## contrast 24.5 2.96

El hecho de que en el primer resultado se obtenga NA se debe a que la muestra contiene

algún o algunos casos perdidos. Esto puede corregirse eliminando tales mediante

svytotal(~enroll,diseMASs,[Link]=T)

## total SE
## enroll 4115727 291390
2.3. ASPECTOS COMPUTACIONALES Y EL PAQUETE SURVEY 39

Con un MASc, lo anterior se convierte en

svytotal(~enroll,diseMASc,[Link]=T)

## total SE
## enroll 3979335 303578

Tenemos también

svymean(~stype, diseMASc)

## mean SE
## stypeE 0.70 0.05
## stypeH 0.11 0.03
## stypeM 0.19 0.04

(means1 = svymean(~api00+api99,diseMASc))

## mean SE
## api00 678 11.6
## api99 648 12.1

svycontrast(means1,c(api00=1,api99=-1))

## contrast SE
## contrast 30.4 2.84

Una justificación formal del último resultado, se puede encontrar en los ejercicios 20 y 28
de este capı́tulo.

2.3.2. La evaluación censal de estudiantes 2019

La unidad de medición de la calidad de los aprendizajes (UMC) del Ministerio de Edu-
cación, publicó el 2020 los resultados de la última evaluación censal de estudiantes (ECE)
2019. La página web correspondiente contiene información variada, entre la que destacan
las bases de datos en formato SPSS no solo de la ECE 2019 sino también la de años ante-
riores. Nosotros consideraremos inicialmente a la población objetivo de los rendimientos en
el segundo grado de secundaria de la Dirección Regional de Amazonas (en adelante DRE
Amazonas). Más adelante trabajaremos con una población mayor. Vale reiterar que estos
datos son censales, aunque en el caso del segundo grado se incluyen solo a aquellas escuelas
con más de 5 alumnos. No estamos tampoco incluyendo los factores de ajuste o ponderación
40 CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE

por casos pérdidos, que se incluyen para replicar los resultados dados por la UMC. Las va-
riables de interés para esta base de datos serán los puntajes de evaluación en las áreas de
Lectura, Matemáticas y Ciencia y Tecnologı́a (todas en una escala Rasch normalizada a 500
puntos). Para el Ministerio, los niveles de logro son de particular interés. Estos se obtienen
al categorizar los puntajes anteriores en cuatro niveles: previo al inicio, en inicio, en proceso
y satisfactorio.
Luego de instalar el paquete foreign, podremos operacionalizar la base de datos nacional
mediante

library(foreign)
ece19 = [Link]([Link](), [Link]=TRUE)
#[Link]() permite buscar en su hardware el archivo ECE_2S_2019_WEB.sav
setwd("~/Documents/TextoMuestreo2020") # fija el directorio de trabajo (DT)
save(ece19,file='[Link]') # graba el archivo [Link] en su DT

Se muestran abajo, los primeros tres registros de la base de la DRE Amazonas

setwd("~/Documents/TextoMuestreo2020")
load("[Link]")
# Filtrando la base de datos para Cajamarca
ece19Am = ece19[ece19$Departamento==levels(ece19$Departamento)[1],]
#save(ece19Am,file='[Link]')
head(ece19Am,3)

## ID_IE ID_Seccion cor_est cod_DRE nom_dre cod_UGEL

## 44817 21273 01 01 0100 Amazonas 010002
## 44818 21273 01 02 0100 Amazonas 010002
## 44819 21273 01 03 0100 Amazonas 010002
## nom_ugel codgeo Departamento
## 44817 Bagua 010201 AMAZONAS
## 44818 Bagua 010201 AMAZONAS
## 44819 Bagua 010201 AMAZONAS
## Provincia Distrito
## 44817 BAGUA BAGUA
## 44818 BAGUA BAGUA
## 44819 BAGUA BAGUA
## gestion2 area sexo M500_L grupo_L M500_M grupo_M M500_CT
## 44817 Estatal Urbana Hombre 639 En proceso 620 En proceso 542
## 44818 Estatal Urbana Hombre 634 En proceso 647 En proceso 602
## 44819 Estatal Urbana Hombre 616 En proceso 563 En inicio 620
2.3. ASPECTOS COMPUTACIONALES Y EL PAQUETE SURVEY 41

## grupo_CT aj_lectura aj_matematica aj_ct ISE

## 44817 En proceso 1.03 1.03 1.07 -0.849
## 44818 En proceso 1.03 1.03 1.07 0.826
## 44819 En proceso 1.03 1.03 1.07 0.928

Note que, a diferencia de la base de datos api, las unidades en esta base son alumnos y
no colegios.
Supongamos ahora que nuestro interés sea estimar el rendimiento medio de los alumnos
tanto en Lectura (L), Matemáticas (M) y Ciencia y Tecnologı́a (CT), con un margen de error
no mayor a 5 puntos y un nivel de confianza del 95 %. Para encontrar el tamaño de muestra
requeriremos de estimaciones de la varianza de estos puntajes, las cuales las podrı́amos
obtener de la ECE 2018 o a través de un estudio piloto. Si optamos por un piloto de 30
alumnos, la selección correspondiente, ası́ como la estimación de las varianzas requeridas, se
hará como sigue.

[Link](12345)
N = dim(ece19Am)[1]
index1 = sample(N,30)
mp19Am = ece19Am[index1,]
dismp = svydesign(id=~1,fpc=rep(N,30),data=mp19Am)
sigmae2_L = coef(svyvar(~M500_L,dismp,[Link]=T))
sigmae2_M = coef(svyvar(~M500_M,dismp,[Link]=T))
sigmae2_CT = coef(svyvar(~M500_CT,dismp,[Link]=T))

Dado que tenemos tres variables, optaremos, como comentamos, por seleccionar el mayor
tamaño de muestra bajo estas utilizando un redondeo por exceso.

d = 25*N/(qnorm(0.975)^2)
n1 = N*sigmae2_L/(d + sigmae2_L)
n2 = N*sigmae2_M/(d + sigmae2_M)
n3 = N*sigmae2_CT/(d + sigmae2_CT)
(n = ceiling(max(n1,n2,n3)))

## [1] 1662

La toma de muestra, definición del diseño y estimaciones de los rendimientos y propor-

ciones de logro se muestran a continuación:
42 CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE

[Link](12345)
index = sample(N,n)
m19Am = ece19Am[index,]
disem = svydesign(id=~1,fpc=rep(N,n),data=m19Am)
svymean(~M500_L,disem,[Link]=T)

## mean SE
## M500_L 536 1.62

svymean(~M500_M,disem,[Link]=T)

## mean SE
## M500_M 533 2.29

svymean(~M500_CT,disem,[Link]=T)

## mean SE
## M500_CT 469 2.59

meanp_L = svymean(~grupo_L,disem,[Link]=T)
meanp_M = svymean(~grupo_M,disem,[Link]=T)
meanp_CT = svymean(~grupo_CT,disem,[Link]=T)

pr = rbind(meanp_L,meanp_M,meanp_CT)
colnames(pr) = c("Previo al inicio","Inicio","En proceso","Satisfactorio")
pr

## Previo al inicio Inicio En proceso Satisfactorio

## meanp_L 0.331 0.403 0.187 0.0790
## meanp_M 0.448 0.294 0.145 0.1133
## meanp_CT 0.209 0.410 0.313 0.0675

2.3.3. El censo nacional de población penitenciaria 2016

El censo nacional de población penitenciaria 2016, realizado por primera vez en el paı́s
por el Instituto Nacional de Estadı́stica e Informática (INEI), generó información estadı́stica
cuantitativa y cualitativa actualizada sobre la problemática penitenciaria en el Perú. La base
de datos de este censo es de libre disponibilidad y se puede encontrar en la siguiente página
web del INEI:
[Link]
2.3. ASPECTOS COMPUTACIONALES Y EL PAQUETE SURVEY 43

La versión de esta base de datos, que utilizaremos a lo largo del texto, se encuentra en el
archivo [Link]. Ella está en formato SPSS y contiene todos los 76 180 registros de personas
privadas de libertad en el paı́s consignadas en el censo y la gran mayorı́a de preguntas de la
encuesta, la cual también se encuentra disponible en la página web del INEI. Para utilizar
la base de datos en R, debemos instalar el paquete foreign y luego invocar los comandos

library(foreign)
#cp16b <- [Link]([Link](), [Link]=TRUE)
cp16b <- [Link]("[Link]", [Link]=TRUE)
cp16 = [Link](cp16b)
cp16_labels <- attr(cp16b, "[Link]")
cp16_cat <- attr(cp16b, "[Link]")
save(cp16,file='[Link]')

La base de datos a utilizar es cp16; mientras que los archivos cp16_labels y cp16_cat
contienen información de, respectivamente, las etiquetas y categorı́as de las variables selec-
cionadas. Como se aprecia, la base de datos cp16 ha sido también grabada para uso futuro
en el formato de R. Esta base tiene, como seguidamente se aprecia, 189 variables, de las
cuales mostramos las primeras 18.

head(cp16[,1:18])

## ID PDEP PPROV PDIS PCP

## 1 3 CAJAMARCA
CAJAMARCA CAJAMARCA CAJAMARCA
## 2 19 CAJAMARCA
CAJAMARCA CAJAMARCA CAJAMARCA
## 3 24 CAJAMARCA
CAJAMARCA CAJAMARCA CAJAMARCA
## 4 26 CAJAMARCA
CAJAMARCA CAJAMARCA CAJAMARCA
## 5 39 CAJAMARCA
CAJAMARCA CAJAMARCA CAJAMARCA
## 6 40 CAJAMARCA
CAJAMARCA CAJAMARCA CAJAMARCA
## OFICINA_R EST_PENIT PABELLON GENERO E_CIVIL
## 1 Oficina Regional Norte Chiclayo Cajamarca 4 Mujer Casado(a)
## 2 Oficina Regional Norte Chiclayo Cajamarca NA Mujer Viudo(a)
## 3 Oficina Regional Norte Chiclayo Cajamarca NA Hombre Casado(a)
## 4 Oficina Regional Norte Chiclayo Cajamarca NA Hombre Viudo(a)
## 5 Oficina Regional Norte Chiclayo Cajamarca 3 Hombre Casado(a)
## 6 Oficina Regional Norte Chiclayo Cajamarca 7 Hombre Conviviente
## RELIGION EDAD NACIONALIDAD PAIS_NAC DEP_NAC DEP_URES
## 1 Católica 39 PERUANO PERU LIMA LIMA
## 2 Mormón 49 PERUANO PERU LIMA LIMA
## 3 Ninguna 25 PERUANO ESTADOS UNIDOS NA NA
44 CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE

## 4 Otra 26 PERUANO PERU CUSCO LIMA

## 5 Evangélica 49 PERUANO PERU CAJAMARCA CAJAMARCA
## 6 Ninguna 40 PERUANO PERU LA LIBERTAD CAJAMARCA
## CP_URES DEL_GENERICO_CD
## 1 CIUDAD DE DIOS DELITOS CONTRA EL PATRIMONIO
## 2 BARRIO OBRERO INDUST DELITOS CONTRA EL PATRIMONIO
## 3 DELITOS CONTRA EL PATRIMONIO
## 4 VILLA EL SALVADOR DELITOS CONTRA EL PATRIMONIO
## 5 LA COLPA DELITOS CONTRA LA ADMINISTRACION PUBLICA
## 6 CAJAMARCA DELITOS CONTRA EL PATRIMONIO

La distribución de frecuencias del número de internos, condición de género (CG) y ca-

pacidad de los establecimientos penitenciarios en cada oficina regional y departamento se
muestran en el cuadro 2.4.
Como una primera aproximación al análisis de la base de datos consideraremos un MASs,
cuyo objetivo será estimar cualquier proporción poblacional con un margen de error no mayor
a 0.03 y una confianza del 95 %. Para ello, el tamaño de muestra requerido estará dado por

1.962 × 0.5 × (1 − 0.5) × 76 180

n= = 1052.383
1.962 × 0.5 × (1 − 0.5) + 0.032 × 76 179

que redondeando nos da un valor de 1053 internos. Si bien usaremos este número, cabe
comentar que ello es si asumimos que todos responderán a la encuesta. En encuestas similares
para la región se han encontrado tasas de no respuesta de entre el 21 y 22 %. Una práctica
que comentamos es la de inflar este número ante la posibilidad de no respuesta. Ello nos
sugerirı́a encuestar a 1285 internos. Para efectos de este ejercicio tomaremos solo 1053, ya
que en nuestro caso es posible acceder a toda la información. Tomada la muestra, estimemos
la edad promedio de los internos, la proporción de internos sentenciados y la proporción de
estos que tienen un abogado. Los códigos siguientes nos permitarán hacer todo ello.

[Link](12345)
load('[Link]')
N = dim(cp16)[1]
index = sample(N,1053)
sample = cp16[index,]
diseMASs = svydesign(id=~1,fpc=rep(N,1053),data = sample)
svymean(~EDAD, diseMASs,[Link]=T)

## mean SE
## EDAD 35.8 0.35
2.3. ASPECTOS COMPUTACIONALES Y EL PAQUETE SURVEY 45

OFICINA REGIONAL DEPARTAMENTO [Link] NUMERO DE INTERNOS CG Capacidad

Norte Chiclayo CAJAMARCA Cajamarca 1389 Mix 888
Chota 131 H 65
Jaen 377 Mix 50
San Ignacio 79 H 150
LA LIBERTAD Pacasmayo 11 M 72
Trujillo 4471 H 1518
Mujeres de Trujillo 283 M 160
LAMBAYEQUE Chiclayo 3163 Mix 1143
PIURA Piura 3098 H 1370
Sullana 94 M 50
TUMBES Tumbes 860 Mix 384
Lima ANCASH Huaraz 1014 Mix 350
Chimbote 2321 Mix 920
CALLAO Callao 3201 H 572
Base Naval Callao 7 H 8
ICA Chincha 1331 H 1152
Ica 3943 Mix 1464
LIMA Cañete 1982 H 768
Huaral 3164 H 823
Huacho 1738 Mix 644
Ancon 2289 H 1620
Modelo Ancon II 1462 Mix 2200
Anexo Mujeres Chorrillos 309 M 288
Mujeres de Chorrillos 810 M 450
Virgen de Fatima 339 M 548
Virgen de la Merced 13 H 42
Lurigancho 9602 H 3204
Miguel Castro Castro 4359 H 1142
Barbadillo 1 H 1
Sur Arequipa AREQUIPA Arequipa 1971 H 667
Mujeres de Arequipa 151 M 67
Camana 262 H 78
TACNA Tacna 830 H 222
Mujeres de Tacna 110 M 40
Challapalca 162 H 214
Centro Huancayo AYACUCHO Ayacucho 2438 Mix 644
Huanta 101 H 42
HUANCAVELICA Huancavelica 200 H 60
JUNIN Chanchamayo 572 Mix 120
Huancayo 1972 H 680
Mujeres de Concepción 31 M 105
Jauja 104 M 85
Satipo 164 H 50
Tarma 84 H 48
Oroya 114 Mix 64
Oriente Huanuco (Pucallpa) HUANUCO Huanuco 2554 Mix 1074
PASCO Cerro Pasco 195 Mix 96
UCAYALI Pucallpa 2053 Mix 788
Sur Oriente Cusco APURIMAC Abancay 256 Mix 90
Andahuaylas 354 Mix 248
CUSCO Cusco 2288 H 800
Mujeres del cusco 137 M 62
Quillabamba 347 Mix 80
MADRE DE DIOS Pto. Maldonado 712 H 590
Nor Oriente San Martı́n AMAZONAS Chachapoyas 629 Mix 288
Bagua Grande 230 Mix 60
LORETO Yurimaguas 157 Mix 286
Iquitos 1025 H 600
Mujeres de Iquitos 64 M 78
SAN MARTIN Juanjui 686 Mix 654
Moyobamba 588 Mix 544
Sananguillo 548 H 636
Tarapoto 463 H 180
Altiplano Puno PUNO Lampa 136 M 44
Puno 582 H 778
Juliaca 1069 Mix 420

Cuadro 2.4: Distribución de frecuencias del número de internos, condición de género (CG)
y capacidad de los establecimientos penitenciarios en cada oficina regional y departamento
del Perú
46 CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE

svymean(~SITUACION_JURIDICA,diseMASs,[Link]=T)

## mean SE
## SITUACION_JURIDICAProcesado 0.222 0.01
## SITUACION_JURIDICASentenciado 0.778 0.01

svymean(~ABOGADO,diseMASs,[Link]=T)

## mean SE
## ABOGADOSı́ 0.53 0.02
## ABOGADONo 0.47 0.02

Otro análisis de interés podrı́a ser determinar si existe relación entre si el interno consumı́a
drogas o no y el tipo de delito que ha cometido. Antes de analizar ello será conveniente
recodificar la tipicidad del delito a los delitos más comunes, creando la variable DGEN.
Como la prueba indica y se visualiza en la figura 2.2 de barras agrupadas, no encontramos
evidencia de una asociación entre el consumo de drogas y la tipificación del delito.

DGEN = cp16$DEL_GENERICO_CD
levels(DGEN)[c(1,2,3,4,5,7,8,9,10,11,14,16,17,18,19)] = "OTROS"
DGEN = DGEN[index]
DGEN = factor(DGEN,levels(DGEN)[c(2,3,4,5,1)])
[Link](DGEN,sample$DROGAS)

##
## Pearson's Chi-squared test
##
## data: DGEN and sample$DROGAS
## X-squared = 3, df = 4, p-value = 0.6

tab = table(sample$DROGAS,DGEN)

2.3.4. La población peruana con DNI 2018

Este último ejemplo considera a la población peruana que se encuentra en el Registro
Nacional de Identificación y Estado Civil (RENIEC) al 31 de diciembre de 2018 y que,
por tanto, cuenta con su documento nacional de identidad (DNI), el cual otorga derecho
a sufragio a partir de los 18 años. La información pública del RENIEC incluye el lugar de
residencia, edad, sexo y condición de extranjerı́a de la persona. Esta base de datos puede
2.3. ASPECTOS COMPUTACIONALES Y EL PAQUETE SURVEY 47

Consumo de drogas por tipo de delito

Sí
No

300
250
200
150
100
50
0

Contra el Contra la Contra la Contra la

patrimonio libertad seg. pública vida y salud Otros

Tipos de delito

Figura 2.2: Frecuencias de consumo de drogas por tipo de delito

obtenerse en formato Excel o SPSS desde la página web de esta institución. Una mirada a
la base de datos

library(foreign)
reniec18 = [Link]("BD_Pob_Identificada_2018_Spss.sav")
reniec18 = [Link](lapply(reniec18, trimws))
head(reniec18,3)

## RESIDENCIA UBIGEO_RENIEC UBIGEO_INEI Continente_R CONTI0 Pais_R PAIS_0

## 1 Nacional 010101 010101 América Perú
## 2 Nacional 010101 010101 América Perú
## 3 Nacional 010101 010101 América Perú
## DEPARTAMENTO PROVINCIA DISTRITO SEXO EDAD CANTIDAD
## 1 Amazonas Chachapoyas Chachapoyas Hombre 0 336
## 2 Amazonas Chachapoyas Chachapoyas Hombre 1 366
## 3 Amazonas Chachapoyas Chachapoyas Hombre 2 361

revela que la última variable, CANTIDAD, contiene la frecuencia de casos que comparten las
demás variables. Como ilustración, en 2018 se tenı́an 336 varones registrados en el distrito
48 CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE

de Chachapoyas, provincia de Chachapoyas y departamento de Amazonas, que no cumplı́an

aún el año de edad. Esta variable, por tanto, es una variable de ponderación para toda la
base de datos, con lo cual ella contendrá a nivel nacional una cantidad de registros igual a

Cantidad = [Link](paste(reniec18$CANTIDAD))
(N = sum(Cantidad))

## [1] 34894246

En este ejemplo estaremos interesados en estimar cualquier proporción de interés con

un margen de error no mayor a 0.02 y una confianza del 95 % mediante un MASs. Esto
podrı́a ser útil, por ejemplo, para una encuesta de opinión pública, solo que para acceder
a la vivienda especı́fica del entrevistado se deberı́a conocer la dirección u otra información
pertinente. Si tomamos la regla conservadora de p̄ = 0.5, entonces el tamaño de muestra
requerido será de

(n = qnorm(0.975)^2*0.5^2*N/(qnorm(0.975)^2*0.5^2 + 0.02^2*(N-1)))

## [1] 2401

Para tomar esta muestra requeriremos expandir antes la base de datos de individuos por
la variable CANTIDAD. Esto puede hacerse con el siguiente comando en R, en el cual
generaremos la base de datos expandida [Link]:

reniec18x = reniec18[rep(1:nrow(reniec18),Cantidad),]
reniec18x = cbind(id=1:N,reniec18x)
save(reniec18x,file='[Link]')

Si tomamos el MASs planificado, obtendremos la siguiente base de datos muestral:

load('[Link]')
[Link](12345)
indexp = sample(N,2401)
sampleDNI = reniec18x[indexp,]
sampleDNI[1:7,c(1,8:12)]

## id PAIS_0 DEPARTAMENTO PROVINCIA DISTRITO

## 267934.451 25155398 Lima Huaral Huaral
## 326175.16 30559446 Puno Moho Moho
## 280492.53 26553905 Loreto Datem del Mara~nón Andoas
## 331922.32 30920649 San Martı́n Mariscal Cáceres Pajarillo
2.3. ASPECTOS COMPUTACIONALES Y EL PAQUETE SURVEY 49

## 240810.4190 15928559 Lima Lima Comas

## 125997.100 5805418 Cajamarca San Ignacio Namballe
## 216292.2041 11343959 La Libertad Trujillo Trujillo
## SEXO
## 267934.451 Mujer
## 326175.16 Mujer
## 280492.53 Mujer
## 331922.32 Hombre
## 240810.4190 Hombre
## 125997.100 Hombre
## 216292.2041 Mujer

Si bien considerar aquı́ un MASs es teóricamente posible y ha sido en este y en los

anteriores ejemplos bastante simple, este no es ciertamente un diseño recomendable para
poblaciones tan grandes como las aquı́ consideradas. En nuestros ejemplos contamos en to-
dos los casos con una base de datos poblacional, situación que raramente se presenta en la
práctica. En la realidad, frecuentemente el marco muestral está desactualizado, pobremen-
te definido o es inexistente y, por otro lado, la muestra aleatoria simple resulta estar tan
geográficamente dispersa que los costos y la logı́stica resultan inmanejables. En esta mues-
tra, por ejemplo, apreciemos el lugar de residencia de las 6 primeras personas seleccionadas.
Si la encuesta objetivo es de opinión y se puede tener incluso la dirección de las personas
a encuestar, demandarı́a un arduo y costoso trabajo tratar de ubicarlas por la lejanı́a entre
ellas y el aparato logı́stico que se tendrı́a que implementar para garantizar la supervisión y
calidad del trabajo de campo. En los capı́tulos siguientes exploraremos diseños mucho más
apropiados para los fines buscados.
Para terminar, obtengamos la estimación de la proporción de mujeres y de personas con
derecho a votar (con 18 o más años de edad) en esta población.

diseDNI = svydesign(ids=~1,fpc=rep(N,nrow(sampleDNI)),data=sampleDNI)
Edad=[Link](paste(sampleDNI$EDAD))
diseDNI = update(diseDNI,Edad)
svymean(~Edad>=18,diseDNI)

## mean SE
## Edad >= 18FALSE 0.309 0.01
## Edad >= 18TRUE 0.691 0.01
50 CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE

2.4. Ejercicios
1. Considere una población conformada por 6 personas, a las que se les ha medido el nivel de
hemoglobina en gramos por decilitro, y en las que se ha encontrado las siguientes mediciones

13.9, 11.5, 16.7, 14.4, 14.6, 15.1.

Mediante un MASc y un MASs de tamaño n = 3,

a) Halle la probabilidad de que la media del nivel de hemoglobina de las 3 personas seleccio-
nadas supere los 14 gramos por decilitro.
b) Suponga que para estimar el nivel promedio de hemoglobina en estas personas se propone
la mediana de los valores observados en la muestra. ¿Serı́a este un estimador insesgado?
¿Tiene este una menor varianza que la media muestral?
c) Usando los números aleatorios 0.018, 0.310 y 0.549, tome las muestras requeridas y estime
la media del nivel de hemoglobina de las 6 personas.

2. Una manera de estimar el tamaño N de una población consiste en usar métodos de captura-
recaptura. Estos empiezan seleccionándose al azar m elementos de la población para que sean
marcados y luego repuestos a la población. Seguidamente se tienen dos estrategias. El método
directo consiste en seleccionar al azar y sin reemplazamiento una muestra de n elementos de
la población para registrar el número de elementos marcados X que se encuentren en ella. El
segundo método, llamado muestreo inverso, consiste en seleccionar secuencialmente al azar
y con reemplazamiento (podrı́a también analizar el caso sin reemplazamiento) elementos
de la población hasta ubicar r elementos marcados. Con ello se tienen los siguientes dos
estimadores de N :
nm mY
N̂1 = y N̂2 = ,
X r
donde Y denota el número de intentos hasta obtener la cuota de r elementos marcados.
a) Usando una expansión de Taylor adecuada, muestre que aproximadamente se cumple que
−m)(N −n) 2 −m)(N −n)
E(N̂1 ) = N + 2N (N
nm(N −1)
y V (N̂1 ) = N (N
nm(N −1)
.
b) Como se aprecia en a), N̂1 es no solo un estimador sesgado de N , sino que presenta
una gran varianza si la muestra correspondiente contiene muy pocos elementos marcados.
Muestre que, contrariamente, N̂2 es un estimador insesgado de N y que tiene una varianza
igual a
N (N − m)
V (N̂2 ) = .
r
Pruebe además que
m2 Y (Y − r)
V̂ (N̂2 ) =
r2 (r + 1)
es un estimador insesgado de la varianza última. ¿Qué desventaja cree que pudiera tener
este método con respecto al muestreo directo?
2.4. EJERCICIOS 51

c) Suponga que para estimar el número de personas N que pertenecen a un gran consorcio se
han seleccionado al azar a 20 de sus trabajadores, a quienes se les ha registrado y colocado
un sello en su DNI. Tiempo después, la Dirección de Recursos Humanos tomó un MASs de
100 trabajadores, y encontro que 4 de ellos tenı́an el sello en el DNI. Por su parte, usted
optó más bien por seleccionar secuencialmente al azar y con reemplazamiento trabajadores
del consorcio hasta ubicar a 5 con el sello en el DNI, y realizó un total de 127 registros.
Obtenga las estimaciones correspondientes de N y de las varianzas de estos estimadores.
Comente.

3. Demuestre que en un MASc la media muestral es el MELI de la media poblacional y que

2
la varianza muestral es una estimador insesgado de σN .

4. Considere una población finita de tamaño N en la que se desea estudiar una variable
estadı́stica y, la cual toma un valor muy pequeño para el primer elemento del marco muestral
y1 y un valor muy grande para el último elemento del marco muestral yN . Con el propósito
de estimar la media de y para esta población, µ, se ha propuesto, sobre la base de un MASs
de tamaño n, el estimador


 Ȳ + c si y1 pertence a la muestra e yN no pertence a la muestra
Ȳc = Ȳ − c si y1 no pertence a la muestra e yN pertence a la muestra

 Ȳ en otro caso,

donde c es una constante positiva.

a) ¿Es Ȳc un estimador insesgado de µ?
b) Halle la varianza de Ȳc .
c) ¿Existen valores de c que hagan que Ȳc , tenga menor varianza que Ȳ ? ¿Contradice esto a
que Ȳ sea el MELI de µ?

5. Suponga que desea estimar, con un error no mayor al 3 % y una confianza del 95 %, la
prevalencia de una rara enfermedad al interior de una pequeña comunidad de 500 habitantes.
Se espera que la proporción de personas de la comunidad que tengan la enfermedad sea
pequeña, lo cual se ha evidenciado en una muestra piloto realizada a 30 de sus habitantes
en la que se encontró que solo 2 de ellos tenı́an la enfermedad.
a) Halle el tamaño de muestra apropiado para este estudio.
b) Puesto que la proporción a estimar es extrema, utilice más bien un IC de Wilson para
obtener el tamaño de muestra. Comente la diferencia encontrada con a) e indique cuál de
los dos tamaños de muestra utilizarı́a para el estudio. Justifique.

6. Muestre que en un MASc de tamaño n, sobre una población de tamaño N , el número

total de muestras distintas que se podrı́an tomar es

CnN +n−1 .
52 CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE

7. En una empresa de 3200 empleados se realizaron dos encuestas independientes por MASs
de tamaños 100 y 64 a fin de medir, entre otras cosas, el tiempo diario que le toma a un
empleado llegar de su casa a la empresa. Las divisiones de la empresa, que realizaron estas
encuestas, no supieron que la otra lo habı́a realizado y al enterarse han decidido unir sus
bases de datos.
a) ¿Conforma la media de las 164 observaciones del tiempo de interés un estimador insesgado
del tiempo medio de transporte de un empleado a la empresa?
b) Si se define como estimador de la varianza de los tiempos de transporte a

100S12 + 64S22
S2 = ,
164
donde S12 y S2 son las varianzas muestrales de estos tiempos en las encuestas con 100 y 64
empleados, respectivamente, ¿es este un estimador insesgado?
c) Obtenga el error estándar de estimación estimado del estimador en a), si en las muestras
de tamaños 100 y 64, se obtuvieron desviaciones estándar muestrales para los tiempos de
transporte de 8.625 y 10.162 minutos, respectivamente.
8. Una ciudad cuenta con 720 fábricas, de las cuales 10, 20 y 8 pertenecen, respectivamente, a
los consorcios A, B y C. El Ministerio de Trabajo desea hacer un estudio de salud ocupacional
en las fábricas de la ciudad. Dado que muchos de los indicadores a estudiar son proporciones,
el Ministerio desea tomar un MASs de tamaño n de tal manera que pueda estimar cualquier
proporción con un margen de error no mayor a 0.1 y un nivel de confianza del 95 %.
a) ¿Cuál deberı́a ser el tamaño de muestra a tomarse?
b) ¿Con qué probabilidad se seleccionará en la muestra, del tamaño tomado en a), a alguna
de las fábricas del consorcio B?
c) Suponga que tomada la muestra en a), y dadas las caracterı́sticas especiales de los 3
consorcios en mención, el Ministerio ordena que, de ser seleccionada cualquier fábrica de
algunos de los consorcios, se seleccione igualmente a todas las fábricas del consorcio elegido.
¿Cuál serı́a el tamaño de muestra final que esperarı́a obtener a través de este procedimiento?
9. En cierta área de una ciudad, que contiene 14 848 residencias, se desea estimar el número
promedio de personas µ por residencia. Si en un MASs de tamaño 30 se obtuvieron las
siguientes cantidades de personas por residencia:

5, 6, 3, 3, 2, 3, 3, 3, 4, 4, 3, 2, 7, 4, 3, 5, 4, 4, 3, 3, 4, 3, 3, 1, 2, 4, 3, 4, 2, 4.

a) Estime µ y su intervalo de confianza al 95 %.

b) Estime e interprete el coeficiente de variación del número de personas por residencia.
c) Suponga que se desea estimar el número medio anterior con el doble de precisión que la
brindada por la muestra anterior. ¿Cuál deberı́a ser el tamaño de muestra para lograr esta
precisión?
2.4. EJERCICIOS 53

10. Su distrito, que cuenta con N viviendas, participará en una encuesta por MASs de
tamaño n. Suponga que existe una probabilidad constante q de que una vivienda del distrito
no responda la encuesta. Para prevenir la no respuesta, el supervisor ha decidido, de ser
necesario, seleccionar al azar y sin reemplazamiento durante un segundo dı́a un número
igual al número de viviendas sin respuesta del primer dı́a de entre las viviendas aún no
seleccionadas.
a) ¿Con qué probabilidad será encuestada su vivienda el primer dı́a?
b) Si en el primer dı́a su vivienda no es seleccionada y no hubo respuestas en M viviendas,
¿con qué probabilidad será seleccionada su vivienda el segundo dı́a?
c) Si sus padres residen en otra vivienda de su distrito, ¿qué probabilidad existe de que su
vivienda y la de sus padres sean seleccionadas?
d) ¿Con qué probabilidad no será posible completar el tamaño de muestra que ha sido
planificado para la encuesta?
e) Obtenga d) si q = 0.06 y n = 100.
11. Para realizar una encuesta de opinión a una población de 150 000 habitantes en la que
se encuentran usted y un amigo suyo, se ha diseñado un MASs de tamaño 100.
a) ¿Con qué probabilidad integrará usted la muestra?
b) Si 5 muestras como las anteriores son secuencialmente tomadas de esta población a través
de un MASs, ¿qué probabilidad existe de que ni a usted ni a su amigo se les pida su opinión?
Asuma que los encuestadores de estas muestras no toman en cuenta el registro de si una
persona fue o no seleccionada en otra de las muestras.
c) ¿Con qué probabilidad le pedirán en b) dos veces su opinión?
12. En este capı́tulo vimos que S 2 es un estimador insesgado de la varianza poblacional σN
2

2
en un MASc y de σN −1 en un MASs, pero ¿qué hay de su varianza?
a) Muestre que
n n N N
1 1
S2 = (Yi − Yj )2 = (yi − yj )2 δi δj .
2n(n − 1) i=1 j=1 2n(n − 1) i=1 j=1

b) Muestre, usando la fórmula anterior, que S 2 es efectivamente un estimador insesgado.

c) Cho y Cho (2008) han derivado fórmulas para la varianza de S 2 , tanto en un esquema
MASc como en un MASs. Estas vienen dadas respectivamente por
1 n−3 4
VM ASc (S 2 ) = (µ4 − ( )σ ) y
n n−1 N
N 2 n − 3n − 3N 2 + 6N − 3 4
VM ASs (S 2 ) = C((N n − N − n − 1)µ4 − ( )σN ),
N −1
(N −n)
donde: C = n(n−1)(NN−1)(N −2)(N −3)
y µ4 = N1 N 4
i=1 (yi − µN ) es el cuarto momento centrado
poblacional. Muestre que
VM ASs (S 2 ) → VM ASc (S 2 ), conforme N → ∞.
54 CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE

13. Replique el estudio ECE 2019 de la subsección 2.3.2 para la DRE de Lima Metropolitana,
pero use, en esta ocasión, los datos de la ECE 2018 para obtener el tamaño de muestra
adecuado para el estudio. Además, dado que esta base de datos incluye un indicador de
nivel socioeconómico ISE, indique mediante un MASs si es que se puede hablar o no de una
asociación significativa entre el nivel socioeconómico y los niveles de logro en matemáticas.
Use un nivel de significación de α = 0.05.

14. Una población cuenta con un total de N personas y es de interés realizar en ella un MASc
de tamaño n = 5.
a) Halle la función de probabilidad y el valor esperado de la variable aleatoria X que denota
el número de personas distintas que contendrá la muestra.
b) Suponga que extraı́da la muestra anterior es de interés estimar el total τ de una variable
y, para lo cual usted multiplicará por una constante C la suma de todos los valores de y en
la muestra que correspondan solo a personas distintas. ¿Cuál serı́a el valor de C que haga
de este un estimador insesgado del total?
c) Halle la varianza del estimador construido en b).
d) Utilice los números aleatorios

0.327, 0.894, 0.031, 0.289 y 0.643,

para seleccionar su muestra con reemplazamiento de una población de 15 personas y reporte

el número de personas distintas obtenidas.

15. En un paı́s se ha diseñado una encuesta con el fin de estimar, mediante un MASs, su
tasa de desempleo, el cual se cree que cree está en alrededor el 10 % de la PEA (población
económicamente activa). En este paı́s, la PEA se define como la población de ciudadanos de
14 años o más de edad y constituye, según el último censo, el 65 % de la población, la cual
fue calculada en 2.3 millones de habitantes. Si se quiere estimar la tasa de desempleo con un
error no mayor al 1 % y un nivel de confianza del 95 %,
a) ¿Cuál serı́a el tamaño de muestra a tomar?
b) El costo por cada encuesta se ha estimado en 3 unidades monetarias (u.m.), pero se tiene
un presupuesto de tan solo 15 000 u.m. Si se tomará en la muestra la mayor cantidad de
personas que pudieran costearse con este presupuesto, ¿cuál serı́a el margen de error que
deberı́a de reportar en este estudio?
c) Suponga que otro interés de la encuesta, es estimar el monto total mensual de ingresos
que las personas no desempleadas de la PEA destinan a su consumo. Indique cómo podrı́a
estimar este total y su correspondiente error estándar de estimación, ejemplificando esto si
en la muestra tomada se encontró una proporción muestral de desocupados del 12.5 % de
la PEA, teniendo ellos un gasto promedio de consumos de 4500 u.m. con una desviación
estándar de 1230 u.m. Sugerencia: De una mirada al siguiente ejercicio.
2.4. EJERCICIOS 55

16. En una zona rural de 3000 viviendas se tomó un MASs de tamaño 100. Un interés
del estudio es estimar el consumo total mensual de agua de los hogares que cuentan con
servicio de agua y desagüe, τd . El problema es que antes de tomarse la muestra no es posible
identificar si una vivienda de la zona tiene o no estos servicios.
a) En general, dada una población estadı́stica Py = {y1 , y2 , . . . , yN } y un MASs de ella de
tamaño n, muestre que para cierto subconjunto de esta población (dominio d) el estimador
N n
N N
τ̂d = yi γi δi o τ̂d = Yi γ i ,
n i=1 n i=1

donde Yi es el valor de y para la i-ésima unidad seleccionada en la muestra y γi es una variable

indicadora (no aleatoria) que vale, respectivamente, 1 o 0 si la i-ésima unidad pertenece o
no al dominio d, es un estimador insesgado del total τd de y para el dominio.
b) Sea la variable y ∗ que vale y para los elementos del dominio d y 0 en caso contrario, y sea
2
σ∗d la varianza de Py∗ . Si σd2 es la varianza de y para los elementos del dominio, muestre que

2 1
σ∗d = ((Nd − 1)σd2 + qd Nd µ2d ) pd (σd2 + qd µ2d ),
N −1
donde: Nd es el tamaño del dominio d; µd es la media de y en el dominio d; pd es la proporción
de unidades en la población que pertenecen al dominio d, y qd = 1 − pd .
c) Halle la varianza de τ̂d .
d) Muestre que si se desea estimar τd con un error de estimación no mayor a e y una confianza
del 100(1 − α) %, el tamaño de muestra apropiado viene dado por

((Nd − 1)σd2 + qd Nd µ2d )z1−

2
αN
2
pd (σd2 + qd µ2d )z1−
2
αN
2
n= 2
2
.
((Nd − 1)σd2 + qd Nd µ2d )z1−
2 2
α N + e (N − 1) pd (σd2 + qd Nd µ2d )z1−
2
αN + e
2
2 2

e) Muestre que el tamaño en d), en caso de que se desee obtener un coeficiente de variación
de a lo más CV0 para el total estimado, se puede aproximar por

CVd2 + qd
n= CVd2 +qd
,
N
+ pd CV02

donde
σd2
CVd2 =
µ2d
denota el cuadrado del coeficiente de variación de y en el dominio d.
f) Halle el tamaño de muestra necesario para una encuesta futura que desea estimar τd con
un margen de error no mayor al millón de litros y una confianza del 95 %. Suponga que en
la encuesta actual se encontró que 60 hogares contaban con servicios de agua y desagüe y
que en promedio ellos consumieron en el mes 5100 litros con una desviación estándar de 380
litros ¿Qué estimación de τd dio la actual encuesta?
56 CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE

17. Consideremos la siguiente base de datos, que llamaremos Province91, tomada del texto de
Lehtonen y Pahkinen (2004). Esta contiene información censal de las 32 municipalidades de
una de las 14 provincias (Finlandia central) en las que se dividı́a Finlandia a finales de 1991.
En esta se registran para cada municipalidad una variable de estratificación (Stratum con
1 = Urbano y 2 = Rural), de conglomeración (Cluster formado al juntar 4 municipalidades
geográficamente vecinas), de población (POP91), de fuerza laboral o población económica-
mente activa (LAB), del número de personas desempleadas (UE91) y del número de hogares
sobre la base del censo de 1985 (HOU85). La base de datos es la siguiente:

Stratum Cluster Id Municipality POP91 LAB91 UE91 HOU85

1 1 1 Jyväskylä 67200 33786 4123 26881
1 2 2 Jämsä 12907 6016 666 4663
1 2 3 Jämsänkoski 8118 3818 528 3019
1 2 4 Keuruu 12707 5919 760 4896
1 3 5 Saarijärvi 10774 4930 721 3730
1 5 6 Suolahti 6159 3022 457 2389
1 3 7 Äänekoski 11595 5823 767 4264
2 5 8 Hankasalmi 6080 2594 391 2179
2 6 9 Joutsa 4594 2069 194 1823
2 7 10 Jyväskmlk 29349 13727 1623 9230
2 4 11 Kannonkoski 1919 821 153 726
2 4 12 Karstula 5594 2521 341 1868
2 8 13 Kinnula 2324 927 129 675
2 8 14 Kivijärvi 1972 819 128 634
2 3 15 Konginkangas 1636 675 142 556
2 5 16 Konnevesi 3453 1557 201 1215
2 1 17 Korpilahti 5181 2144 239 1793
2 2 18 Kuhmoinen 3357 1448 187 1463
2 4 19 Kyyjärvi 1977 831 94 672
2 5 20 Laukaa 16042 7218 874 4952
2 6 21 Leivonmäki 1370 573 61 545
2 6 22 Luhanka 1153 522 54 435
2 7 23 Multia 2375 1059 119 925
2 1 24 Muurame 6830 3024 296 1853
2 7 25 Petäjävesi 3800 1737 262 1352
2 8 26 Pihtipudas 5654 2543 331 1946
2 4 27 Pylkönmäki 1266 545 98 473
2 3 28 Sumiainen 1426 617 79 485
2 1 29 Säynätsalo 3628 1615 166 1226
2 6 30 Toivakka 2499 1084 127 834
2 7 31 Uurainen 3004 1330 219 932
2 8 32 Viitasaari 8641 4011 568 3119

Usando la librerı́a survey de R, realice tanto un MASc como un MASc de tamaño n = 8

para estimar la población total de la provincia y el porcentaje o tasa de desempleo en esta.
Reporte en ambos casos los errores estándar de estimación. Compare sus estimaciones con
las obtenidas en el texto de Lehtonen y Pahkinen (2004).
2.4. EJERCICIOS 57

18. Usando la base de datos api, obtenga el tamaño de muestra que se requerirı́a para estimar
el ı́ndice api del 2000 de tal manera que se tenga para este un CV del 3 % con una confianza
del 95 %. Tomada la muestra, estime también el total de matriculados y la proporción de
colegios por tipo de escuela. Compare, finalmente, los verdaderos valores (que en un estudio
real se desconocen) con las estimaciones encontradas.
19. Mediante un MASs piloto de tamaño n1 se ha calculado que el tamaño final de muestra
a tomarse para estimar la media de una variable y con un máximo error de estimación de
e y una confianza del 100(1 − α) % es n. Un colega sugiere que en vez de seleccionarse las
n observaciones bastarı́a tomarse un MASs de tamaño n − n1 de la población que no ha
sido muestreada, pues argumenta que la muestra piloto ya recabó información de y y que
juntando esta con la última completarı́a el tamaño n requerido. ¿Estarı́a usted de acuerdo
con su colega? Justifique.
20. Suponga que para un MASs de tamaño n sobre una población de tamaño N se tiene
interés en estudiar dos variables estadı́sticas: x e y.
a) Muestre que la covarianza entre las medias muestrales de estas variables viene dada por
n σxy
Cov(X̄, Ȳ ) = (1 − ) ,
N n

donde σxy = N 1−1 N i=1 (xi − µx )(yi − µy ) es la covarianza poblacional entre x e y y µx y µy
son las medias poblacionales de x e y, respectivamente.
b) Proponga algún estimador insesgado para esta covarianza.
21. La Internet Movie Database (IMDb) es una base de datos en lı́nea que almacena infor-
mación relacionada con pelı́culas, personal de equipo de producción (incluidos directores y
productores), actores, series de televisión, programas de televisión, videojuegos, actores de
doblaje y, más recientemente, personajes ficticios que aparecen en los medios de entreteni-
miento visual. Recibe más de 100 millones de usuarios únicos al mes y cuenta con una versión
móvil. Una de sus secciones, “The IMDb Top 250”, es destinada a ser un listado de las 250
pelı́culas con mejor calificación, el cual se basa en calificaciones de los usuarios registrados
del sitio web. En esta sección, cada pelı́cula aparece con una estrella y un ranking de a lo
más 10 puntos. Debajo de este ranking uno puede acceder a las calificaciones otorgadas por
los usuarios en forma de un histograma. La intención de este miniproyecto es estimar, con
un margen de error de a lo más 0.035 puntos y un nivel de confianza del 95 %, la desvia-
ción estándar media (como medida de controversia) de los rankings asignados a estas 250
pelı́culas.
a) Halle el tamaño de muestra necesario para este estudio.
b) Tome la muestra respectiva y reporte la estimación pedida y con su intervalo de confianza
o error estándar de estimación estimado.
c) Según sus resultados, ¿podrı́a decir que El club de la pelea (1999) es una pelı́cula de
calificación controversial?
58 CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE

22. En esta actividad sugerida por Gnanadesikan (1997) se tiene la siguiente figura que
contiene 100 rectángulos. El objetivo es estimar el área total de todos los rectángulos tomando
una muestra de 20 rectángulos, donde se asume que cada cuadradito de la grilla tiene un
área de una unidad.

a) Tome un MASs de 20 rectángulos y obtenga un intervalo de confianza al 98 % para estimar

el área total.
b) Replique a) pero con un MASc.
c) Compare el intervalo que ha obtenido con el de sus compañeros e indique el porcentaje
de estos que contienen la verdadera área que es de 3079 unidades.
2.4. EJERCICIOS 59

23. Luego de realizarse un MASs de tamaño n en una población de tamaño N , se encontró que
por error el marco muestral contenı́a 2 unidades que se repetı́an, respectivamente, 3 y 7 veces.
a) Halle la probabilidad de selección de cada una de las unidades en la población.
b) Halle la función de probabilidad del número de unidades que deberán descartarse en la
encuesta.
24. El sector salud está interesado en saber cuál es la estatura promedio de los habitantes
de una región particular que cuenta con 700 habitantes. De los datos de los registros de las
clı́nicas de salud de la región, se realizó un MASs con 35 registros de esta población y se
obtuvo la siguiente tabla:

Obs. Estatura Sexo Obs. Estatura Sexo Obs. Estatura Sexo

(mts) (mts) (mts)
1 1.65 Hombre 13 1.75 Hombre 25 1.53 Mujer
2 1.80 Hombre 14 1.68 Hombre 26 1.65 Mujer
3 1.84 Hombre 15 1.78 Hombre 27 1.70 Mujer
4 1.83 Hombre 16 1.80 Hombre 28 1.70 Mujer
5 1.73 Hombre 17 1.73 Hombre 29 1.58 Mujer
6 1.83 Hombre 18 1.83 Hombre 30 1.75 Mujer
7 1.80 Hombre 19 1.85 Hombre 31 1.70 Mujer
8 1.85 Hombre 20 1.65 Hombre 32 1.73 Mujer
9 1.80 Hombre 21 1.78 Hombre 33 1.73 Mujer
10 1.78 Hombre 22 1.75 Hombre 34 1.57 Mujer
11 1.85 Hombre 23 1.75 Hombre 35 1.70 Mujer
12 1.80 Hombre 24 1.88 Hombre

a) Estime la media y varianza de las estaturas en esta población, ası́ como la proporción de
mujeres en esta. Puede hacerlo manualmente o con R.
b) ¿Cuál es el error máximo de estimación que se está asumiendo en la estimación de la
estatura media para un nivel de confianza del 95 %?
c) Si se hubiese tenido interés en estimar la estatura media de esta población con un margen
de error (o error máximo de estimación) de un centı́metro a un nivel de confianza del 95 %,
¿hubiese sido suficiente el tamaño de muestra tomado en el estudio?
d) Si en un estudio futuro se desea estimar la estatura media de esta población de tal manera
que se tenga un CV no mayor al 0.5 %, ¿cuál serı́a el tamaño de muestra? ¿Es aquı́ necesario
fijar el nivel de confianza?
60 CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE

25. En una investigación que pretende estudiar caracteriśticas de los colegios y la relación
entre la propensión al consumo de alcohol por parte de adolescentes varones del quinto grado
de secundaria y variables como el control parental, la regulación emocional y la madurez
social, se desea tomar un MASs de colegios con alumnos varones de la Unidad de Gestión
Local (UGEL) 03 de la dirección regional educativa de Lima Metropolitana. Puesto que la
propensión se medirá a nivel de colegios mediante una proporción, es de interés estimar esta
proporción con un margen de error no mayor a 0.06 y un nivel de confianza del 95 %. Usando
en lo posible el paquete survey de R,
a) Halle el tamaño de muestra requerido para este estudio. Para su marco muestral puede
usar la siguiente página web del Ministerio de Educación:

[Link] ,

la cual contiene información de todos los colegios del paı́s basada en el último censo nacional
escolar
b) Tome la muestra anterior y estime, en base a ella, el número total de alumnos varones
de quinto año de educación secundaria matriculados en la UGEL 03 y la la proporción de
colegios de gestión privada con alumnos varones de quinto año de educación secundariade
en la UGEL 03. En ambos casos obtenga el correspondiente error de estimación estimado.

26. En el conteo rápido de votos realizado a 1600 urnas seleccionadas al azar de una gran po-
blación se obtuvo que 812 votaron por el candidato opositor, 480 lo hicieron por el candidato
de gobierno, 50 votaron en blanco y el resto fueron votos inválidos. Al 95 % de confianza,
a) ¿Cuál es el el máximo error de estimación que se comete en esta encuesta al estimar la
proporción de ciudadanos que votan por el candidato opositor?
b) Mediante un intervalo de confianza, ¿podrı́a afirmar que el candidato opositor ganará las
elecciones? Para esto se requiere el 50 % de votos válidos más uno.

27. Suponga que es de su interés estimar el tiempo medio que una persona se tardarı́a en
llegar desde el campus de la PUCP al centro comercial Real Plaza Salaverry en auto. Una
manera directa de medir este tiempo es a través del aplicativo Google Maps, el cual se
puede descargar gratuitamente en cualquier PC, laptop o celular. Este aplicativo calcula,
por medio del GPS, el tiempo que una persona se demorarı́a en llegar de un lugar a otro
bajo distintos medios de transporte. Estos tiempos, sin embargo, cambian según el horario,
en especial si el medio es un auto, debido a congestiones en el tráfico, accidentes u otros. El
aplicativo también brinda varias rutas alternativas, de las cuales usted deberá tomar la de
menor tiempo. En este problema se le pide estimar el tiempo medio anterior y su intervalo
de confianza al 95 % mediante un MASs de tal manera que su error de estimación sea de a
lo más de un minuto. Para su procedimiento de selección (ignorando aspectos estacionales)
divida una semana completa de 7 dı́as en 336 perı́odos de media hora cada uno. Tome luego al
azar y sin reemplazamiento el número de perı́odos adecuados y en cada perı́odo seleccionado
2.4. EJERCICIOS 61

registre en cualquier momento de ese perı́odo la medición del tiempo en minutos dada por el
aplicativo. Reporte, finalmente, la estimación del tiempo medio y del intervalo de confianza
y compruebe si el error máximo predeterminado es el especificado.
28. En la subsección 2.3.1 obtuvimos el error estándar de estimación para la diferencia de
medias del ı́ndice de rendimiento api para 1999 y el 2000.
a) Tome en esta base de datos un MASs de tamaño n = 500 y estime con la librerı́a survey
la diferencia de medias del ı́ndice api para estos años.
b) Obtenga, con la librerı́a survey, un intervalo de confianza al 95 % para la diferencia
anterior.
c) Con la misma muestra tomada en a) obtenga el intervalo de confianza b), pero ahora sin
usar el paquete survey.
Capı́tulo 3

Muestreo aleatorio estratificado

3.1. Introduccción
Cuando la variable de interés asume en promedio distintos valores sobre diferentes sub-
conjuntos de la población, uno podrı́a obtener estimaciones mucho más precisas de tomar
en cuenta esta segmentación. En una muestra estratificada, la población se particiona en H
subconjuntos o estratos que tienen la propiedad de ser heterogéneos entre sı́ pero homogéneos
al interior. La idea aquı́ es extraer una muestra independiente en cada estrato (usualmente
mediante un MASs) y, posteriormente, reunir esta información para obtener estimaciones
globales de la población.
Entre las razones para optar por un muestreo aleatorio estratificado podemos citar las
siguientes:

Queremos protegernos contra la posibilidad de obtener un mala muestra, en el sentido

de que algún estrato no esté o esté pobremente representado.

Es probable que queramos datos de precisión conocida sobre cada estrato.

La muestra estratificada podrı́a administrarse más convenientemente, a un costo menor,

reduciendo el tamaño de muestra en los estratos más caros e incrementando este tamaño
en lo más baratos.

El muestreo estratificado dará, si se hace correctamente, estimaciones más precisas

para toda la población.

3.2. Teorı́a del muestreo aleatorio estratificado

Supongamos que una población de N unidades está particionada en H estratos, donde
cada estrato h posee Nh unidades (N1 + N2 + . . . + NH = N ). En el muestreo aleatorio

63
64 CAPÍTULO 3. MUESTREO ALEATORIO ESTRATIFICADO

estratificado, que simplemente lo llamaremos MAE, seleccionaremos en forma independiente

muestras aleatorias simples de tamaño nh para cada estrato h (especı́ficamente mediante un
MASs 1 ). Ası́, tendremos que
n = n1 + n2 + . . . + nH
representará el tamaño de muestra en la población y se obtendrán los siguientes parámetros
y estimadores puntuales de interés, donde yhi denotará el valor de la variable estadı́stica de
interés y en la i-ésima unidad del estrato h y δhi denotará, como antes, la variable aleatoria
dicotómica que vale 1 si la i-ésima unidad del estrato h es seleccionada en la muestra de
tamaño nh o 0 en caso contrario.

Denominación Parámetro poblacional Estimador puntual

h h
Media en el estrato h µh = N1h N i=1 yhi Ȳh = n1h N i=1 yhi δhi

Varianza en el estrato h σh = Nh −1 N
2 1 h
(yhi − µh )2 Sh = nh −1 N
2 1 h
(yhi − Ȳh )2 δhi
H Nh i=1 H Nhi=1
Media global µ = h=1 N µh Ȳ = h=1 N Ȳh

Observe que la tabla anterior incluye indirectamente el caso de la proporción, de tomarse y

como una variable dicotómica.
Veamos ahora las propiedades de los estimadores puntuales en el lado derecho de la tabla.
Para ello recordemos que en cada estrato se ha tomado un MASs y, por tanto, Ȳh y Sh2 son
estimadores insesgados de µh y σh2 , respectivamente. Más aún, se tiene que
H
H

Nh Nh
E(Ȳ ) = E(Ȳh ) = µh = µ
h=1
N h=1
N

y, por tanto, Ȳ es también un estimador insesgado de µ. La varianza de este estimador

está dada por
H H
Nh Nh nh σh2
V (Ȳ ) = ( )2 V (Ȳh ) = ( )2 (1 − ) .
h=1
N h=1
N Nh n h
Por tanto, un estimador insesgado natural de esta varianza se obtiene al reemplazar la
varianza poblacional en el estrato h por su varianza muestral Sh2 , dando ası́ lugar al estimador
insesgado
H H
Nh Nh nh Sh2
V̂ (Ȳ ) = ( )2 V (Ȳh ) = ( )2 (1 − ) (3.1)
h=1
N h=1
N Nh n h
y al error estándar de estimación de Ȳ estimado:

H
2
ˆ Ȳ ) = V̂ (Ȳ ) = ( Nh )2 (1 − nh ) Sh .
SE(
h=1
N Nh n h
1
Podrı́amos tomar también un MASc, que es más simple, pero poco utilizado en la práctica. Los resulta-
dos aquı́ desarrollados se pueden también aplicar a este último esquema con las modificaciones mı́nimas
derivadas de no incluir el factor de corrección para poblaciones finitas.
3.3. PESOS DE MUESTREO Y EFECTOS DE DISEÑO 65

Por el TLC es posible deducir que un intervalo de confianza aproximado al 100(1 − α) %

para µ, cuando los tamaños de muestra en cada estrato o la cantidad de estratos es grande,
viene dado por
ˆ Ȳ ), Ȳ + z1− α SE(
[Ȳ − z1− α SE( ˆ Ȳ )]
2 2

Esta aproximación puede no ser adecuada si los tamaños de muestra en los estratos son
pequeños, en cuyo caso se recomienda el uso de una aproximación t dada por
ˆ Ȳ ), Ȳ + t1− α (d)SE(
[Ȳ − t1− α2 (d)SE( ˆ Ȳ )],
2

donde los grados de libertad pueden obtenerse de la aproximación de Satterthwaite (1946)

por
( H ch Sh2 )2
d = H h=11 2 2
,
h=1 nh −1 (ch Sh )

siendo ch = Nh (Nnhh−nh ) .
En el caso de la estimación de una proporción basta considerar en el desarrollo anterior
a una variable dicotómica y, ası́ el error estándar de estimación estimado para la proporción
global estimada
H
Nh
p̄ = p̄h ,
h=1
N
donde p̄h es la proporción muestral en el estrato h, se reduce a

H
Nh nh p̄h (1 − p̄h )
ˆ
SE(p̄) = ( )2 (1 − ) .
h=1
N Nh n h − 1

3.3. Pesos de muestreo y efectos de diseño

En todo el desarrollo anterior hemos utilizado como notación las variables δhi . Estas
determinan la aleatoriedad de los estimadores y son variables indicadoras de si un elemento
en la población es o no seleccionado en la muestra del estrato h. Ası́, la probabilidad de elegir
la unidad i en el estrato h viene dada, por ser este un MASs, por
nh
P (δhi = 1) = .
Nh
Otra manera equivalente de representar una muestra para el estrato h, prescindiendo de las
variables δhi , es, como expresamos en el MAS, mediante una colección de variables aleatorias
Yh1 , Yh2 , . . . , Yhnh que denotan los valores de la variable estadı́stica y que se obtendrán secuen-
cialmente en cada selección del estrato h. Si adoptamos esta notación, podrı́amos reescribir
la media muestral de un MAE como
H
H nh
Nh Nh 1
Ȳ = Ȳh = ( Yhi )
h=1
N h=1
N nh i=1
66 CAPÍTULO 3. MUESTREO ALEATORIO ESTRATIFICADO

o como
H nh
1
Ȳ = ωhi Yhi ,
N h=1 i=1
donde ωhi es un peso o factor de expansión dado por
Nh 1
ωhi = = .
nh P (δhi = 1)

Este se puede interpretar como el número de unidades en la población del estrato h que
es representada por cada miembro de la muestra. Si, por ejemplo, la población tiene 2000
sujetos y ella está estratificada por sexo con 1200 hombres y 800 mujeres, entonces en un
MAE de 200 hombres y 200 mujeres, cada hombre de la muestra tiene un peso de 6 y cada
mujer un peso de 4. En otras palabras, cada hombre se representa a sı́ mismo y a 5 más que
no están en la muestra; mientras que cada mujer se representa a sı́ misma y a 3 más que no
están en la muestra. Luego, como cada unidad de la muestra se puede pensar que representa
a cierta cantidad de elementos de la población, la muestra completa puede pensarse que
representa a toda la población. De aquı́ el nombre alternativo para los ωhi de factores de
expansión.
Otro elemento importante a lo largo del texto lo constituirá el efecto de diseño. El efecto
de un diseño al estimar un parámetro θ mediante un estimador θ̂ se define como el parámetro
def f , que resulta del cociente entre la varianza de θ̂ bajo el diseño en estudio (c) y la
varianza de θ̂ bajo un MASs, ambos con un mismo tamaño de muestra. El diseño MASs en
el denominador es tomado aquı́ como un diseño de referencia o benchmark. Formalmente se
expresa ası́:
Vc (θ̂)
def f (θ̂) = .
VM ASs (θ̂)
Un diseño, por tanto, será más eficiente mientras su def f sea cada cada vez menor que
1. Ello, en la práctica, como más adelante veremos en el muestreo complejo, es difı́cil de
alcanzar. El efecto de diseño de un MASc en la estimación de la media es, por ejemplo:
2
VM ASc (Ȳ ) σN /n N −1
def f (Ȳ ) = = n 2
= .
VM ASs (Ȳ ) (1 − N )σN −1 /n N −n

Ası́, un MASc resulta ser más ineficiente que un MASs al estimar la media; aunque para
tamaños de población N suficientemente grandes, tal pérdida de eficiencia es mı́nima. Note
en este caso que el efecto de diseño se obtiene de forma directa, lo cual en general no es cierto,
pues tal dependerá de algunos parámetros poblacionales, los cuales requieren estimarse. El
problema con la estimación del def f es que para hacerlo solo contamos con la data del
diseño utilizado y no con la data bajo el MASs. En tal sentido, se debe ver cómo estimar
VM ASs (θ̂) con la data proveniente del diseño complejo. Una manera de hacer esto en el MAE
se muestra en el ejercicio 3.7.4.
3.3. PESOS DE MUESTREO Y EFECTOS DE DISEÑO 67

En R, y particularmente en el paquete survey, el cálculo de las estimaciones de los

efectos de diseño se encuentra disponible de solicitarse la opción deff= T. En el caso de
estimarse la media bajo un MAE, este nos provee de la estimación

ˆ f = V̂M AE (Ȳ ) ,
def
V̂M ASs (Ȳ )

donde V̂M AE (Ȳ ) se calcula mediante (3.1) y V̂M ASs (Ȳ ) por
n σ̂ 2
V̂M ASs (Ȳ ) = (1 − ) ,
N n
siendo σ̂ 2 una estimación de la varianza de la población de la variable de interés y bajo un
MAE. Esta, obtenida a través del objeto diseño diseMAE (definido por svydesign), no es
la misma a la dada por la del ejercicio 3.7.4, ya que utiliza, como lo veremos en el capı́tulo
5, los pesos de muestreo del diseño (sea este un MAE o no) y una función de probabilidad
empı́rica ponderada derivada de tales pesos.
En un MAE, los efectos de diseño tienden por lo general a ser menores que 1 e indican la
mayor eficiencia de un MAE con respecto a un MASs, sobre todo si la variable de estratifica-
ción logra bien separar a los estratos en grupos relativamente homogéneos. Una ilustración
del cálculo de estos efectos y de sus estimaciones se presenta en el siguiente ejemplo.

Ejemplo 3.1. Considere una población de N = 8 domicilios, donde son conocidas las varia-
bles renta familiar en unidades monetarias y estrato socioeconómico (A = alto o B = bajo).
Los valores de estas variables se resumen en la siguiente tabla:
Unidad 1 2 3 4 5 6 7 8
Renta 13 17 6 5 10 12 19 6
Estrato B A B B B A A B
A fin de estimar la renta media familiar, se decide efectuar un MAE con 2 observaciones
por estrato. Obtenga el efecto de diseño de este MAE y estı́melo en caso se desconozcan los
valores de toda la población.
Solución: Calculemos primero el efecto de diseño a través del código siguiente:

N = 8
n = 4
Nh = c(3,5)
nh = c(2,2)
Renta = c(13,17,6,5,10,12,19,6)
NSE = c("B","A","B","B","B","A","A","B")
RR = [Link](Renta,NSE)
Vmae = sum((Nh/N)^2*(1-nh/Nh)*by(Renta,NSE,var)/nh)
68 CAPÍTULO 3. MUESTREO ALEATORIO ESTRATIFICADO

Vmas = (1-n/N)*var(Renta)/n
(deff = Vmae/Vmas)

## [1] 0.482

El MAE es, en este caso, mucho más eficiente que un MASs con un efecto de diseño
marcadamente menor que 1, lo cual se preveı́a dadas las marcadas diferencias de rentas
entre ambos estratos socioeconómicos. Tal efecto, sin embargo, se ha podido calcular solo
porque contamos con la data poblacional. En la mayorı́a de situaciones, esta es desconocida
y requerirá ser estimada con los valores de la muestra. Si realizamos el MAE pedido con

[Link](12345)
RRm = RR[c(sample(which(RR$NSE=="A"),2),sample(which(RR$NSE=="B"),2)),]

una manera de estimar el efecto de diseño podrı́a ser utilizando lo presentado en el ejercicio
3.7.4. Bajo este enfoque obtendremos la siguiente estimación:

Vmae_e = sum((Nh/N)^2*(1-nh/Nh)*by(RRm$Renta,RRm$NSE,var)/nh)
Ybar = sum((Nh/N)*by(RRm$Renta,RRm$NSE,mean))
s2y = by(RRm$Renta,RRm$NSE,function(x) sum(x^2))
VYbarmas_e = (N-n)/(n*(N-1))*(sum((Nh/(nh*N))*s2y) - Ybar^2 + Vmae_e)
(deff1_e = Vmae_e/VYbarmas_e)

## [1] 0.486

La estimación brindada por R, por otro lado, la podremos calcular por

diseMAE = svydesign(ids=~1,strata= ~NSE,fpc=c(rep(3,2),rep(5,2)),data=RRm)

(deff2_e = Vmae_e/((1-n/N)*coef(svyvar(~Renta,diseMAE))/n))

## Renta
## 0.447

o mucho más directamente mediante

svymean(~Renta,diseMAE,deff=T)

## mean SE DEff
## Renta 10.81 1.23 0.45

3.4. TAMAÑOS DE MUESTRA 69

3.4. Tamaños de muestra

El cálculo de tamaños de muestra en un MAE involucra no solo saber cuántas unidades
n seleccionar en la población, sino también cuántas unidades nh en cada estrato. Para ello
requeriremos fijar algún criterio. Dos son los criterios más utilizados. El primero sigue la
lı́nea de lo que vimos en el MAS; es decir, garantizar como máximo un error de estimación
predeterminado e en la estimación buscada, pero ahora buscando minimizar los costos de
muestreo. El segundo consiste en minimizar el error en la estimación bajo un presupuesto C
fijo. En ambas situaciones, se asumirá que el presupuesto C tiene una estructura lineal; es

decir, es de la forma C = c0 + H h=1 nh ch , donde c0 es un costo fijo de muestreo y ch un costo
variable por unidad seleccionada, el cual depende del estrato. Para explicitar los tamaños
de muestra supongamos ahora que nuestro interés recae en estimar la media global µ. Dado
que el error de estimación depende monótonamente de la varianza de este estimador y que
para minimizar los costos requerimos solo minimizar los costos variables, nuestro problema
se reducirá, bajo estos criterios, a encontrar los tamaños de muestra por estrato nh que
minimicen la varianza estimada del estimador Ȳ de µ:
H
Nh nh Sh2
V̂est = ( )2 (1 − )
h=1
N Nh n h

o equivalentemente:
H
Nh S 2
( )2 h
h=1
N nh
o el costo total de muestreo:
H

C = c0 + ch nh
h=1

o equivalentemente:
H

C̃ = C − c0 = ch nh ,
h=1

sujeto a fijar uno de ellos. Dado que los tamaños de muestra nh por estrato serán finalmente
una fracción ah de n; vale decir
nh = ah n,
la proposición siguiente nos brinda la distribución óptima de los ah que resuelve el problema
de minimización dual anterior.

Proposición 3.1. En un MAE, con función de costo lineal, la varianza V̂est es mı́nima para
un costo total fijo o este costo es mı́nimo para una varianza V̂est fija si
N h Sh
√
ch
ah = H N j Sj
. (3.2)
j=1 √cj
70 CAPÍTULO 3. MUESTREO ALEATORIO ESTRATIFICADO

Demostración: Probaremos este resultado basándonos en la celebrada desigualdad de Cauchy-

Schwartz. Recordemos que esta nos dice que el valor absoluto del producto interno de dos
vectores es siempre menor o igual que el producto de sus normas. En Rn esto se traduce
como sigue: si a1 , a2 , . . . , an y b1 , b2 , . . . , bn son números reales cualesquieras, entonces
n
n
n

( ai b i ) 2 ≤ ( a2i )( b2i ).
i=1 i=1 i=1

Note que esta desigualdad se convierte en una igualdad si para todo i = 1, 2, . . . , n:

ai
= k, (3.3)
bi

siendo k una constante. Ello significa, en otras palabras, que la función

n
n

f (a1 , a2 , . . . , an , b1 , b2 , . . . , bn ) = ( a2i )( b2i )
i=1 i=1

se minimiza si se cumple (3.3).

La asignación óptima se obtendrá consecuentemente al minimizar, con respecto a los nh ,
el producto
H H
Nh S 2
( ch nh )( ( )2 h ),
h=1 h=1
N nh

sujeto a que uno de los dos términos en este producto sea fijo. Por lo previamente desarrolla-
do, tenemos entonces que la solución de este problema se obtendrá cuando para cada estrato
h se cumpla √
ch nh
= k,
( NNh ) √Snhh

donde k es una constante. Despejando obtenemos que

N h Sh
nh = k √ .
N ch
n n
Más aún, como n = h=1 nh , se tiene que k = H Nj Sj . Esto nos conduce a los ah descritos
√
j=1 N cj

en la proposición.

Dependiendo del propósito de la encuesta, el tamaño de muestra total n se obtendrá en

el caso de la minimización de los costos como el valor n que resuelva

H
ah n Nh 2 Sh2
e = z1− α2 (1 − )( )
h=1
Nh N ah n
3.4. TAMAÑOS DE MUESTRA 71

para un error máximo de estimación de la media prefijado e, o más explı́citamente mediante

H Nh2 2
h=1 ah Sh
n= .
( z N eα )2 + H 2
h=1 Nh Sh
1−2

Por otro lado, si el propósito es minimizar el error en la estimación o equivalentemente la

varianza del estimador, bajo un presupuesto C fijo, el tamaño total de muestra n vendrá dado
por
C − c0
n = H .
h=1 ch ah
Naturalmente, todo esto funciona también para el caso de la proporción, con la única mo-
dificación que las varianzas muestrales Sh2 vienen dadas en este caso por Sh2 = Nh p̄Nhh(1−p̄
−1
h)
,
siendo p̄h la proporción de éxitos muestral en el estrato h.
De la proposición anterior se desprenden los siguientes casos particulares:

Asignación proporcional. Se da cuando

Nh
ah = ;
N
es decir, cuando los tamaños de muestra en cada estrato se toman proporcionalmente
al tamaño del estrato. Este es un caso particular de (3.2) si se consideran varianzas y
costos iguales.

Asignación de Neyman. Se da cuando

Nh S h
ah = H ;
j=1 Nj Sj

es decir, cuando los tamaños de muestra en cada estrato se toman de manera directa-
mente proporcional a la variabilidad y al tamaño del estrato. Este es un caso particular
de (3.2) si se consideran costos iguales.

Observación: Si bien en la selección del tamaño de muestra hemos, hasta el momento,

buscado controlar el error de estimación de la media o proporción global, tal estrategia no
es única. En muchos estudios resulta más conveniente, para obtener mayor precisión en los
estratos, determinar el tamaño global n del estudio como un agregado de los tamaños de
muestra por estrato, donde estos se calculan mediante un MASs al fijarse los errores de
estimación máximo por estrato. Esta técnica está relacionada con la idea de dominios, tema
que discutiremos luego del siguiente ejemplo.

Ejemplo 3.2. En el siguiente ejemplo, tomado de Mendenhall et al. (2007), una empresa
publicitaria tiene interés en determinar cómo enfatizar la publicidad televisiva en una deter-
minada región, y decide realizar un muestreo aleatorio estratificado para estimar el número
72 CAPÍTULO 3. MUESTREO ALEATORIO ESTRATIFICADO

promedio de horas por semana que se ve televisión en los hogares de la región. Esta compren-
de dos pueblos, A y B, y un área rural, los cuales serán tomados como estratos. El pueblo A
está en torno a una fábrica, y la mayorı́a de los hogares son de trabajadores industriales con
niños en edad escolar. El pueblo B es un suburbio exclusivo de una ciudad vecina y consta
de habitantes mayores con pocos niños en casa. Existen 155 hogares en el pueblo A, 62 en el
pueblo B y 93 en el área rural. Puesto que la información se recopilará mediante encuesta
con visita a los hogares, la empresa debe de tomar en cuenta el costo de una observación.
El costo por observación en cada pueblo se ha estimado en 9 dólares y en 16 dólares para el
área rural debido a costos de transporte. Si las desviaciones estándar del número de horas
que se ve televisión (aproximadas por las varianzas muestrales de una encuesta previa) son
de 5, 15 y 10, respectivamente, para el pueblo A, B y área rural, encuentre el tamaño global
n y los tamaños de muestra por estrato que permitan a la empresa estimar, con el mı́nimo
costo, el tiempo medio que se ve televisión con un lı́mite para el error de estimación de una
hora y un nivel de confianza del 95 %.
Solución: Según los datos, tenemos la siguiente tabla para los tamaños de muestra por estrato
(Nh ), costos unitarios de muestreo por estrato (ch ), desviaciones estándar estimadas por
estrato (Sh ) y, consecuentemente, asignaciones óptimas por estrato (ah ):

N h Sh
Estrato (h) Nh ch Sh √
ch
ah
Pueblo A 156 9 5 258.33333 0.32258
Pueblo B 62 9 15 310 0.3871
Área rural 93 16 10 232.5 0.29032
Suma 800.83333

Puesto que la intención en este estudio es obtener un error de estimación de a lo más una
hora (e = 1) con un nivel de confianza del 95 % y un mı́nimo costo, el tamaño de muestra
del estudio estará dado por
H Nh2 2
h=1 ah Sh
n= H = 135.6977 136.
( 1311 2
.96 ) + h=1 Nh Sh
2

Deberemos, finalmente, distribuir estas encuestas a tomar en los estratos, obteniéndose ası́,
los siguientes tamaños por estrato para, respectivamente, los pueblos A, B y el área rural:

n1 = 0.32258 × 136 = 43.87088 44,

n2 = 0.3871 × 136 = 52.6456 53

y n3 = 0.29032 × 136 = 39.48352 39.

3.5. DOMINIOS 73

3.5. Dominios

Un dominio, según Kish (1965), se refiere a una subdivisión de la población para el

cual se ha planificado, fijado y seleccionado una muestra a fin de proporcionar resultados
especı́ficos para ella bajo un conocido margen de error. Ello significa que los resultados para
cada dominio se proporcionan con una precisión determinada y que el resultado global se
deriva de una combinación adecuada de los resultados de todos los dominios. Por lo común,
los dominios coinciden con ciertas unidades polı́tico-administrativas, tales como regiones,
provincias, distritos, comunidades, etc. aunque también pueden ser el producto del cruce
de dos o más variables de interés en la población. De considerarse el uso de dominios, el
muestreo en términos prácticos se realiza como si cada uno de estos fuese una población de
la que hay que extraer una muestra representativa. Naturalmente, tiene que ocurrir que la
muestra agregada de todos los dominios a su vez cumpla los requisitos de representatividad
que se impongan a la población global. Dado que se requiere tener control sobre cada dominio,
una pregunta natural es entonces por qué no hacer que cada dominio represente un estrato.
Si bien ello es posible, podrı́a, como suele ocurrir, que el marco muestral no nos provea de
información sobre la membresı́a de cada objeto al dominio, ya que esta información podrı́a
no conocerse sino quizás hasta después de culminado el muestreo. Otra razón para no usar
dominios como estratos es que ello puede resultar poco práctico cuando estos son disjuntos
y definidos, por ejemplo, a través del cruce de dos o más variables categóricas, las cuales
por la cantidad de sus modalidades podrı́an generar demasiados estratos. Adicionalmente,
cabe tener en cuenta que la idea de los dominios difiere de la de los estratos en el sentido
que no es necesario que los primeros conformen necesariamente grupos heterogénos entre
sı́ y homogéneos al interior; pues estos no se diseñan con este fin, sino con la finalidad
de conocer más lo que ocurra al interior de cada dominio y cómo se compara este con
otros dominios. Un ejemplo interesante del uso de dominios por MASs fue presentado en el
ejercicio 16 del capı́tulo anterior. En ese ejemplo asumimos que el número de viviendas en
el dominio d que contaban con servicio de agua y desagüe, Nd , no necesariamente se podı́a
conocer. En general, como aquı́, Nd requerirá por lo común estimarse, lo cual introducirá una
variabilidad extra y complejizará los cálculos. Imaginemos, por ejemplo, una encuesta de
viviendas en las que los dominios de interés esten centrados en ciertas minorı́as a los cuales
se les desea hacer cierta intervención. Uno de estos dominios podrı́a ser, por ejemplo, el
de mujeres quechuahablantes. Claramente, aquı́ solo será posible conocer esta condición en
la entrevista, más no previamente en el marco muestral de viviendas y, por tanto, uno
desconocerá el número de mujeres quechuahablantes en la población. Aun cuando, como
se hace en la práctica, dicha cantidad se reemplace por su número esperado o estimado,
se sugiere que el tamaño de muestral obtenido para el dominio bajo esta aproximación se
incremente ligeramente a fin de cubrir la variabilidad extra descartada. Para formalizar esto
veamos el siguiente desarrollo.
74 CAPÍTULO 3. MUESTREO ALEATORIO ESTRATIFICADO

Supongamos que deseamos estimar la media de una variable estadı́stica y para un dominio
d bajo un MAE. Para esto podrı́amos usar un estimador de razón combinado que estime tanto
el total τd en el dominio como su número de unidades Nd ; es decir,
H nh H
τ̂d h=1 i=1 ωhi Yhi γdi|h τ̂dh
Ȳd = = H nh
= H h=1 ,
N̂d h=1 ω γ
i=1 hi di|h h=1 h p̄dh
N
siendo ωhi = Nnhh un peso o factor de expansión; γdi|h , un indicador no aleatorio 0-1 que
vale 1 si la i-ésima unidad seleccionada en el estrato h pertenece al dominio d; p̄dh = nndh h
,
la proporción muestral de unidades en el estrato h que pertenecen al dominio d, y τ̂dh el
estimador del total de y para el dominio d del estrato h, el cual describimos en el ejercicio
16 del capı́tulo 2. Puesto que este es un estimador de razón combinado, como el que se
estudiará en el capı́tulo 5, se sigue de (5.7) y de la parte b) del ejercicio 16 en el capı́tulo 2
que una aproximación de la varianza de Ȳd viene dada por
H
1 2 2
nh σ∗hz
V (Ȳd ) = N (1 − )
Nd2 h=1 h Nh n h
H
1 Nh2 nh Ndh − 1 2 Ndh Ndh 2
= 2 (1 − ) ( )σ + (1 − )(µdh − µd ) , (3.4)
Nd h=1 nh Nh Nh − 1 dh Nh − 1 Nh
2
donde σ∗hz es la varianza de todos los valores z∗ih = (yih − Nτdd )γid|h en el estrato h, µd la
media de todas las Nd unidades del dominio d, Ndh el número de unidades en el estrato h
2
que pertenecen al dominio d y µdh y σdh la media y varianza de estas últimas unidades.
Una simplificación de (3.4) puede obtenerse si asumimos que la proporción muestral p̄dh
es más o menos la misma que la proporción poblacional respectiva pdh = NNdh h
. Ello nos lleva
a la aproximación
H
Ndh 2 1 nh 2
V (Ȳd ) = ( ) (1 − ) σdh + qdh (µd h − µd )2 ,
h=1
Nd n h Nh

donde qdh = 1 − pdh . Para la consideración de los tamaños de muestra, podrı́amos fijar una
asignación a los dominios del número de unidades para la muestra del estrato h igual a
ndh = nh pdh . Ası́, si substituimos ello en la ecuación anterior, obtendremos que
H
Nh nh N (σ 2 + qdh (µdh − µd )2 )
V (Ȳd ) = ( )2 (1 − )pdh ( )2 dh .
h=1
N Nh Nd nh

Consecuentemente, podrı́amos usar los métodos de asignación estudiados en la sección 3.4,

luego de reemplazar Sh2 por una estimación de σ∗dh
2
= pdh ( NNd )2 (σdh
2
+ qdh (µdh − µd )2 ).
Por otro lado, el estimador natural para la varianza (3.4) de la media en el dominio d
será
H
1 2 nh σ̂∗hz2
V̂ (Ȳd ) = 2 Nh (1 − ) , (3.5)
N̂d h=1 Nh n h
3.6. USO DEL PAQUETE SURVEY 75

2
donde σ̂∗hz denota la varianza muestral de los valores z∗hi = (yhi − θ̂)γdi|h en el estrato
h. Si bien los cálculos parecen complicados, tenemos por fortuna que estos se encuentran
implementados en el paquete survey de R a través del comando svyby. Este nos provee,
por ejemplo, de las estimaciones de las medias por dominio Ȳd y sus errores estándar de
estimación estimados, los que se obtienen como la raı́z cuadrada de (3.5). En la siguiente
sección ilustraremos el uso de tal comando.

3.6. Uso del paquete survey

3.6.1. MAE con la base de datos api

Para seguir capacitándonos en el uso del paquete survey de R, retomemos el análisis de la
base de datos api y supongamos que ahora estamos interesados en un MAE de tamaño 200,
donde como criterio de estratificación usaremos el tipo de colegio (variable stype) fijando
nE = 100 escuelas elementales, nM = 50 escuelas medias y nH = 50 escuelas superiores.
De nuevo, nuestro interés recaerá sobre el número total de estudiantes matriculados y las
medias de los ı́ndices api.
Veamos primero cómo obtener una muestra MAE con estas especificaciones. A continua-
ción el código en R:

data(api)
attach(apipop)
table(stype)

## stype
## E H M
## 4421 755 1018

[Link](12345)
index = c(sample(which(stype=="E"),100),sample(which(stype=="H"),50),
sample(which(stype=="M"),50))
sample1 = apipop[index,]

Construyamos ahora una base de datos que contenga la muestra obtenida más el agregado
de dos variables, una asociada a los pesos de muestreo (pw) y otra que especifique el tamaño
del estrato que servirá para determinar el factor de corrección por finitud (fpc). En survey uno
puede encontrar también una base de datos similar llamada apistrat. Nosotros llamaremos
a nuestra base de datos sampleMAE.
76 CAPÍTULO 3. MUESTREO ALEATORIO ESTRATIFICADO

aux = [Link](pw = c(rep(44.21,100), rep(15.1,50), rep(20.36,50))

, fpc = c(rep(4421,100),rep(755,50), rep(1018,50)))
sampleMAE = cbind(sample1,aux)

Definamos ahora un objeto diseño apropiado que contenga la data y metada necesarias.
Esto se hace con

disMAE = svydesign(ids=~1,strata=~stype,fpc = ~fpc, data = sampleMAE)

Note que este comando tiene con respecto al MAS dos diferencias: una obvia
strata=~stype que especifica la variable de estratificación y otra menos obvia dada por
la introducción de la variable fpc del tamaño de la población en cada estrato. Si escribimos
disMAE obtendremos:

disMAE

## Stratified Independent Sampling design

## svydesign(ids = ~1, strata = ~stype, fpc = ~fpc, data = sampleMAE)

Analicemos ahora, como en el MAS, la estimación del número total de matriculados y la

media del ı́ndice api para 1999 y el 2000:

svytotal(~enroll,disMAE,[Link]=T)

## total SE
## enroll 3831118 121207

svymean(~api99+api00,disMAE)

## mean SE
## api99 645 10.34
## api00 679 9.75

Como se aprecia, el MAE ha reducido (con relación al MAS) el error estándar de estima-
ción. Esto es más evidente en la estimación del número total de estudiantes matriculados.
Mostremos ahora la estimación por dominios al analizar si, bajo este MAE, los colegios
que cuentan con profesores con calificaciones de emergencia o no tienen un peor o mejor
rendimiento api en el 2000. La variable emer recoge el porcentaje de profesores que tienen
una calificación de emergencia en el colegio; es decir, de profesores que no han obtenido una
especialización en educación, pero que conocen del tema y que, por tanto, podrı́an brindar
eventualmente las materias de su experticia. Note que cerca de un 80 % de los colegios posee
3.6. USO DEL PAQUETE SURVEY 77

al menos un profesor con calificaciones de emergencia, lo cual indica la dificultad que tienen
las escuelas para contratar profesores calificados.

table([Link](apipop$emer>0))

##
## 0 1
## 1270 4922

Si deseáramos estimar manualmente la media del ı́ndice api en el 2000 y su error de esti-
mación estimado en el dominio de colegios que cuentan con algún profesor con calificaciones
de emergencia, podrı́amos utilizar el siguiente código:

Nh = c(4421,755,1018)
nh = c(100,50,50)
disMAE = update(disMAE,cemer = [Link](emer>0),apicemer = api00*cemer)
Nd_e = [Link](svytotal(~cemer,disMAE))
taud_e = [Link](svytotal(~apicemer,disMAE))
(Ybard_e = taud_e/Nd_e)

## [1] 652

zh = (sampleMAE$api00-Ybard_e)*(sampleMAE$emer>0)
sigma2hz = [Link](by(zh,sampleMAE$stype,sd,[Link]=T))^2
(sed_e = sqrt(sum(Nh^2*(1-nh/Nh)*sigma2hz/nh)/Nd_e^2))

## [1] 10.6

Estos resultados pueden también obtenerse con el comando subset mediante

discemer = subset(disMAE,cemer==1)
svymean(~api00,discemer)

## mean SE
## api00 652 10.6

o de manera más general, para los dos dominios en estudio, con el comando svyby mediante
78 CAPÍTULO 3. MUESTREO ALEATORIO ESTRATIFICADO

(mdom = svyby(~api00,~cemer,disMAE,svymean))

## cemer api00 se
## 0 0 776 14.4
## 1 1 652 10.6

Como se observa, y puede verificarse a través de sus intervalos de confianza, los colegios
que contratan profesores con calificaciones de emergencia obtuvieron en promedio un menor
ı́ndice de rendimiento api en el 2000 que aquellos que no contrataron a estos profesores.

3.6.2. MAE con la evaluación censal de estudiantes 2019

Consideremos un MAE para la población ECE 2019 de estudiantes del segundo año de
secundaria de la DRE Amazonas. Algo primordial aquı́ es determinar el criterio de estratifi-
cación. Para ello, y tal como usualmente lo considera el Ministerio de Educación, usaremos
como variables de estratificación a las definidas por el cruce entre las variables de Área (area)
y Gestión (gestion2). Más especı́ficamente, consideraremos 4 estratos: [Link], Ru-
[Link], [Link] estatal y [Link] estatal. La construcción de la variable de estrati-
ficación y su distribución de frecuencias se muestra seguidamente.

load("[Link]")
Pop = ece19Am
Pop$Estrato=interaction(Pop$area,Pop$gestion2)
Pop = Pop[order(Pop$Estrato),]
table(Pop$Estrato)

##
## [Link] [Link] [Link] estatal [Link] estatal
## 5324 2434 82 50

Supongamos ahora que deseamos estimar el rendimiento medio en Matemáticas para esta
DRE con un error de no más de 5 puntos y una confianza del 95 %. Similarmente a como
lo hicimos en el MAS, tomaremos para este fin una muestra piloto de tan solo 10 alumnos
por estrato estimando con ello las desviaciones estándar iniciales por estrato. Esto también
podrı́a haberse hecho considerando las desviaciones estándar del rendimiento en Matemáticas
en la ECE 2018 u otro estudio muestral previo para esta DRE.

[Link](12345)
Nh = [Link](table(Pop$Estrato))
sigmah=sd(Pop$M500_M[Pop$Estrato=="[Link]"][sample(Nh[1],10)])
3.6. USO DEL PAQUETE SURVEY 79

sigmah[2]=sd(Pop$M500_M[Pop$Estrato=="[Link]"][sample(Nh[2],10)])
sigmah[3]=sd(Pop$M500_M[Pop$Estrato=="[Link] estatal"][sample(Nh[3],10)])
sigmah[4]=sd(Pop$M500_M[Pop$Estrato=="[Link] estatal"][sample(Nh[4],10)])

Utilizaremos aquı́ la siguiente afijación de Neyman ah para el tamaño de muestra por

estrato

ah = Nh*sigmah/sum(Nh*sigmah)

Los tamaños de muestra vendrán dados entonces por

d = dim(Pop)[1]*5/qnorm(0.975)
n = sum(((Nh*sigmah)^2)/ah)/(d^2 + sum(Nh*sigmah^2))
(n = ceiling(n))

## [1] 1020

(nh = round(ah*n))

## [1] 646 353 15 5

Tomemos ahora la muestra donde, a diferencia del ejemplo anterior, utilizaremos el co-
mando strata del paquete sampling. Este nos permitirá obtener la muestra de una manera
mucho más directa. Tal comando, cabe comentar, requiere de una previa ordenación (como
lo hicimos) de la base de datos según la variable de estratificación.

library(sampling)
[Link](12345)
m=strata(Pop,c("Estrato"),size=nh,method="srswor")
me19Am = getdata(Pop,m)
table([Link](me19Am$M500_M))

##
## FALSE TRUE
## 1014 5

Puesto que nuestra intención es analizar los rendimientos en Matemáticas y tenemos

aquı́ casos perdidos, eliminemos primero estos de la muestra
80 CAPÍTULO 3. MUESTREO ALEATORIO ESTRATIFICADO

me19Am = me19Am[[Link](me19Am$M500_M)==0,]
nh = [Link](table(me19Am$Estrato))
nh

## [1] 645 349 15 5

me19Am = cbind(me19Am,fpc = rep(Nh,nh))

El objeto diseño será entonces

dis19MAE = svydesign(ids=~1,strata=~Estrato,fpc=~fpc,data=me19Am)

Este nos dará las siguientes estimaciones para los rendimientos medios y la proporción de
logros alcanzados en Matemáticas por los estudiantes del segundo año de secundaria en
Amazonas:

(meanEAm = svymean(~M500_M,dis19MAE, deff=T))

## mean SE DEff
## M500_M 527.79 2.88 0.92

(mpM = svymean(~grupo_M,dis19MAE,[Link]=T))

## mean SE
## grupo_MPrevio al inicio 0.4597 0.01
## grupo_MEn inicio 0.2854 0.01
## grupo_MEn proceso 0.1572 0.01
## grupo_MSatisfactorio 0.0978 0.01

Note que para el rendimiento medio en Matemáticas pedimos una estimación del efecto
del diseño, el cual, como se aprecia, demuestra una ligera mayor eficiencia del MAE en
comparación con el MASs.

3.6.3. MAE para la población penitenciaria 2016

Supongamos que en lugar del censo penitenciario 2016 se nos hubiese encargado diseñar un
muestreo aleatorio estratificado para la población penitenciaria del paı́s. La pregunta inicial
es entonces cómo considerar los estratos. Recordemos que un MAE es óptimo mientras más
pueda separar a la población en estratos relativamente homogéneos. Claramente, una variable
con tal propiedad para nuestra población penitenciaria es el sexo; otra podrı́a ser el nivel
de peligrosidad de los internos, el cual lamentablemente desconocemos. Una posible tercera
3.6. USO DEL PAQUETE SURVEY 81

variable discriminatoria podrı́a ser el nivel de hacinamiento de las cárceles, información que
si bien no está consignada en el censo, es posible obtenerla de conocerse la capacidad de los
establecimientos penitenciarios (EP). Como criterio, consideraremos que un EP se encuentra
en condición de hacinamiento si este alberga al doble o más de internos que su capacidad.
Cabe precisar que las variables de capacidad y sexo para los EP se obtuvieron de una fuente
externa al censo (Informe Estadı́stico Penitenciario Noviembre 2016. INPE). El siguiente
código define los posibles estratos que resultarán del cruce de las variables de condición de
género y hacinamiento.

load('[Link]')
ncap = c(888,65,50,150,72,1518,160,1143,1370,50,384,350,920,572,1152,1464,
768,823,644,1620,2200,288,450,548,42,3204,1142,667,67,78,222,40,214,644,42,
60,120,680,105,85,50,48,64,1074,96,788,90,248,800,62,80,590,288,60,286,600,
78,654,544,636,180,44,778,420,1,8)
sex = c(3,1,3,1,2,1,2,3,1,2,3,3,3,1,1,3,1,1,3,1,3,2,2,2,1,1,1,1,2,1,1,2,1,3,
1,1,3,1,2,2,1,1,3,3,3,3,3,3,1,2,3,1,3,3,3,1,2,3,3,1,1,2,1,3,1,1)
freq = [Link](table(cp16$EST_PENIT))
phacib = freq/ncap
hacib = [Link](phacib>=2)
table(hacib,sex)

## sex
## hacib 1 2 3
## 0 12 9 7
## 1 17 4 17

La tabla final muestra la distribución de EP por condición de hacinamiento y sexo;

sin embargo, en lugar de trabajar con estos potenciales 6 estratos, creemos que serı́a más
conveniente considerar tan solo 4, ya que los EP mixtos (EP que albergan tanto a hombres
como mujeres) podrı́amos subdividirlos en dos EP: una para hombres y otro para mujeres.
De esta manera incrementarı́amos la cantidad de EP de 24 a 90. Todas estas correcciones y
actualizaciones de la base de datos se muestran a través del siguiente código:

# Recodificación de los establecimientos penitenciarios

aux = levels(cp16$EST_PENIT)
EP=factor(cp16$EST_PENIT,levels=c(aux[c(2,4:7,9,10,14,15,17,18,20,22:33,35,36,38:42,49,50,
52,56,57,60:63,65,66)],"Cajamarca_h","Cajamarca_m","Jaen_h","Jaen_m","Chiclayo_h",
"Chiclayo_m","Tumbes_h","Tumbes_m","Huaraz_h","Huaraz_m","Chimbote_h","Chimbote_m",
"Ica_h","Ica_m","Huacho_h","Huacho_m","Ancon2_h","Ancon2_m","Ayacucho_h","Ayacucho_m",
"Chanchamayo_h","Chanchamayo_m","Oroya_h","Oroya_m","Huanuco_h","Huanuco_m",
"Cerro Pasco_h","Cerro Pasco_m","Pucallpa_h","Pucallpa_m","Abancay_h","Abancay_m",
82 CAPÍTULO 3. MUESTREO ALEATORIO ESTRATIFICADO

"Andahuaylas_h","Andahuaylas_m","Quillabamba_h","Quillabamba_m","Chachapoyas_h",
"Chachapoyas_m","Bagua Grande_h","Bagua Grande_m","Yurimaguas_h","Yurimaguas_m",
"Juanjui_h","Juanjui_m","Moyobamba_h","Moyobamba_m","Juliaca_h","Juliaca_m"))
EP[cp16$EST_PENIT=="Cajamarca" & cp16$GENERO=="Hombre"] <- "Cajamarca_h"
EP[cp16$EST_PENIT=="Cajamarca" & cp16$GENERO=="Mujer"] <- "Cajamarca_m"
EP[cp16$EST_PENIT=="Jaen" & cp16$GENERO=="Hombre"] <- "Jaen_h"
EP[cp16$EST_PENIT=="Jaen" & cp16$GENERO=="Mujer"] <- "Jaen_m"
EP[cp16$EST_PENIT=="Chiclayo" & cp16$GENERO=="Hombre"] <- "Chiclayo_h"
EP[cp16$EST_PENIT=="Chiclayo" & cp16$GENERO=="Mujer"] <- "Chiclayo_m"
EP[cp16$EST_PENIT=="Tumbes" & cp16$GENERO=="Hombre"] <- "Tumbes_h"
EP[cp16$EST_PENIT=="Tumbes" & cp16$GENERO=="Mujer"] <- "Tumbes_m"
EP[cp16$EST_PENIT=="Huaraz" & cp16$GENERO=="Hombre"] <- "Huaraz_h"
EP[cp16$EST_PENIT=="Huaraz" & cp16$GENERO=="Mujer"] <- "Huaraz_m"
EP[cp16$EST_PENIT=="Chimbote" & cp16$GENERO=="Hombre"] <- "Chimbote_h"
EP[cp16$EST_PENIT=="Chimbote" & cp16$GENERO=="Mujer"] <- "Chimbote_m"
EP[cp16$EST_PENIT=="Ica" & cp16$GENERO=="Hombre"] <- "Ica_h"
EP[cp16$EST_PENIT=="Ica" & cp16$GENERO=="Mujer"] <- "Ica_m"
EP[cp16$EST_PENIT=="Huacho" & cp16$GENERO=="Hombre"] <- "Huacho_h"
EP[cp16$EST_PENIT=="Huacho" & cp16$GENERO=="Mujer"] <- "Huacho_m"
EP[cp16$EST_PENIT=="Modelo Ancon II - S.M.V.C." & cp16$GENERO=="Hombre"] <- "Ancon2_h"
EP[cp16$EST_PENIT=="Modelo Ancon II - S.M.V.C." & cp16$GENERO=="Mujer"] <- "Ancon2_m"
EP[cp16$EST_PENIT=="Ayacucho" & cp16$GENERO=="Hombre"] <- "Ayacucho_h"
EP[cp16$EST_PENIT=="Ayacucho" & cp16$GENERO=="Mujer"] <- "Ayacucho_m"
EP[cp16$EST_PENIT=="Chanchamayo" & cp16$GENERO=="Hombre"] <- "Chanchamayo_h"
EP[cp16$EST_PENIT=="Chanchamayo" & cp16$GENERO=="Mujer"] <- "Chanchamayo_m"
EP[cp16$EST_PENIT=="Oroya" & cp16$GENERO=="Hombre"] <- "Oroya_h"
EP[cp16$EST_PENIT=="Oroya" & cp16$GENERO=="Mujer"] <- "Oroya_m"
EP[cp16$EST_PENIT=="Huanuco" & cp16$GENERO=="Hombre"] <- "Huanuco_h"
EP[cp16$EST_PENIT=="Huanuco" & cp16$GENERO=="Mujer"] <- "Huanuco_m"
EP[cp16$EST_PENIT=="Cerro Pasco" & cp16$GENERO=="Hombre"] <- "Cerro Pasco_h"
EP[cp16$EST_PENIT=="Cerro Pasco" & cp16$GENERO=="Mujer"] <- "Cerro Pasco_m"
EP[cp16$EST_PENIT=="Pucallpa" & cp16$GENERO=="Hombre"] <- "Pucallpa_h"
EP[cp16$EST_PENIT=="Pucallpa" & cp16$GENERO=="Mujer"] <- "Pucallpa_m"
EP[cp16$EST_PENIT=="Abancay" & cp16$GENERO=="Hombre"] <- "Abancay_h"
EP[cp16$EST_PENIT=="Abancay" & cp16$GENERO=="Mujer"] <- "Abancay_m"
EP[cp16$EST_PENIT=="Andahuaylas" & cp16$GENERO=="Hombre"] <- "Andahuaylas_h"
EP[cp16$EST_PENIT=="Andahuaylas" & cp16$GENERO=="Mujer"] <- "Andahuaylas_m"
EP[cp16$EST_PENIT=="Quillabamba" & cp16$GENERO=="Hombre"] <- "Quillabamba_h"
EP[cp16$EST_PENIT=="Quillabamba" & cp16$GENERO=="Mujer"] <- "Quillabamba_m"
EP[cp16$EST_PENIT=="Chachapoyas" & cp16$GENERO=="Hombre"] <- "Chachapoyas_h"
EP[cp16$EST_PENIT=="Chachapoyas" & cp16$GENERO=="Mujer"] <- "Chachapoyas_m"
EP[cp16$EST_PENIT=="Bagua Grande" & cp16$GENERO=="Hombre"] <- "Bagua Grande_h"
EP[cp16$EST_PENIT=="Bagua Grande" & cp16$GENERO=="Mujer"] <- "Bagua Grande_m"
EP[cp16$EST_PENIT=="Yurimaguas" & cp16$GENERO=="Hombre"] <- "Yurimaguas_h"
EP[cp16$EST_PENIT=="Yurimaguas" & cp16$GENERO=="Mujer"] <- "Yurimaguas_m"
EP[cp16$EST_PENIT=="Juanjui" & cp16$GENERO=="Hombre"] <- "Juanjui_h"
3.6. USO DEL PAQUETE SURVEY 83

EP[cp16$EST_PENIT=="Juanjui" & cp16$GENERO=="Mujer"] <- "Juanjui_m"

EP[cp16$EST_PENIT=="Moyobamba" & cp16$GENERO=="Hombre"] <- "Moyobamba_h"
EP[cp16$EST_PENIT=="Moyobamba" & cp16$GENERO=="Mujer"] <- "Moyobamba_m"
EP[cp16$EST_PENIT=="Juliaca" & cp16$GENERO=="Hombre"] <- "Juliaca_h"
EP[cp16$EST_PENIT=="Juliaca" & cp16$GENERO=="Mujer"] <- "Juliaca_m"
cp16 = cbind(cp16,EP)
# Agregando las nuevas variables capacidad, CG, hacinamiento y estrato
cp16 = cp16[order(cp16$EST_PENIT),]
Capacidad = rep(ncap,freq)
CG = rep(sex,freq)
Hac = rep(hacib,freq)
cp16f = cbind(cp16,Capacidad,CG,Hac)
cp16f$Estrato=1
cp16f$Estrato[cp16f$Hac==0 & cp16f$GENERO=="Mujer"] = 2
cp16f$Estrato[cp16f$Hac==1 & cp16f$GENERO=="Hombre"] = 3
cp16f$Estrato[cp16f$Hac==1 & cp16f$GENERO=="Mujer"] = 4
cp16f$Estrato=factor(cp16f$Estrato,labels=c("No hacinados hombres","No hacinados mujeres",
"Hacinados hombres","Hacinados mujeres"))
cp16f = cp16f[order(cp16f$Estrato),]
save(cp16f,file='[Link]')

Una mirada parcial a la base de datos final nos revela lo siguiente:

cp16f[1:8,c(7:13,190:194)]

## EST_PENIT PABELLON GENERO E_CIVIL RELIGION EDAD NACIONALIDAD

## 3 Cajamarca NA Hombre Casado(a) Ninguna 25 PERUANO
## 4 Cajamarca NA Hombre Viudo(a) Otra 26 PERUANO
## 5 Cajamarca 3 Hombre Casado(a) Evangélica 49 PERUANO
## 6 Cajamarca 7 Hombre Conviviente Ninguna 40 PERUANO
## 7 Cajamarca 1 Hombre Casado(a) Católica 25 PERUANO
## 8 Cajamarca 2 Hombre Casado(a) Católica 45 PERUANO
## 10 Cajamarca NA Hombre Conviviente Católica 40 PERUANO
## 11 Cajamarca NA Hombre Casado(a) Evangélica 40 PERUANO
## EP Capacidad CG Hac Estrato
## 3 Cajamarca_h 888 3 0 No hacinados hombres
## 4 Cajamarca_h 888 3 0 No hacinados hombres
## 5 Cajamarca_h 888 3 0 No hacinados hombres
## 6 Cajamarca_h 888 3 0 No hacinados hombres
## 7 Cajamarca_h 888 3 0 No hacinados hombres
## 8 Cajamarca_h 888 3 0 No hacinados hombres
## 10 Cajamarca_h 888 3 0 No hacinados hombres
## 11 Cajamarca_h 888 3 0 No hacinados hombres
84 CAPÍTULO 3. MUESTREO ALEATORIO ESTRATIFICADO

Definamos ahora el diseño MAE y tomemos la muestra. Para ello usaremos el mismo
tamaño de muestra del MASs con una asignación proporcional, lo que nos da para cada
estrato tamaños de muestra de, respectivamente, 152, 37, 838 y 27 internos.

[Link](12345)
Nh = [Link](table(cp16f$Estrato))
m = strata(cp16f,c("Estrato"),size=c(152,37,838,27),method="srswor")
sampleMAE = getdata(cp16f,m)
fpc=c(rep(Nh[1],152),rep(Nh[2],37), rep(Nh[3],838),rep(Nh[4],27))
sampleMAE=cbind(sampleMAE,fpc)
disenhoMAE = svydesign(ids=~1,strata=~Estrato,fpc = ~fpc, data = sampleMAE)
disenhoMAE

## Stratified Independent Sampling design

## svydesign(ids = ~1, strata = ~Estrato, fpc = ~fpc, data = sampleMAE)

Estimemos, finalmente, como en el capı́tulo 2, la edad promedio de los internos, la pro-

porción de internos sentenciados y la proporción de aquellos que cuentan con un abogado.

svymean(~EDAD, disenhoMAE,[Link]=T)

## mean SE
## EDAD 36.1 0.35

svymean(~SITUACION_JURIDICA,disenhoMAE,[Link]=T)

## mean SE
## SITUACION_JURIDICAProcesado 0.206 0.01
## SITUACION_JURIDICASentenciado 0.794 0.01

svymean(~ABOGADO,disenhoMAE,[Link]=T)

## mean SE
## ABOGADOSı́ 0.533 0.02
## ABOGADONo 0.467 0.02
3.7. EJERCICIOS 85

3.7. Ejercicios
1. Se desea estimar la media poblacional de una variable y mediante un MAE. Muestre que
la varianza estimada de su estimador insesgado bajo la asignación de Neyman es siempre
menor o igual que la de este estimador mediante la asignación proporcional, probando que

H H
1 Nh Nj
V̂P rop (Ȳ ) − V̂N eyman (Ȳ ) = (Sh − Sj )2 .
n h=1 N j=1
N

Explicı́te esta diferencia para H = 2 e indique qué deberı́a ocurrir para que esta diferencia
sea cada vez más grande.

2. Considere un MAE con solo 2 estratos en el que es de interés estimar la diferencia de

medias de una variable y entre estos estratos.
a) Proponga un estimador insesgado para esta diferencia µD y un estimador para su error
estándar de estimación.
b) ¿Qué asignación de tamaños de muestra por estrato harı́a que el error estándar de esti-
mación de µD sea mı́nimo?
c) En una encuesta por MAE de 300 trabajadores de una universidad, con estratos definidos
por quienes tienen educación superior y no, es de interés comparar el tiempo medio en
horas por dı́a que estos grupos de trabajadores permanecen en la universidad. Un estudio
piloto previo sobre los 1200 trabajadores que tenı́an estudios superiores encontró una media y
desviación estándar de 8.25 y 4.128 horas por dı́a, respectivamente; mientras que este estudio
sobre los 835 trabajadores que no tenı́an estudios superiores encontró un media y desviación
estándar de 7.45 y 3.46, respectivamente. Halle la asignación óptima que se deberı́a de tener
por estrato, de tal manera que se obtenga un intervalo de confianza de mı́nima longitud
esperada para la diferencia de medias en discusión.

3. Si se realiza un MAE para una población con 3 estratos de 50, 80 y 70 unidades, ¿cuántas
muestras distintas de tamaño 40 podrı́an obtenerse bajo una asignación proporcional?

4. Dado los resultados de un MAE, muestre que un estimador insesgado de la varianza de la

media bajo un MASs
n σ2
VM ASs (Ȳ ) = (1 − ) N −1
N n
viene dado por

H Nh
(N − n) 1 Nh
V̂M ASs (Ȳ ) = ( y 2 δhi − Ȳ 2 + V̂ (Ȳ )),
n(N − 1) N h=1 nh i=1 hi

donde V̂ (Ȳ ) se define en (3.1).

86 CAPÍTULO 3. MUESTREO ALEATORIO ESTRATIFICADO

5. Muestre que el estimador insesgado de la varianza de la media de una variable y bajo una
asignación proporcional en el ejercicio 4 toma la forma
(N − n) n − 1 2
V̂M ASs (Ȳ ) = ( S + V̂ (Ȳ )),
n(N − 1) n
donde S 2 denota la varianza de todos los datos en la muestra sin tomar en cuenta la estrati-
ficación. Obtenga esta estimación para los datos de la ECE 2019 de Amazonas si se toma en
ella un MAE con asignación proporcional de tamaño 1000 que busca estimar el rendimiento
medio en Matemáticas de los alumnos del segundo año de secundaria.
6. Divida los rectángulos del ejercicio 22 del capı́tulo 2 en 2 estratos según estos tengan o no
menos de 30 unidades. Tome luego una MAE de tamaño 20 con algún tipo de afijación para
estimar el área total de todos los rectángulos y su intervalo de confianza al 98 %. Compare
sus resultados con los del ejercicio 22 del capı́tulo 2.
7. Una biblioteca municipal desea estimar el porcentaje de libros infantiles que posee. La
biblioteca tiene 4 salas (Norte, Sur, Este y Oeste) con 2800, 2940, 4050 y 7900 libros, res-
pectivamente. Suponga que para este objetivo se tomó un MAE con un tamaño de muestra
correspondiente al 10 % de los libros de la biblioteca y una asignación proporcional.
a) Si en la sala Sur se ubicaron 30 libros infantiles, ¿cuál es la estimación de la proporción
de libros infantiles en dicha sala?
b) Para un nivel de confianza del 98 %, ¿cuál es el error máximo de estimación que se
está cometiendo en la estimación anterior?
c) A un nivel de confianza del 95 %, ¿qué error máximo de estimación reportarı́a usted al
estimar la proporción de libros infantiles en toda la biblioteca?
8. En ocasiones, un MAE puede no estar adecuadamente equilibrado en alguna variable
no considerada como criterio de estratificación o podrı́amos no conocer a priori el valor de
esta variable en las unidades de la población, sino hasta después de observar la muestra.
Por posestratificación entenderemos al proceso mediante el cual uno extrae un MAS de la
población y estratifica esta luego de ser observada. En consecuencia, los tamaños de muestra
en cada post-estrato resultan aleatorios. Si para la media poblacional µ de una variable
H Nh
y consideramos al estimador Ȳ = h=1 N Ȳh , donde Ȳh es la media muestral de y en el
post-estrato h, Nh el número de unidades en este post-estrato y asumimos un muestreo sin
reemplazamiento,
a) Muestre que tanto los Ȳh como Ȳ son estimadores insesgados2 de, respectivamente, µh y
µ, siendo µh la media poblacional de y en el post-estrato h y µ la media poblacional global.

b) Muestre que V (Ȳ ) = H Nh 2 2 1 1 2
h=1 ( N ) σh (E( Xh )− Nh ), donde σh y Xh denotan, respectivamente,
la varianza y el tamaño de muestra en el post-estrato h.
c) Proponga algún estimador insesgado de Nh , en caso de que este sea desconocido.
2
Bajo la condición de que los post-estratos de tamaño 0 sea excluidos.
3.7. EJERCICIOS 87

d) Use una expansión de Taylor de segundo orden para el valor esperado en b) y muestre
que aproximadamente las varianzas de Ȳh y de varianza de Ȳ vienen dadas por
(N − Nh )N (N − n)σh2
V (Ȳh ) = (1 + ) y
nNh (N − 1) nNh
H H
N − n Nh 2 1 N − n N − Nh 2
V (Ȳ ) = ( )σh + 2 ( ) ( )σh .
nN h=1 N n N − 1 h=1 N
e) Dos estimadores de V (Ȳ ) son los estimadores incondicionales y condicionales. El primero
se obtiene simplemente al estimar insesgadamente en él las varianzas de los post-estratos o los
Nh , de ser necesarios, y el segundo de igual manera pero omitiendo el segundo término a de-
recha en esta varianza. Obtenga estas estimaciones si al tomar el MASs en 2.4.3 quisieramos
estimar la media del ı́ndice api del 2000, pero haciendo ahora una post-estratificación según
sea el colegio elegible o no para reconocimientos (awards). Obtenga, finalmente, una estima-
ción de V (Ȳ ) mediante el paquete survey, utilizando para ello el comando postStratify.
9. La DRE de Lima Metropolitana le ha pedido a usted realizar un MAE para la población
ECE 2019 con los siguientes 3 estratos: alumnos de colegios urbanos estatales, alumnos
de colegios urbanos no estatales y alumnos de colegios del área rural. Su presupuesto le
alcanza para evaluar 3000 alumnos y tiene como objetivo estimar el rendimiento medio en
Matemáticas de esta DRE. Si utiliza una asignación proporcional,
a) ¿Qué problemas prácticos piensa que podrı́a encontrar al momento de realizar el muestreo?
b) Halle el error de estimación a reportar en este estudio bajo un nivel de confianza del 95 %
c) Si le piden, como parte del estudio, reportar también el rendimiento medio en Matemáticas,
según el nivel socieconómico, donde estos niveles son 3 y definidos por quienes tienen un ISE
menor a 0.4, entre 0.4 y 1 y mayores a 1, ¿cuáles serı́an las estimaciones pedidas y sus errores
estándar de estimación estimados?
10. Un instituto cuenta con las especialidades de Contabilidad, Diseño Industrial, Arqui-
tectura de interiores y Administración de Negocios y desea estimar la proporción de sus
egresados que estarı́an dispuestos a seguir una nueva diplomatura que el instituto piensa
abrir. Se sabe que el último año egresaron de estas especialidades, respectivamente, 20, 200,
80 y 230 alumnos. Si le informan que una encuesta de 50 egresados ya ha sido tomada
mediante un MASs,
a) ¿Qué tan probable es que la encuesta haya omitido a alguna especialidad?
b) Si en la muestra se obtuvo, respectivamente, 3, 20, 12 y 15 alumnos de cada una de las
especialidades anteriores, donde 2, 4, 7 y 8 de ellos manifestaron que seguirı́an el diploma,
use esta información como muesta piloto para encontrar, en un estudio futuro, el tamaño de
muestra que se requerirı́a en un MAE para estimar la proporción de aceptación del diploma
con un margen de error de 0.03 y un nivel de confianza del 95 %. Proponga el tipo de
asignación.
88 CAPÍTULO 3. MUESTREO ALEATORIO ESTRATIFICADO

11. Considere una población de N = 20 domicilios, donde es conocida la variable y = renta

familiar mensual en miles de soles y la variable estrato socioeconómico al cual pertenecen
(con niveles A = alto, M = medio y B = bajo). Los valores de estas variables se resumen en
la siguiente tabla:

Unidad 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Renta 13 17 6 5 9 12 19 6 14 12 8 5 11 20 6 18 10 9 12 8

Estrato M A B B B M A B M M B B M A B A M B B B

A fin de estimar la renta familiar media, se tienen las alternativas de efectuar un MAE
con afijación proporcional, un MASs o un MASc; todos de tamaño 10.
a) Determine las varianzas de estos diseños e indique cuál es más eficiente y por qué.
b) Usando los números aleatorios 0.91, 0.02, 0.7, 0.35, 0.1, 0.96, 0.51, 0.46, 0.23, 0.87, tome
las muestras requeridas para estos diseños y estime la renta familiar media bajo cada uno.
12. Una empresa desea estimar, con un error no mayor a las 250 horas y un nivel de confianza
del 95 %, el número total de horas de trabajo perdidas en un mes debido a accidentes
entre sus empleados (basado en Mendenhall et al. (2007)). Como los obreros, técnicos y
administradores tienen diferentes tasas de siniestralidad, el investigador decide utilizar un
muestreo aleatorio estratificado, de modo que cada grupo forma un estrato independiente.
Los datos de años anteriores sugieren las varianzas que se muestran abajo por el número de
horas de trabajo perdidas por empleado en los 3 grupos. Se muestran también los tamaños
actualizados de los estratos.
Obreros Técnicos Administradores
Varianza 36 25 16
Tamaño 132 92 27

Usando la afijación de Neyman, determine los tamaños de muestra adecuados. ¿Cambian

estos tamaños si la asignación es proporcional?
13. En el MAE hemos seguido siempre la estrategia de obtener los tamaños de muestra según
las especificaciones del máximo error de estimación tolerable para estimar un parámetro
poblacional a un nivel de confianza dado. En ciertas situaciones, sin embargo, el investigador
podrı́a estar interesado en tratar de estimar el parámetro de interés para cada estrato con
un máximo error de estimación prefijado en él a un nivel de confianza dado. La pregunta
entonces es ¿cuál es el máximo error de estimación que se estarı́a cometiendo al estimar
con este procedimiento el parámetro en toda la población para el nivel de confianza dado?
Resuelva este problema para el caso del ejercicio 12; asuma que en este se desee estimar el
número total de horas de trabajo perdidas al interior de cada estrato con un error no mayor
a las 100 horas y una confianza del 95 %.
3.7. EJERCICIOS 89

14. Suponga que en el MAE de la subsección 3.6.2 le piden que reporte las estimaciones del
rendimiento medio en Matemáticas por sexo.
a) Dé estas estimaciones y sus errores estándar de estimación estimados.
b) ¿Cómo harı́a para comparar el rendimiento medio de las estudiantes mujeres que perte-
necen a colegios estatales y no estatales? ¿Se podrı́a concluir, con una confianza del 95 %,
que hay diferencias entre estos rendimientos medios?
c) Responda b) para el caso de los estudiantes hombres.
15. Burnard (1992) envió un cuestionario a una muestra estratificada de tutores y estudian-
tes en Gales para estudiar lo que ellos entendı́an por el término experiential learning. Los
tamaños de población y muestra de los cuatro estratos se muestran a continuación:

Estrato Tamaño de la población Tamaño de muestra

Tutores generales de enfermerı́a (GT) 150 109
Tutores de enfermerı́a psiquiátrica (PT) 34 26
Estudiantes generales de enfermerı́a (GS) 2680 222
Estudiantes de enfermerı́a psiquiátrica (PS) 570 40

A los entrevistados se les preguntó cuáles de las siguientes técnicas podrı́an identificarlas
como métodos de experiential learning. El número de entrevistados de cada grupo que iden-
tificó el método como de experiential learning se muestra a continuación:

Método GS PS PT GT
Role play 213 38 26 104
Problemas de solución de actividades 182 33 22 95
Simulaciones 95 20 22 64
Empatı́a en la construcción de ejercicios 89 25 20 54
Ejercicios gestálquicos 24 4 5 12

Estime el porcentaje total de estudiantes de enfermerı́a y tutores que identifican cada una
de las técnicas mencionadas como de experiential learning. Indique también en cada caso el
error estándar de estimación estimado para cada una de sus estimaciones.

16. Considere un MAE con asignación óptima sobre la ECE 2019 del segundo año de secun-
daria de la DRE Cusco; use la misma estratificación que en el estudio de Amazonas y estime
su rendimiento medio en Matemáticas. Se pide para ello un error de estimación no mayor a
los 5 puntos con una confianza del 95 %.
a) ¿Qué tamaño de muestra deberı́a considerar para este dominio? Utilice, para obtener las
estimaciones necesarias, la ECE 2018.
b) Tome la muestra requerida, obtenga la estimación pedida y calcule la estimción del efecto
de este diseño.
c) Compare, mediante un intervalo de confianza al 95 %, los rendimientos medios en Ma-
temáticas entre las DRE de Cusco y Amazonas.
90 CAPÍTULO 3. MUESTREO ALEATORIO ESTRATIFICADO

17. Considere la base de datos poblacional Province91 del ejercicio 17 del capı́tulo 2 y la
variable Stratum allı́ definida que identifica si la municipalidad de la provincia en estudio es
urbana o rural. Usando esta última como variable de estratificación y la variable número de
personas desempleadas como variable de investigación, tome un MAE de 8 municipalidades
y responda a lo siguiente:
a) Halle los tamaños de muestra por estrato usando una asignación proporcional.
b) Obtenga para el diseño anterior los efectos de diseño en la estimación del total de personas
desempleadas de la provincia.
c) Tomando la muestra requerida, estime el total de personas desempleadas en la provincia
y el efecto de diseño en esta estimación.
d) Si se estimara, bajo este diseño, la proporción de municipalidades que tienen una población
económicamente activa superior a las 10 000 personas, ¿qué error de estimación estimarı́a
para esta proporción?

18. Considere la base de datos apipop y suponga que está interesado en estimar el número
total de alumnos matriculados en esta población con un MAE, donde el criterio de estra-
tificación sea nuevamente el tipo de colegio. Se desea estimar este número con un error de
estimación no mayor a los 70 000 alumnos y un nivel de confianza del 95 %.
a) Tome un MAE piloto de solo 30 escuelas, usando por simplicidad una asignación propor-
cional, e indique en cúanto estimarı́a las desviaciones estándar del número de matriculados
por tipo de colegio.
b) Halle los tamaños de muestra requeridos con una asignación óptima y costos de muestreo
iguales utilizando las estimaciones necesarias de la muestra piloto tomada en a).
c) Realice el MAE y reporte el IC al 95 % para el número de matriculados en esta población.
d) Si con la muestra anterior es también de interés estimar la proporción de escuelas en esta
población que recibieron un premio (awards), estime tal proporción y reporte su error de
estimación estimado.

19. Un hospital público está interesado en construir en sus instalaciones una clı́nica priva-
da y por ello desea realizar una encuesta por muestreo para estimar, entre otras cosas, la
proporción de familias de la ciudad que se atenderı́an en esta clı́nica. El diseño sugerido
será estratificado y se tomarán como variables de estratificación a una que indique si la fami-
lia utiliza o ha utilizado el hospital o no lo ha hecho y a otra que indica si la familia proviene
del distrito donde se ubica el hospital o no. Los cuatro estratos formados, que denotaremos
como 1, 2, 3 y 4, serán entonces los de las familias usuarias del distrito, las usuarias que no
son del distrito, por las no usuarias del distrito y por las no usuarias que no son del distrito.
En un estudio piloto se encontró que, aproximadamente, el 85 % de las familias usuarias
y el 45 % de las no usuarias se atenderı́an en la clı́nica; sin embargo el estudio piloto no
registró el distrito de residencia del representante de la familia. Algo que tomar en cuenta
en la encuesta será que los costos de obtener una observación para una familia usuaria del
3.7. EJERCICIOS 91

distrito son de 3 soles, para una familia usuaria que no es del distrito son de 6 soles, y para
una familia no usuaria sonde 9 soles. Además, se sabe que el número de familias en estos
estratos, según el último censo, son de N1 = 123, N2 = 65, N3 = 155 y N4 = 570.
a) Encuentre qué proporción óptima de la muestra total deberı́a corresponder a cada estrato.
¿Qué criterio está utilizando para obtener estas asignaciones?
b) Encuentre el tamaño de muestra total si se desea estimar la proporción buscada con un
error de estimación no mayor a 0.05 y un nivel de confianza del 95 %.
c) Suponga que tiempo después de realizado el estudio se encontró para cada estrato las
siguientes estimaciones de la proporción de familias que usarı́an la clı́nica

p̂1 = 0.85, p̂2 = 0.72, p̂3 = 0.55, p̂4 = 0.43.

Estime la proporción poblacional p buscada y su error estándar de estimación.

d) Si el presupuesto total para el muestreo se hubiese fijado en $400, ¿cuáles serı́an ahora
los tamaños de muestra por estrato que minimicen el error de estimación?
e) Suponga que le pidiesen ahora que en cada estrato el error de estimación en la proporción
de familias que se atenderı́an en la clı́nica no fuese mayor a 0.05, con una confianza del 95 %.
¿Cuál serı́a el tamaño de muestra total que se requerirı́a en este muestreo? Use aquı́ solo la
información piloto.
20. En esta actividad se le pide que realice un MAE para la base de datos de libros en
lı́nea de la compañı́a Amazon ([Link].). El trabajo se restringirá a solo la población de
libros de Estadı́stica (Statistics) que no estén fuera de stock y que sean nuevos. El criterio de
estratificación se basará en el formato o tipo de empastado que tienen los libros (paperback,
hardcover, loose leaf y otros). Usando una asignación proporcional y una muestra de tamaño
70, estime, junto con sus errores estándar de estimación, el precio medio, la puntuación media
y la proporción actual de libros para cada estrato y para la población en general.
21. Arias-Schreiber et al. (2019) realizaron un análisis de costo-beneficio (ACB) a los proyec-
tos de ley presentados solo por congresistas en el perı́odo legislativo 2012-2013 del Congreso
de la República del Perú (980 proyectos de ley entre el 27/07/2012 al 15/06/2013). Ellos
construyeron un indicador de calidad del análisis ACB sobre la base de 18 variables que
medı́an distintas caracterı́sticas de los proyectos de ley, caracterı́sticas tales como la iden-
tificación de los beneficiarios y perjudicados por el proyecto, la necesidad de presentar el
proyecto, el uso de información para sustentar el proyecto, la evaluación de los costos para
el Estado de aprobarse el proyecto, etc. Información sobre estas variables puede obtenerse
en la siguiente página web del Congreso de la República:
[Link]
Para este análisis se optó por tomar un MAE con tres estratos que reflejaban la participación
de la comisión adscrita al proyecto en el presupuesto del Estado. Concretamente, cada uno
de los estratos que se formaron fueron los siguientes:
92 CAPÍTULO 3. MUESTREO ALEATORIO ESTRATIFICADO

(1) Estrato I (hasta el 1 % del presupuesto). Comprendió a las comisiones de Comercio

Exterior y Turismo, Constitución y Reglamento, Cultura y Patrimonio Cultural, Energı́a y
Minas, Fiscalización y Contralorı́a, Inclusión Social y Personas con Discapacidad, Mujer y Fa-
milia, Producción, Micro y Pequeña Empresa y Cooperativas, Pueblos Andinos, Amazónicos
y Afroperuanos, Ambiente y Ecologı́a, Relaciones Exteriores, y Trabajo y Seguridad Social.
Se registraron 318 proyectos de ley en este estrato.

(2) Estrato II (por encima del 1 % y hasta el 6 % del presupuesto). Comprendió a las comisio-
nes Agraria, de Ciencia, Innovación y Tecnologı́a de Defensa del Consumidor y Organismos
Reguladores de los Servicios Públicos, de Justicia y Derechos Humanos, de Salud y Población
y de Vivienda y Construcción. Se registraron 319 proyectos de ley en este estrato.

(3) Estrato III (por encima del 6 % y hasta el 22 % del presupuesto) Comprendió a las comi-
siones de Defensa Nacional, Orden Interno, Desarrollo Alternativo y Lucha contra las Drogas,
de Descentralización, Regionalización, Gobiernos Locales y Modernización de la Gestión del
Estado, de Economı́a, Banca y Finanzas e Inteligencia Financiera, de Educación, Juventud
y Deporte, de Transportes y Comunicaciones, de Inteligencia y de Presupuesto y Cuenta
General de la República. Se registraron 343 proyectos de ley en este estrato.

Si se desea estimar el porcentaje de proyectos de ley que tuvieron un análisis ACP aceptable
con un nivel de confianza del 95 % y un margen de error del 10 %,
a) ¿Cuál serı́a el tamaño de muestra adecuado? Tome en cuenta que, según estudios previos
del ACB en el paı́s y en paı́ses de la región, este porcentaje nunca supero el 20 %.
b) Tome la muestra requerida en a); use un tipo de asignación proporcional y estime, junto
con su error estándar de estimación, la proporción de proyectos de ley presentados por
congresistas del partido nacionalista Gana Perú en la legislatura 2012-2013.
Capı́tulo 4

Muestreo por conglomerados

Los diseños muestrales estudiados presuponı́an la existencia de un marco muestral bien

conocido y disponible, donde puede recabarse información que identifique a las posibles
unidades seleccionadas de la población objetivo P = {1, 2, ..., N }. En muchas situaciones
este marco no se encuentra disponible y su elaboración puede ser muy costosa, e incluso
imposible. En tales circunstancias, las unidades podrı́an estar ya naturalmente agrupadas
o las podrı́amos agregar en grupos claramente identificables para aplicar el muestreo sobre
estos. Dichos grupos o agregados se denominan conglomerados.
Supongamos, por ejemplo, que deseamos hacer una encuesta de opinión en un distrito
de la ciudad y que este distrito se encuentra dividido en barrios; es decir, en pequeñas
zonas geográficas determinadas por calles, plazas, etc. En un muestreo por conglomerados se
seleccionará primero una muestra de tales barrios y a continuación se averiguará la opinión
de las personas en los barrios seleccionados. Esto último puede realizarse tomando en cuenta
la opinión de todos los habitantes en los barrios seleccionados (muestreo por conglomerado
de una etapa) o haciendo el estudio mediante nuevos muestreos al interior de cada barrio
seleccionado (muestreo por conglomerados de dos o más etapas).
Como se ve, en el muestreo por conglomerados se parte de una estructura de sub-
poblaciones que conforman una partición de la población, como ocurre en el muestreo estra-
tificado, pero la similitud termina aquı́. En el muestreo estratificado se obtiene una muestra
de cada estrato. En el muestreo por conglomerado se obtiene una muestra de conglomera-
dos. Más áun, a fin de obtener diseños óptimos, la idea es que los conglomerados sean muy
homogéneos entre sı́ y heterogéneos al interior, caracterı́stica contraria a la de los estratos.
Entre las razones para optar por un muestreo de este tipo, citamos las siguientes:

Es difı́cil, caro o imposible construir una lista de unidades de observación para el marco
muestral.

La población podrı́a estar muy dispersa geográficamente o aparecer en cúmulos natu-

rales como familias, centros penitenciarios, hospitales o escuelas.

93
94 CAPÍTULO 4. MUESTREO POR CONGLOMERADOS

Si bien, al contrario de un muestreo estratificado, un muestreo por conglomerados tiende a

disminuir la precisión de las estimaciones, el muestreo por conglomerados es el diseño más
utilizado en encuestas sobre grandes poblaciones dada su economı́a y sencillez en el trabajo
de campo.

4.1. Teorı́a del muestreo por conglomerados

En un MAS, las unidades seleccionadas son los elementos observados. En un muestreo
por conglomerados, las unidades seleccionadas o primarias son los conglomerados, y los
elementos observados en su interior constituyen las unidades secundarias. En lo que resta de
este capı́tulo utilizaremos las siguientes notaciones, donde abordaremos con detalle hasta el
muestreo por conglomerados de dos etapas o bietápico. En primer lugar, nuestra población
estará conformada por N unidades primarias (conglomerados) a los que llamaremos UPM
(unidades primarias de muestreo). En cada UPM i asumiremos que existen Mi unidades
secundarias, a las que llamaremos USM (unidades secundarias de muestreo), y será de interés
estudiar una variable estadı́stica y, cuyo valor para la j-ésima USM dentro de la UPM i
será denotado por yij . Sean, por otro lado,

K= N i=1 Mi = número total de USM en la población

n = número de UPM en la muestra

mi = número de USM en la muestra dentro de la UPM i

y definamos la variable aleatoria indicadora δij como 1 si el elemento yij es seleccionado en

la muestra, y 0 en caso contrario. Note que esta variable puede descomponerse como

δij = δj|i δi ,

donde δj|i es una variable indicadora que toma el valor 1 si de seleccionarse la UPM i se
selecciona en la segunda etapa la USM j; mientras que la variable indicadora δi vale 1 si, y
solo si, la UPM i es seleccionada durante la primera etapa. En tal sentido, si las dos etapas
se realizan mediante un MASs, podremos escribir la función de probabilidad de δij mediante
nmi
P (δij = 1) = .
N Mi
En un muestreo de una etapa solo es necesario seleccionar las UPM, razón por la cual la
variable δij se reduce a δi , la cual vale 1 si la i-ésima UPM es seleccionada en la muestra, y
0 en caso contrario. Aquı́ se tiene que
n
P (δi = 1) = .
N
El siguiente cuadro muestra algunas de las cantidades de interés en nuestro estudio:
4.2. MUESTREO POR CONGLOMERADOS DE UNA ETAPA 95

Denominación Parámetro poblacional Estimador puntual

i Mi
Total de la UPM i τi = M j=1 yij τ̂i = M
mi
i
j=1 yij δj|i
i i
Media en la UPM i µi = M1 i M j=1 yij Ȳi = m1i M j=1 yij δj|i
Mi Mi N M i
Media global µ = K1 N i=1 j=1 yij Ȳ = K1 N i=1 j=1 nmi yij δij

Varianza en la UPM i σi2 = Mi1−1 M j=1 (yij − µi )
i 2
Si2 = mi1−1 M 2
j=1 (yij − Ȳi ) δj|i
i

N
Varianza entre UPM σc2 = N 1−1 N K
i=1 (τi − N µ)
2
Sc2 = n−11 K 2
i=1 (Mi Ȳi − N Ȳ ) δi .

Cuadro 4.1: Principales parámetros y estimadores puntuales en un muestreo por conglome-

rados bietápico

La razón de que el estimador puntual de la media poblacional tome una forma un tanto
peculiar, es que este se construye con el fin de que sea un estimador insesgado de la media
poblacional µ. En efecto, un simple cálculo muestra que

N Mi N Mi N Mi
1 N Mi 1 N Mi nmi 1
E(Ȳ ) = yij E(δij ) = yij = yij = µ.
K i=1 j=1 nmi K i=1 j=1 nmi N Mi K i=1 j=1

Más adelante exploraremos otra forma de estimar µ.

4.2. Muestreo por conglomerados de una etapa

Como mencionamos, en el muestreo por conglomerados de una etapa se selecciona me-
diante un MASs una muestra de n UPM y se procede luego a medir la variable de interés en
todos los elementos de los conglomerados seleccionados. Ası́, para el muestreo por conglo-
merados de una etapa, mi = Mi . Con el fin de estimar la media en este diseño, se podrı́an
considerar las medias de los conglomerados seleccionados, o funciones de ellas, como obser-
vaciones e ignorar los elementos individuales. El estimador insesgado de la media global µ
para un muestreo por conglomerados de una etapa viene dado por

N Mi N N
1 N N τi
Ȳ = yij δi = τi δ i = δi , (4.1)
K i=1 j=1 n i=1
nK i=1
nM

donde M = K N
es el tamaño promedio de los conglomerados. Note que esta expresión puede
escribirse también como
N
1 τi
Ȳ = ( )δi ,
n i=1 M
96 CAPÍTULO 4. MUESTREO POR CONGLOMERADOS

τi
lo cual sugiere qué se tomen como observaciones (agregadas) los elementos M
. En consecuen-
cia, por la teorı́a del MASs, la varianza de este estimador viene dada por
2
n σm
V (Ȳ ) = (1 − ) ,
N n

donde σm 2
= N 1−1 N τi 2
i=1 ( M − µ) . Como recordamos, un estimador insesgado de este último
es la varianza muestral
N
2 1 τi
Sm = ( − Ȳ )2 δi .
n − 1 i=1 M
Ası́, el error estándar de estimación estimado de la media Ȳ resulta ser

ˆ n S2
SE(Ȳ ) = V̂ (Ȳ ) = (1 − ) m .
N n
Suponiendo que tenemos información de una muestra piloto o de un estudio anterior sobre
2
Sm , este error de estimación nos permitirá, como es rutina en el MAS, obtener la siguiente
fórmula para el tamaño de muestra de conglomerados para un nivel de confianza de 100(1 −
α) % y un error máximo de estimación para µ de e:
2 2
z1− α Sm N
2
n= 2 2 2
.
z1− α Sm + e N
2

Ejemplo 4.1. Un problema con el estimador insesgado es que este posee en general una
varianza grande, situación que se torna más crı́tica cuando los conglomerados son de distintos
τi
tamaños. Ello es natural, pues la varianza de este es la de los elementos M̄ , los cuales poseen
un denominador común, pero totales que varı́an mucho según la cantidad de unidades que
contiene el conglomerado. Para ilustrar ello, retomemos la data de la ECE 2019, donde los
conglomerados naturales en dicha población son los colegios. Supongamos ahora que deseamos
estimar insesgadamente el rendimiento medio en Ciencia y Tecnologı́a de los alumnos de la
DRE Amazonas con un margen de error de no más de 5 puntos y una confianza del 95 %
usando un muestreo por conglomerados de una etapa. Si analizamos los totales de rendimiento
de los colegios de esta población en el histograma de la figura 4.1, vemos que, en efecto, este
es altamente variable con un CV del 25.59 %

load("[Link]")
tau_CT = ece19Am$M500_CT
# hist(tau_CT)

Para calcular el tamaño de muestra (número de colegios) requeriremos estimar la varianza

τi
entre los elementos M̄ de los colegios. Si bien esta cantidad la podrı́amos obtener de un
estudio piloto o un muestreo pasado, aquı́ la obtendremos para no desenfocarnos de nuestra
data censal. El siguiente código nos permitirá realizar este cálculo
4.2. MUESTREO POR CONGLOMERADOS DE UNA ETAPA 97

2500
2000
1500
Frecuencia

1000
500
0

0 500 1000

Totales de rendimiento

Figura 4.1: Histograma de los totales de rendimiento en Ciencia y Tecnologı́a de los colegio
de la DRE Amazonas en la ECE 2019

K = dim(ece19Am)[1] #Número de estudiantes en Amazonas

(N = length(unique(ece19Am$ID_IE))) #Número de colegios en Amazonas

## [1] 286

Mbar = K/N
tau = aggregate(ece19Am$M500_CT,by=list(ece19Am$ID_IE),sum)
Sm2 = var(tau$x/Mbar,[Link]=T)

El número de colegios a seleccionarse será entonces:

d2 = 25*N/(qnorm(0.975)^2)
ceiling(Sm2*N/(d2 + Sm2))

## [1] 281

que, como se aprecia, es sumamente alto e implica casi un censo.

98 CAPÍTULO 4. MUESTREO POR CONGLOMERADOS

4.3. El estimador de razón

En la sección anterior hemos asumido indirectamente que K o M eran cantidades cono-
cidas. Usualmente, sin embargo, estos se desconocen. Si retomamos el estimador insesgado
(4.1) de µ,
N
τi
Ȳ = δi ,
i=1
nM
vemos que una idea para salvar tal problema podrı́a consistir en estimar M como el tamaño
promedio de solo los conglomerados seleccionados en la muestra; vale decir, por
N
ˆ = 1
M̄ Mi δ i .
n i=1

Si hacemos esto, obtendremos entonces el llamado estimador de razón de µ

N
τi δ i
Ȳr = Ni=1 .
i=1 Mi δi

Este, como su nombre lo sugiere, es un cociente o una razón entre dos variables aleatorias. Si
bien el estudio teórico de este tipo de estimadores lo haremos en el capı́tulo 5, adelantaremos
la siguiente proposición de importancia práctica para este estimador.

Proposición 4.1. El error estándar de estimación aproximado para el estimador de razón

de la media viene dado por

N
n 1
SE(Ȳr ) = (1 − ) M 2 (µi − µ)2 .
N n(N − 1)M̄ 2 i=1 i

Este error estándar puede estimarse por

N
n 1
SE(Ȳr ) = (1 − )
ˆ Mi2 (Ȳi − Ȳr )2 δi .
ˆ2
N n(N − 1)M̄ i=1

Al igual que en los diseños anteriores, podemos utilizar el último resultado para obtener un
tamaño de muestra de conglomerados que nos permita estimar µ con un error máximo e y
un nivel de confianza del 100(1 − α) %. Ello se obtiene de despejar n en la ecuación

ˆ Ȳr ) = z1− α (1 − n ) 1 Sr2 ,
e = z1− α2 SE( 2
N nM̄ ˆ2

donde:
N N
1 2 1
Sr2 = Mi (Ȳi − Ȳr )2 δi = (τ̂i − Mi Ȳr )2 δi
n − 1 i=1 n − 1 i=1
4.4. ESTIMACIÓN DE UNA PROPORCIÓN 99

ha de estimarse de una prueba piloto o de un estudio similar. Un poco de álgebra nos lleva
entonces a la siguiente fórmula:

N Sr2
n= eM̄
.
N(z )2 + Sr2
1− α
2

Cabe indicar, sin embargo, que esta fórmula es válida para tamaños de muestra suficien-
temente grandes y que el sesgo del estimador de razón se hace cada vez más despreciable
conforme aumenta n. Por lo común, la varianza de este estimador resulta ser mucho menor
que la del estimador insesgado, en especial si los tamaños de los conglomerados muestran
una alta heterogeneidad.
Observación: Si los tamaños de los conglomerados son todos iguales, entonces el estimador
insesgado y de razón para µ coinciden.

4.4. Estimación de una proporción

Si recordamos que una proporción no es sino la media de una variable dicotómica Y ,
entonces todo el análisis anterior similar si trabajamos con una variable de este tipo. En
este caso, los estimadores puntuales de la proporción p de elementos de la población que
comparten una caracterı́stica dada para la cual Y vale 1 vienen dados por

N
ai
p̂ = δi
i=1
nM

en el caso insesgado por N

ai δi
p̂r = Ni=1
i=1 M i δi

para el estimador de razón, siendo ai el número de elementos en el conglomerado i que

comparten la caracterı́stica dada. Todas las demás propiedades de la media se verifican para
la proporción al reemplazar τi por ai .

Ejemplo 4.2. Un sociólogo desea estimar los ingresos anuales medios por persona de cierta
ciudad, ası́ como la proporción de estas personas que alquilan sus viviendas (es decir, que
no son propietarios). Dado que él no dispone de una lista de las personas adultas residentes,
decide tomar una muestra por conglomerados. Para ello, obtiene un mapa de la ciudad que
lo divide en 415 bloques rectangulares. Luego selecciona al azar 25 de ellos a cada uno de
los conglomerados seleccionados y asigna un grupo de encuestadores con el objetivo de que
ellos recaben la información requerida en todos los hogares de dichos conglomerados. Luego
del trabajo de campo se obtuvo la tabla que seguidamente se detalla, donde los ingresos están
en cientos de dólares.
100 CAPÍTULO 4. MUESTREO POR CONGLOMERADOS

a) Estime puntualmente la proporción de arrendatarios en esta ciudad y establezca un

lı́mite para el error de estimación con una confianza del 95 %.

b) Si era de interés para el sociólogo estimar el ingreso anual medio por persona en esta
ciudad con un error máximo de 100 dólares, ¿fue suficiente el tamaño de muestra
tomado?
Conglomerado Número de residentes Ingresos totales Número de personas
adultos que alquilan
1 8 96 4
2 12 121 7
3 4 42 1
4 5 65 3
5 6 52 3
6 6 40 4
7 7 75 4
8 5 65 2
9 8 45 3
10 3 50 2
11 2 85 1
12 6 43 3
13 5 54 2
14 10 49 5
15 9 53 4
16 3 50 1
17 6 32 4
18 5 22 2
19 5 45 3
20 4 37 1
21 6 51 3
22 8 30 3
23 7 39 4
24 3 47 0
25 8 41 3

Solución: a) Puesto que no conocemos aquı́ el tamaño de los conglomerados no seleccionados,

solo podrı́amos usar el estimador de razón. Este y su error de estimación lo podrı́amos
calcular introduciendo los datos en la base de datos Rentas y utilizando el código

N = 415
n = 25
load('[Link]')
Mi = Rentas$Nresidentes
pi = Rentas$Nalquilan/Mi
(pr = sum(Rentas$Nalquilan)/sum(Mi))
4.5. MUESTREO POR CONGLOMERADO BIETÁPICO 101

## [1] 0.477

S2pr = sum(Mi^2*(pi-pr)^2)/(n-1)
SEpr_e = sqrt((1-n/N)*S2pr/(n*mean(Mi)^2))
(e = qnorm(0.975)*SEpr_e)

## [1] 0.0458

b) Para responder a esto podrı́amos hallar el error de estimación máximo con el tamaño
actual de muestra o el tamaño de muestra para e = 1. Optemos por el segundo camino. Este
tamaño de muestra deberı́a ser de

Ybarr = sum(Rentas$Ingresos_totales)/sum(Mi)
Ybari = Rentas$Ingresos_totales/Mi
S2r = sum((Mi*(Ybari-Ybarr))^2)/(n-1)
D = mean(Mi)/qnorm(0.975)
(n1= ceiling(N*S2r/(N*D^2 + S2r)))

## [1] 58

por lo que el tamaño de muestra tomado no fue suficiente.

4.5. Muestreo por conglomerado bietápico

En el muestreo por conglomerados de una etapa examinamos todas las USM dentro
de cada UPM elegida. En muchas situaciones, sin embargo, los conglomerados pueden ser
demasiado similares o numerosos, de modo que el análisis de todas las subunidades dentro de
una unidad primaria será un desperdicio de recursos. En estos casos podrı́a ser más eficiente
y económico tomar una submuestra dentro de cada UPM. Este muestreo se denomina un
muestreo por conglomerados bietápico y se resume como sigue:

Se considera un MASs de tamaño n sobre la población de N UPM.

Se considera un MASs de mi USM dentro de cada UPM i seleccionada.

Como vimos en la tabla 4.1, un estimador insesgado de la media global poblacional µ viene
dado por
N Mi
1 N Mi
Ȳ = yij δij .
K i=1 j=1 nmi
Dado que ahora se toman muestras en dos etapas, la varianza de este estimador posee dos
componentes, una debido a la variabilidad entre las UPM y otra debido a la variabilidad entre
102 CAPÍTULO 4. MUESTREO POR CONGLOMERADOS

las USM al interior de las UPM. Concretamente, se puede probar (más adelante mostraremos
un caso más general) que
N
n σc2 1 mi σ2
V (Ȳ ) = (1 − ) 2
+ 2
(1 − )Mi2 i , (4.2)
N nM̄ nM̄ N i=1 Mi mi

donde σc2 es la varianza entre UPM y σi2 es la varianza al interior de la UPM i. Estas últimas
cantidades se pueden estimar, respectivamente, por
N
1
Sc2 = (τ̂i − M̄ Ȳ )2 δi
n − 1 i=1

y Si2 , dando lugar al siguiente estimador insesgado de la varianza (4.2):

N
n Sc2 1 mi S2
V̂ (Ȳ ) = (1 − ) 2
+ 2
(1 − )Mi2 i δi .
N nM̄ nM̄ N i=1 Mi mi

Al igual que en el muestreo por conglomerados de una etapa, el problema con Ȳ recae en el
desconocimiento de K. Una manera de subsanar ello es utilizando nuevamente el estimador
de razón N N
τ̂i δi Mi Ȳi δi
Ȳr = Ni=1 = i=1
N
.
i=1 M δ
i i i=1 Mi δi
Si bien este es un estimador sesgado, tal sesgo es despreciable para n grande y usualmente
este estimador posee una varianza menor que la del estimador insesgado. Esta última se
prueba que viene dada aproximadamente por
N
n σr2 1 mi 2
2 σi
V (Ȳr ) = (1 − ) + (1 − )Mi , (4.3)
N nM̄ 2 nM̄ 2 N i=1 Mi mi

donde:
N N
1 2 1
σr2 = Mi (µi − µ)2 = (Mi µi − Mi µ)2 .
N − 1 i=1 N − 1 i=1
Un estimador de esta última cantidad es
N
n Sr2 1 mi S2
V̂ (Ȳr ) = (1 − ) + (1 − )Mi2 i δi ,
ˆ 2 nM̄
N nM̄ ˆ 2N Mi mi
i=1

donde:
N N
1 2 1
Sr2 = Mi (Ȳi − Ȳr )2 δi = (τ̂i − Mi Ȳr )2 δi .
n − 1 i=1 n − 1 i=1
Para estimar una proporción basta recordar que este es un caso particular de estimación
de la media cuando la variable de investigación es dicotómica. Luego, uno puede fácilmente
4.6. LA CORRELACIÓN INTRACLASE Y EL EFECTO DE DISEÑO 103

encontrar que el estimador de razón de la proporción de elementos de la población p para

los cuales la variable toma el valor 1 viene dado por
N
Mi p̂i δi
p̂r = i=1
N
,
i=1 Mi δi

siendo p̂i la proporción estimada en la muestra del conglomerado i. La varianza estimada de

este estimador viene dada por
N
n Sr2 1 mi p̂i (1 − p̂i )
V̂ (p̂r ) = (1 − ) + (1 − )Mi2 δi ,
ˆ 2 nM̄
N nM̄ ˆ 2N M i mi − 1
i=1

donde:
N N
1 2 1
Sr2 = Mi (p̂i − p̂r )2 δi = (Mi p̂i − Mi p̂r )2 δi .
n − 1 i=1 n − 1 i=1

4.6. La correlación intraclase y el efecto de diseño

Esta sección se enfoca en comparar un muestreo por conglomerados con un MAS, para
lo cual será de gran utilidad introducir alguna medida que refleje la variabilidad existente al
interior de los conglomerados con relación a la variabilidad de toda la población. Para tal
efecto será de gran ayuda analizar la siguiente descomposición de esta última variabilidad, la
Mi
cual podrı́a medirse por la suma de cuadrados totales SCT = N i=1
2
j=1 (yij −µ) . Sumando
y restando en el término cuadrático la media µi de cada conglomerado, obtendremos que
SCT SCC SCE

Mi
N N
Mi
N

(yij − µ)2 = Mi (µi − µ)2 + (yij − µi )2 ,
i=1 j=1 i=1 i=1 j=1

donde a SCC se le denomina la suma de cuadrados entre conglomerados; y a SCE, la suma

de cuadrados del error o dentro de los conglomerados. Esta descomposición puede también
resumirse en la tabla ANOVA del cuadro 4.2.
Fuente de variabilidad Sumas de cuadrados Número de términos
Entre conglomerados SCC N
Dentro de los conglomerados SCE K −N
Total SCT K

Cuadro 4.2: Tabla ANOVA para un muestreo por conglomerados.

Sobre la base del último cuadro, una posible medida de homogeneidad al interior de los
conglomerados viene dada por el coeficiente de determinación ajustado
K SCE
Ra2 = 1 − ( ) .
K − N SCT
104 CAPÍTULO 4. MUESTREO POR CONGLOMERADOS

Mientras más cercano esté Ra2 a 1, más homogéneos serán los conglomerados en su interior
y la variabilidad existente será explicada en esencia por las diferencias entre las medias de
los conglomerados.
Un caso particular del análisis anterior se da cuando los tamaños Mi de los conglomerados
son todos iguales, digamos M . En este caso, al coeficiente
M SCE
Ra2 = 1 − ( )
M − 1 SCT
se le suele denotar por ρ y se le denomina la correlación intraclase. Una de las razones
de su popularidad es que se puede probar que ρ no es sino el coeficiente de correlación
de Pearson para los N M (M − 1) distintos posibles pares (yij , yik ), con i = 1, 2, . . . , N y
j = k ∈ {1, 2, . . . , M }, que uno pudiera tomar en la población de y (véase el ejercicio 4.7).
Veamos ahora el rol que desempeña ρ en el cálculo del efecto de diseño para un muestreo
por conglomerados de una etapa cuando los conglomerados tienen el mismo tamaño. Como
recordamos, para este último caso, la varianza del estimador de la media poblacional viene
dada por
n 1
Vc (Ȳ ) = (1 − ) SCC;
N nM (N − 1)
mientras que la varianza de este estimador bajo un MASs es
n σ2 n SCT
VM ASs (Ȳ ) = (1 − ) = (1 − ) .
N nM N nM (N M − 1)
Relacionando SCC con ρ, obtenemos
SCC SCE M −1 1 + ρ(M − 1)
=1− =1− (1 − ρ) =
SCT SCT M M
−1)
y, consecuentemente SCC = SCT 1+ρ(M M
. Reemplazando esta expresión en la varianza Vc
y tomando el cociente con la varianza VM ASs , resulta que el efecto de diseño viene dado por
Vc (Ȳ ) NM − 1
def f = = (1 + ρ(M − 1)).
VM ASs (Ȳ ) M (N − 1)
M −1
Dado que MN(N −1)
> 1, este efecto será siempre mayor que 1 y, por tanto, el diseño por
conglomerados de una etapa será menos eficiente que el MASs si ρ > 0. Esta es, en efecto,
la situación más usual. Aquı́, los elementos al interior de los conglomerados tienden a ser
más similares entre sı́ que los elementos seleccionados aleatoriamente de la población, lo
cual básicamente ocurre por un efecto de “contagio” ya que los elementos al interior de un
conglomerado comparten un entorno similar; ası́ por ejemplo, en el caso de una encuesta de
hogares, se esperará que los miembros de una vecindad seleccionada (conglomerado), que
han optado por vivir en ella y a interactuar con sus vecinos, tiendan a compartir varias
caracterı́sticas comunes o posean opiniones similares ante distintos cuestionamientos.
Raramente el efecto de diseño será menor que 1, y esto sucederá cuando ρ < − N M1 −1 .
4.7. MUESTREO SISTEMÁTICO 105

Ejemplo 4.3. Consideremos nuevamente el ECE 2019 para la DRE Amazonas y calculemos
para ejemplificar, pues tenemos a toda la población, el coeficiente de determinación ajustado
en la estimación de los rendimientos de Matemáticas. Este viene dado por

fit = aov(ece19Am$M500_M ~ factor(ece19Am$ID_IE),data=ece19Am)

(R2a =1-(1-1/K)*summary(fit)[[1]]$'Mean Sq'[2]/var(ece19Am$M500_M,[Link]=T))

## [1] 0.49

Como se aprecia, la prueba ANOVA, que resulta significativa, tiene un coeficiente de

determinación ajustado alto y positivo.

4.7. Muestreo sistemático

Considere una población con N elementos, donde por simplicidad supondremos que N =
nk, siendo k un número natural y n el tamaño de muestra a considerar. Asumamos también
que disponemos de un marco muestral ordenado: 1, 2, . . . , N . Si seleccionamos ahora al azar
una unidad de entre los primeros k, digamos la unidad j, y luego consecutivamente los
siguientes n − 1 elementos tomados de k en k; es decir, los elementos

j + k, j + 2k, . . . , j + (n − 1)k,

entonces diremos que hemos empleado en esta selección un muestreo sistemático.

La principal ventaja de un muestreo sistemático es su sencillez de ejecución. También
está sujeto a menos posibilidades de errores por parte del entrevistador. En cuanto a su
precisión, esta depende de la muestra y no es posible su directa evaluación. Para entender ello
resulta revelador considerar el muestreo sistemático como un caso particular de un muestreo
por conglomerados. En efecto, si escribimos los valores de nuestra variable estadı́stica de
interés en la población como

y1 , . . . , yk , yk+1 , . . . , y2k , y2k+1 , . . . , y(n−1)k , y(n−1)k+1 , . . . , ynk

o mejor aún en una matriz como

Muestras 1 2 ... n Medias

1 y1 yk+1 ... y(n−1)k+1 µ1
2 y2 yk+2 ... y(n−1)k+2 µ2
.. .. .. .. .. ..
. . . . . . (4.4)
i yi yk+i ... y(n−1)k+i µi
.. .. .. .. .. ..
. . . . . .
k yk y2k ... ynk µk
106 CAPÍTULO 4. MUESTREO POR CONGLOMERADOS

Cada fila de esta matriz representa una posible muestra sistemática de tamaño n, con su
respectiva media. Por tanto, podrı́amos considerar estas filas conglomerados de igual tamaño,
y de los cuales seleccionamos tan solo uno. Ası́, el muestreo sistemático se reduce a un
muestreo por conglomerados de una etapa con k conglomerados, cada uno de tamaño n, de
donde seleccionamos tan solo uno. Consecuentemente, el estimador insesgado de la media
nk
1
µ= yi
nk i=1

viene dado por

µ̂ = Ȳα ,
siendo α el conglomerado seleccionado. Más aún, la varianza de este estimador viene dada
por
k
1
V (µ̂) = (µi − µ)2 (4.5)
k i=1
y su efecto de diseño toma la forma
N −1
def f = (1 + ρ(n − 1)).
N −n
Vemos entonces que si ρ es cercano a 1, los elementos dentro de la muestra serán bastante
similares con respecto a la caracterı́stica que estamos midiendo, y el muestreo sistemático
producirá una varianza de la media muestral mayor que la obtenida con un MASs. Si ρ es
negativo, entonces el muestreo sistemático puede ser más preciso que el MAS. La correlación
puede ser negativa si los elementos dentro de la muestra sistemática tienden a ser extre-
madamente diferentes. Para ρ cercano a 0 y N bastante grande, el muestro sistemático es
aproximadamente equivalente al MASs.

Ejemplo 4.4. Consideremos la siguiente población de un centro de trabajo:

Sujeto 1 2 3 4 5 6 7 8 9 10 11 12
Edad 35 24 60 38 22 33 54 45 38 19 53 40
Sexo M H H M H M M M H M M H
Ingreso 3333 3401 7687 3531 3134 3087 4813 4113 5064 2017 4724 5300

donde es de interés estimar el ingreso medio de estas personas sobre la base de una muestra
sistemática de tamaño n = 4. Obtenga esta estimación y calcule el efecto de este diseño.
Solución: Definamos inicialmente en R nuestra población de estudio.

Popc=[Link](Sujeto=c(1:12),Edad = c(35,24,60,38,22,33,54,45,38,19,53,40),
Sexo = c("M","H","H","M","H","M","M","M","H","M","M","H"),
Ingreso = c(3333,3401,7687,3531,3134,3087,4813, 4113,5064,2017,4724,5300))
4.7. MUESTREO SISTEMÁTICO 107

Para obtener la muestra sistemática podrı́amos ordenar los datos en una matriz 3 × 4
como la dada en (4.4); seleccionar un número aleatorio entre 1 y 3; tomar la fila obtenida y,
finalmente, obtener la estimación pedida al tomar el promedio de los datos de esa fila. Esto
en R se hace con

[Link](12345)
M = matrix(Popc$Ingreso,nrow=3,ncol=4)
m = sample(3,1)
MuestraS = [Link](Ingreso = M[m,])
(Media = mean(MuestraS$Ingreso))

## [1] 5284

Dado que en este ejemplo disponemos de toda la población, es factible obtener la correla-
ción intraclase. Esta por definición es

Popc = cbind(Popc,cluster=rep(1:3,4))
N = dim(Popc)[1]
n = 4
fit = aov(Popc$Ingreso~factor(Popc$cluster),data=Popc)
SCE = summary(fit)[[1]]$'Sum Sq'[2]
SCT = summary(fit)[[1]]$'Sum Sq'[1] + SCE
(rho1 = 1 - (n/(n-1))*(SCE/SCT))

## [1] 0.0946

Desde otro punto de vista, podrı́amos también calcular la correlación intraclase usando
el paquete combinat mediante

library(combinat)
k = max(Popc$cluster)
gx <-function(x,r){c(M[r,x[1]],M[r,x[2]])}
pairs = cbind(combn(1:4,2,gx,simplify=T,1), combn(4:1,2,gx,simplify=T,1))
for (j in 2:k){
pairs = cbind(pairs,cbind(combn(1:4,2,gx,simplify=T,j),
combn(4:1,2,gx,simplify=T,j)))}
(rho2 = cor(t(pairs))[1,2])

## [1] 0.0946

(deff = (N-1)(1 + rho2(n-1))/(N-n))

## [1] 1.77
108 CAPÍTULO 4. MUESTREO POR CONGLOMERADOS

Como se aprecia, se obtiene una correlación intraclase cercana a 0 y un efecto de diseño

de aproximadamente 1.77, lo que nos da un diseño un poco menos preciso que el MASs.
Un problema central con el muestreo sistemático es, como adelantamos, que este no nos
permite obtener una estimación directa de la varianza del estimador, ya que solo se basa en
una muestra de un único conglomerado. Una solución podrı́a ser considerar la fórmula de un
MASs, lo cual para los datos del ejemplo anterior podrı́a ser algo razonable. Si hiciéramos
eso, el error estándar de estimación estimado serı́a

library(survey)
disC = svydesign(id=~1,fpc=rep(12,4),data=MuestraS)
svymean(~Ingreso,disC)

## mean SE
## Ingreso 5284 769

el cual subestima ligeramente al verdadero error estándar de estimación de µ̂. En efecto,

la media y el error estándar de µ̂ (valores que conocemos, solo porque tenemos a toda la
población) vienen dados por

c(mean(Popc$Ingreso),sqrt(deff*(1-n/N)*var(Popc$Ingreso)/n))

## [1] 4184 797

Todo el análisis previo se realizó partiendo de un determinado orden para el marco

muestral. Si este orden cambia, las estimaciones ciertamente también lo harán, por lo cual es
importante conocer algo de la estructura de la población. En tales circunstancias, y dada la
falta de información sobre esta, se recomienda que el diseño sea asistido bajo un modelo. En
efecto, nosotros podrı́amos modelar el orden de la generación de datos en el marco muestral
bajo principalmente tres asunciones:

El marco muestral está en un orden aleatorio y no tiene relación con la variable de

interés. Esto es lo que asumimos en el ejemplo. En tal caso, la correlación intraclase
resultará ser cercana a 0 y el diseño será muy similar a un MASs.

El marco muestral podrı́a estar ordenado en orden creciente o decreciente según la

variable de interés o alguna variable relacionada. En tales casos de autocorrelación
positiva, el muestreo sistemático resultará ser por lo general más preciso que un MASs
al producir correlaciones intraclase negativas. Ası́, si usaramos un MASs para estimar
el error estándar de estimación, estaremos usualmente sobreestimando esta cantidad.
Como lo señalan Lehtonen y Pahkinen (2004), si ρq > 0 es el coeficiente de autocorre-
lación entre un par de unidades que están q unidades aparte, una mejor formulación
4.7. MUESTREO SISTEMÁTICO 109

para el error estándar se obtendrı́a con la formulación

ˆ n S2 2 2ρ̂q
SE q = (1 − ) (1 + + ),
N n log(ρ̂q ) 1 + ρ̂q

siendo 0 < ρ̂q < 1 el valor estimado de la autocorrelación.

El marco muestral presenta un patrón periódico. En tal caso, si seleccionamos las

unidades coincidentemente con el mismo perı́odo, el muestreo sistemático será mucho
menos preciso que el MASs.
Otras maneras de solucionar el problema anterior, es aplicando una estratificación implı́cita
o realizando un muestreo sistemático replicado. El primero consiste en ordenar, en primer
lugar, el marco muestral según la variable de interés o alguna relacionada (pues, la de interés
se desconoce en la población). Esto determinará secuencialmente de manera implı́cita dos
o más estratos, por lo cual la estimación del error estándar de estimación podrá obtenerse
como si este fuera un MAE con asignación proporcional.
En el muestreo replicado, por otro lado, uno selecciona más de una muestra sistemática.
Por ejemplo, 10 muestras sistemáticas con k = 50, conteniendo cada una 6 mediciones,
podrı́an obtenerse en aproximadamente el mismo tiempo que una muestra sistemática con
k = 5, conteniendo 60 mediciones. Ambos procedimientos generan 60 mediciones, pero solo
el muestreo replicado permite estimar la varianza (4.5) utilizándose para ello la varianza de
las 10 medias muestrales obtenidas. El promedio de las 10 medias muestrales estimarı́a la
media poblacional µ.
Como ilustración de estas técnicas, retomemos nuevamente el ejemplo previo. Para la
estratificación implı́cita utilizaremos la edad, que es una variable relacionada al ingreso (asu-
miendo que conocemos la edad de todos) y conformaremos dos pseudoestratos.

library(sampling)
Popco=Popc[order(Popc$Edad),]
Popco = cbind(Popco,Estimp=c(rep(1,6),rep(2,6)),fpc=rep(6,12))
m=strata(Popco,c("Estimp"),size=rep(2,2),method="srswor")
Popcosample=getdata(Popco,m)
DisEI = svydesign(ids=~1,stratum=~Estimp,fpc=~fpc,data=Popcosample)
svymean(~Ingreso,DisEI)

## mean SE
## Ingreso 4604 606

Por otro lado, para el muestreo replicado podrı́amos considerar 6 conglomerados de 2

observaciones cada uno y seleccionar al azar y sin reeemplazamiento a 2 de ellos, de tal
manera que con las medias de estos podamos estimar el error estándar de estimación.
110 CAPÍTULO 4. MUESTREO POR CONGLOMERADOS

Popc = cbind(Popc,cluster1 = rep(1:6,2))

[Link](12345)
s = sample(6,2)
MuestraR = Popc[Popc$cluster1 %in% s,]
(mR = mean(MuestraR$Ingreso))

## [1] 4061

mRc = [Link](by(MuestraR$Ingreso,MuestraR$cluster1,mean))
(SER = sqrt(var(mRc)))

## [1] 187

4.8. Tamaños de muestra para diseños multietápicos

La elección de tamaños de muestra para un muestreo multietápico reviste gran comple-
jidad, pues no solo es necesario determinar cuántas UPM seleccionar, sino también cuántas
USM u otras unidades tomar si hay más etapas. Veamos el caso de la estimación de una
media poblacional bajo un muestreo bietápico, y para simplificar asumamos que las UPM
son todas de igual tamaño M y que se tomará una misma cantidad m de USM por cada
UPM. Aparte de tomar en cuenta la precisión, será conveniente también incluir los costos de
muestreo, los cuales se buscarán minimizar o prefijar. El costo total de muestreo lo asumire-
mos lineal y vendrá dado por C = c0 + c1 n + c2 nm, donde c0 es un costo fijo; c1 es el costo
unitario por cada UPM seleccionada, y c2 es el costo unitario por cada USM seleccionada.
En cuanto a la precisión, recordemos que esta se mide según (4.2) por
N
n σc2 1 m 2
V (Ȳ ) = (1 − ) + (1 − ) σ ,
N nM 2 nmN M i=1 i

donde cabe notar que la varianza entre UPM se relaciona con la suma de cuadrados entre
conglomerados, definida en la sección 4.6, mediante σc2 = NM−1 SCC, y la suma de las varianzas
N 2 SCE
al interior de las UPM satisface i=1 σi = M −1 . Para simplificar podrı́amos introducir,
como se hace usualmente en el análisis de varianza, la media cuadrática entre conglomerados
M CC = SCC N −1
y la media cuadrática del error M CE = K−N SCE
= N SCE
(M −1)
. Ası́, las relaciones
2
N 2
anteriores nos dicen que σc = M × M CC y i=1 σi = N × M CE y, en consecuencia,
n M CC 1 m
V (Ȳ ) = (1 − ) + (1 − )M CE
N nM nm M
M CC − M CE M CE M CC
= + − .
nM nm NM
4.8. TAMAÑOS DE MUESTRA PARA DISEÑOS MULTIETÁPICOS 111

Con el fin de determinar los tamaños de muestra n y m óptimos, usaremos como criterio
minimizar la varianza anterior para un costo fijo total C o minimizar el costo total de
muestreo para un valor fijo de la varianza anterior. Esto, como recordamos, puede resolverse
de manera similar a lo visto en la demostración de la proposición 3.1; es decir, usándose la
desigualdad de Cauchy-Schwartz que busca minimizar

M CC − M CE M CE M CC − M CE M CE
( + )(c1 n + c2 nm) = ( + )(c1 + c2 m).
nM nm M m
Ello nos conduce a las siguientes formulaciones de tamaños de muestra óptimos:

M c1 M CE
m=
c2 (M CC − M CE)

y
C − c0
n= .
c 1 + c2 m
Expresando las medias cuadráticas en términos del coeficiente de correlación intraclase por
−1)ρ
M CE = (1 − ρ) SCT
NM
y M CC = ( 1+(M M (N −1)
)SCT , estas formulaciones podrı́an escribirse
también como
M (N − 1)(1 − ρ)c1
m=
(1 + (N M − 1)ρ)c2
y
C − c0
n= .
c 1 + c2 m
Note que si el número de conglomerados es suficientemente grande, se tendrá la aproximación

(1 − ρ)c1
m= ,
ρc2

y ası́ la elección dependerá tan solo del costo relativo unitario y del coeficiente de correlación
intraclase.
Un desarrollo similar se da, por ejemplo, para un muestreo trietápico. Véase el ejercicio
9 de este capı́tulo.
Cabe precisar que el tratamiento anterior es en parte elegante por el hecho de que se ha
asumido que los conglomerados son de igual tamaño. Si ello no es ası́, uno tendrá en general
que resolver numéricamente un problema de optimización. Sin embargo, como lo demuestran
varios autores entre los que destacan Khan y Ahmad (2006), es posible flexibilizar algunas
restricciones a fin de derivar una fórmula cerrada para los tamaños de muestra buscados.
Detalles sobre cómo hacer esto se tienen en el artı́culo citado. Aquı́ mencionaremos solo los
tamaños de muestra n y mi para la UPM y las USM dentro de cada UPM i óptimos que
112 CAPÍTULO 4. MUESTREO POR CONGLOMERADOS

minimizan la varianza de Ȳ bajo una restricción presupuestal de C0 unidades monetarias en

los costos de muestreo variables. Estos valores vienen dados por
√
C0 A
n= √ √ Mi
c1 A + c1 c2 N i=1 N σi

y
c1
m i = Mi σi ,
Ac2
1
N
donde A = σc2 − N i=1 Mi σi2 .

4.9. El estimador de Horvitz-Thompson

Hasta el momento hemos asumido que las probabilidades de selección de primera etapa
para un muestreo sin reemplazamiento

πi = P (δi = 1)

son todas iguales e independientes de la unidad primaria considerada. Para ser más explı́citos,
en un muestreo por conglomerados bietápico estas estaban dadas por πi = Nn , siendo N
el número de UPM en la población y n el tamaño de muestra de UPM. La asunción de
probabilidades iguales no siempre es la adecuada para algunos requerimientos. Un tı́pico
ejemplo es el de un muestreo por conglomerados con probabilidades proporcionales al tamaño
(ppt). En este se exige que los conglomerados más grandes tengan mayores probabilidades
de selección. Asumiendo, como lo hemos venido haciendo, un muestreo sin reemplazamiento,
la selección de las unidades de la segunda etapa o posteriores se complica bajo este esquema,
dado que ellas dependen de las unidades particulares seleccionadas en la primera etapa.
Horvitz y Thompson (1952) propusieron que de obtenerse estimaciones insesgadas de los
totales en cada unidad primaria, uno podrı́a estimar el total de la población mediante
N
τ̂i
τ̂HT = δi ,
π
i=1 i

siendo τ̂i un estimador insesgado del total poblacional τi para la i-ésima UPM, el cual se
asume que es independiente de δi . Como seguidamente se aprecia, este es un estimador
insesgado del total poblacional τ ,
N
τi N N
τ̂i
E(τ̂HT ) = E( )E(δi ) = πi = τi = τ.
i=1
πi π
i=1 i i=1

Note que el estimador de Horvitz-Thompson no se restringe necesariamente a un muestreo

bietápico; el diseño podrı́a ser sin problemas multietápico bajo la condición de que el total
de la i-ésima UPM pueda ser insesgadamente estimado.
4.9. EL ESTIMADOR DE HORVITZ-THOMPSON 113

El siguiente teorema ilustra algunas propiedades adicionales de este estimador. Antes

será necesario introducir las probabilidades conjuntas de selección de dos unidades primarias,
llamadas también probabilidades de inclusión de segundo orden. Estas vienen dadas por

πij = P (δi = 1, δj = 1).

En un MASs, por ejemplo, estas probabilidades no dependen de las unidades seleccionadas

(n−1) n
y vienen dadas por πij = (N −1) N
.

Proposición 4.2. Independientemente de cómo se definan las probabilidades de inclusión

de primer y segundo orden, estas deben satisfacer las siguientes propiedades:

a)
N

πi = n
i=1

b)
N

πij = (n − 1)πi , ∀i = 1, 2, . . . , N.
j=1
j=i

Demostración: a) Las variables aleatorias indicadoras δi satisfacen por definición

N

δi = n.
i=1

Luego, tomando esperanzas

N
N

n= E(δi ) = πi .
i=1 i=1

b) Por otro lado,

N
N
N

πij = E(δi δj ) = E(δi ( δj )) = E(δi (n − δi )) = (n − 1)πi .
j=1 j=1 j=1
j=i j=i j=i

Teorema 4.1. Considere un muestreo bietápico que se realiza de modo que el muestreo en
cualquier unidad primaria es independiente del muestreo en cualquier otra unidad prima-
ria. Sea τ̂i un estimador insesgado del total τi de la i-ésima unidad primaria, el cual es
independiente de δ1 , δ2 , . . . , δN . Entonces, el estimador de Horvitz-Thompson del total de la
población,
N
τ̂i
τ̂HT = δi ,
π
i=1 i
114 CAPÍTULO 4. MUESTREO POR CONGLOMERADOS

es insesgado, y su varianza viene dada por

N
N N N
τi2 τi τj V (τ̂i )
V (τ̂HT ) = (1 − πi ) + (πij − πi πj ) +
i=1
πi i=1 j=1
πi πj i=1
πi
i=j

N
N N
V (τ̂i )
τi τj
= (πi πj − πij )( − )2 + . (4.6)
i=1 j>i
πi πj i=1
πi
Mas aún, dos estimadores insesgados de esta varianza viene dados por
N
N N N
(1 − πi ) πij − πi πj τ̂i τ̂j V̂ (τ̂i )
V̂HT (τ̂HT ) = τˆi 2 δi + ( ) δi δj + δi
i=1
πi2 i=1 j=1
π ij π i π j i=1
πi
i=j
y
N N N
πi πj − πij τ̂i τ̂j V̂ (τ̂i )
V̂SY G (τ̂HT ) = ( )( − )2 δi δj + δi ,
i=1 j>i
π ij π i π j i=1
πi

donde V̂ (τ̂i ) es un estimador insesgado de V (τ̂i ).

Demostración: Puesto que estamos asumiendo esquemas sin reemplazamiento para las dis-
tintas etapas de selección, los δi son marginalmente variables aleatorias de Bernoulli con
media πi y varianza πi (1 − πi ). Estas tienen para i = j una covarianza igual a Cov(δi , δj ) =
πij − πi πj . Para encontrar la varianza del estimador de Horvitz-Thompson utilizaremos la
proposición 1.4, condicionando esta a la selección de las unidades primarias. Más precisa-
mente:
V (τ̂HT ) = V (E(τ̂HT | δ1 , δ2 , . . . , δN )) + E(V (τ̂HT | δ1 , δ2 , . . . , δN ))
N
N

E(τ̂i ) V (τ̂i )
=V( δi ) + E( δi2 )
i=1
πi i=1
πi2
N N
τi V (τ̂i )
=V( δi ) + 2
E(δi2 )
π
i=1 i i=1
π i

N N N N
τi τ i τj V (τ̂i )
= ( )2 V (δi ) + Cov(δi , δj ) + πi
i=1
πi π π
i=1 j=1 i j i=1
πi2
j=i
N
N
N
N N
τi2 τi τj V (τ̂i )
= (1 − πi ) + (πij − πi πj ) + .
i=1
πi i=1 i=1 j=1
πi πj i=1
πi
j=i

Veamos ahora la equivalencia en (4.6) partiendo del segundo término sin el último factor
N V (τ̂i )
i=1 πi que se mantiene constante en ambas formulaciones. Este término es igual a
N N
1 τ2 τj2 τi τj
(πi πj − πij )( i2 + 2 − 2 )=
2 i=1 j=1 πi πj πi πj
j=i
4.9. EL ESTIMADOR DE HORVITZ-THOMPSON 115

N N N N N N
1 τ2 τj2 1 τ2 τj2 τi τ j
πi πj ( i2 + 2 ) − πij ( i2 + 2 ) − (πi πj − πij )
2 i=1 j=1 πi πj 2 i=1 j=1 πi πj i=1 j=1
πi πj
j=i j=i j=i

N N N N N N N
1 τ2 τj2 τi2 τi τ j
= πi πj ( i2 + 2 ) − τi2 − 2
( π ij ) − (πi πj − πij )
2 i=1 j=1 πi πj i=1
π
i=1 i j=1 i=1 j=1
πi πj
j=i j=i

N
τ2 N N N
τi2 i τi τ j
= (n − πi ) − (n − 1) − (πi πj − πij )
i=1
πi i=1
πi i=1 j=1
πi πj
j=i

N
N N
τi2 τi τ j
= (1 − πi ) + (πij − πi πj ) .
i=1
πi i=1 j=1
πi πj
j=i

Mostremos, finalmente, el insesgamiento de V̂HT (τ̂HT ). El del otro estimador queda como
ejercicio. Utilizando nuevamente la proposición 1.4, se tiene que

E(V̂HT (τ̂HT )) = E(E(V̂HT (τ̂HT ) | δ1 , δ2 , . . . , δN ))

 
N N N N
 (1 − πi ) πij − πi πj τ̂i τ̂j E(V̂ (τ̂i )) 
=E
 2
E( τ
ˆi ) 2
δ i + ( )E( )δ i δ j + δi 

i=1
π i i=1 j=1
π ij π i π j i=1
π i
i=j
 
N N N N
 (1 − πi ) πij − πi πj τi τj V (τ̂i ) 
=E
 2
(V (τ̂ i ) + τi
2
)δ i + ( ) δ i δ j + δi 

i=1
π i i=1 j=1
π ij π i π j i=1
π i
i=j

N
N N N
(1 − πi ) πij − πi πj τi τj (1 − πi ) 1
= τi2 E(δi ) + ( ) E(δi δj ) + ( + )V (τ̂i )E(δi )
i=1
πi2 i=1 j=1
πij πi πj i=1
2
πi πi
i=j

N
N N N
τi2 τi τj V (τ̂i )
= (1 − πi ) + (πij − πi πj ) + = V (τ̂HT ).
i=1
πi i=1 j=1
πi πj i=1
πi
i=j

Note que aun cuando las dos formas dadas para la varianza del estimador de Horvitz-
Thompson son algebraicamente las mismas y sus estimadores se basan en estas, la sustitución
de las cantidades muestrales en estas expresiones sobre diseños con probabilidades no iguales
proporcionan en general diferentes estimadores de esta varianza. A la segunda de estas formas
se le conoce como el estimador de Sen-Yates-Grundy (SYG) y, en general, esta suele mostrar
116 CAPÍTULO 4. MUESTREO POR CONGLOMERADOS

mayor estabilidad que la primera, la cual se llama también el estimador de Horvitz-Thompson

de la varianza del estimador del mismo nombre.
El estimador de Horvitz-Thompson resume prácticamente todos los estimadores de totales
en esquemas sin reemplazamiento anteriormente vistos (y los de medias, al dividirlos entre
la cantidad total de unidades últimas de muestreo). Un ejemplo que desarrollaremos aquı́ es
el de un MASs. En este caso,

N N
τ̂i yi
τ̂HT = δi = n δi = N Ȳ
π
i=1 i i=1 N

es el clásico estimador del total, cuya varianza viene dada por

N
n N
N n−1 n
(1 − ) 2 − n σ2
V (τ̂ ) = n
N
yi + ( N −1 n N
)yi yj = N 2 (1 − ) ,
i=1 N i=1 j=1 N
N n
j=i

donde:
N N
1 1
σ2 = (yi − µ)2 y µ= yi .
N − 1 i=1 N i=1

Otro caso particular, como se pide mostrar en el ejercicio 4.11 y que justifica (4.2), es el
estimador para la media en un muestreo por conglomerados bietápico. En caso de estimarse
el total, esta varianza viene dada por
N
n N2 2 N mi σ2
V (τ̂HT ) = (1 − ) σc + (1 − )Mi2 i ,
N n n i=1 Mi mi

donde σc2 = N 1−1 N K 2
i=1 (τi − N µ) .
Un problema, particular que se presenta con los estimadores de la varianza del estima-
dor de Horvitz-Thompson es que, para algunos diseños con probabilidades distintas, estas
pueden resultar negativas. A veces, la estabilidad se puede mejorar mediante una elección
cuidadosa del diseño; pero en general los cálculos son complicados. Una alternativa, que evita
algo de la inestabilidad potencial y la complejidad de los cálculos para la obtención de las
probabilidades de inclusión, es emplear el estimador de la varianza del estimador del total
considerando reemplazamiento. Esto fue lo que exactamente propusieron Hansen y Hurwitz
(1943) dando pie al siguiente estimador del total que lleva sus nombres:
N δ
1 i
τ̂ij
τ̂ψ = ,
n i=1 j=1 ψi

donde ψi es la probabilidad de tomar la unidad primaria i en una selección (no interesa

cuál); δi es el número de veces que la unidad i es seleccionada en la muestra, y los τ̂ij son
4.10. MUESTREO PPT 117

estimadores insesgados del total de la unidad primaria i, para la j-ésima selección de dicha
unidad. Note que el estimador de Horvitz-Thompson resulta de esta expresión si sustituimos
arriba a ψi por un promedio de elegir la unidad i en una extracción; vale decir, por πni . Se
puede probar (véase el ejercicio 4.12) que un estimador insesgado de la varianza de τ̂ψ viene
dado por
N δi
1 τ̂ij
V̂ (τ̂ψ ) = ( − τ̂ψ )2 . (4.7)
n(n − 1) i=1 j=1 ψi

4.10. Muestreo ppt

Un caso particular de muestreo con probabilidades desiguales es el del muestreo con
probabilidades proporcionales al tamaño (ppt). Si Xi denota el tamaño (valor de alguna
variable cuantitativa) de una unidad i, entonces la probabilidad de que se seleccione esta
unidad en el muestreo ppt será proporcional a Xi , digamos πi0 = CXi , donde C es una

constante de proporcionalidad. Dado que por la proposición 4.2 N 0
i=1 πi = n, resulta que de
reemplazarse las probabilidades anteriores en esta igualdad uno obtiene que C = Nn X y,
i=1 i
por tanto:
Xi
πi0 = N n.
j=1 Xj

Esto, sin embargo, podrı́a generar una cantidad mayor que 1, si la unidad i es relativamente
grande. En tal caso, las probabilidades se fijan en 1 (y, consecuentemente las unidades co-
rrespondientes serán siempre seleccionadas); mientras que las probabilidades de las demás
unidades se deben reescalar para que queden bien definidas; más explı́citamente, si al conjun-
to de K unidades en el subconjunto K de P les corresponde por lo anterior una probabilidad
de 1, entonces cualquier unidad i ∈
/ K tendrá una probabilidad de selección igual a

Xi (n − K)
.
/ Xj
j ∈K

Ası́, las probabilidades de inclusión de primer orden en un muestreo ppt quedan, finalmente,
definidas por:
1 si πi0 ≥ 1
πi = X (n−K)
i
Xj
si πi0 < 1
j ∈K
/

Como se aprecia, las probabilidades de inclusión de primer orden son sencillas de

obtener. En R estas se calculan con el paquete sampling de R bajo el comando
inclusionprobabilities. Para ilustrar el cálculo, adelantémos un poco al ejemplo 4.5,
en el cual se nos pide seleccionar una muestra ppt de tamaño 3 basándonos en el tamaño del
terreno en m2 que ocupan 6 supermercados de un consorcio en una ciudad. El código es
118 CAPÍTULO 4. MUESTREO POR CONGLOMERADOS

X = c(300,200,100,1000,150,500)
pik = inclusionprobabilities(X,3)
pik

## [1] 0.48 0.32 0.16 1.00 0.24 0.80

Note que bajo este esquema el supermercado D resultará ser siempre seleccionado.
A diferencia de las probabilidades de inclusión de primer orden, las de segundo, que son
indispensables por el teorema 4.1 en la obtención de las estimaciones de la varianza del esti-
mador, no solo no son únicas sino difı́ciles de obtener. Estas probabilidades deben satisfacer
la proposición 4.2 b), lo cual nos conduce en general a resolver sistemas de ecuaciones nada
triviales. En la práctica, la obtención de estas probabilidades es todo un desafı́o; por ello
que en lugar de buscar fijarlas y estimar con ellas la varianza del estimador de interés (sin
que esto nos diga cómo obtener la muestra), es mucho más conveniente prescindir de estas,
ya sea tomando un muestreo con reemplazamiento o diseñando esquemas de muestreo sin
reemplazamiento que respeten las probabilidades de inclusión de primer orden y satisfagan
4.2 b). Algunos de estos esquemas se tratarán en la sección 4.12.

4.11. Muestreo secuencial ppt

Otra alternativa cercana al muestreo ppt es el muestreo secuencial ppt. Si las probabi-
lidades de selección fuesen iguales, sabemos que seleccionar simultáneamente al azar y sin
reemplazamiento n unidades de una población equivale a seleccionar secuencialmente una
por una y sin reemplazamiento cada una de las n unidades. Esto es falso en un muestreo
con probabilidades desiguales. El muestreo secuencial ppt puede verse como el esquema se-
cuencial último, donde la probabilidad de que se seleccione la unidad i en la primera ocasión
es NXi X . Sin embargo, como el muestreo es sin reemplazamiento, la probabilidad de que
j=1 j
se seleccione la unidad j para la segunda ocasión dependerá de la unidad i seleccionada en
la primera. Formalmente, si denotamos por πi (n) a la probabilidad de que la unidad i sea

seleccionada en una muestra secuencial ppt de tamaño n y X = N j=1 Xj , entonces

Xi
πi (1) =
X
y

πi (n) = πi (n − 1) + P (∩n−1 c n−1 c n−1 c

=1 E,i ∩ En,i ) = πi (n − 1) + P (En,i | ∩=1 E,i )P (∩=1 E,i )

n−1
Xi Xi
= πi (n − 1) + −1 n−1 , (4.8)
i1 ,i2 ,...,in−1 =1
X− h=1 X ih X− h=1 Xih
4.11. MUESTREO SECUENCIAL PPT 119

donde En,i denota el evento en que la unidad i es seleccionada en la n-ésima selección; la

sumatoria de orden n − 1 recorre todos los ı́ndices de 1 hasta N , sin incluir al término i y
sin repeticiones, y la sumatoria desde 1 hasta 0 se conviene que es 0.
En los casos particulares de n = 1, n = 2 y n = 3, estos desarrollos vienen dados por

Xi
πi (1) =
X
N
Xi Xi
πi (2) = πi (1) + ( )( 1 )
i1 =1
X − X i1 X
i1 =i

N
N
Xi X i2 Xi
πi (3) = πi (2) + ( )( )( 1 ).
i1 =1 i2 =1
X − X i1 − X i2 X − X i1 X
i1 =i2 =i

Note que en el caso especial en que las Xi sean todas iguales, uno obtiene un MASs. Aquı́ la
fórmula (4.8) se reduce a πi (n) = Nn , cualquiera sea el valor de i = 1, 2, . . . , N y del tamaño
de muestra n.

Ejemplo 4.5. Un grupo comercial posee 6 supermercados en una ciudad, los cuales ocupan
terrenos con tamaños de entre 100 y 1000 metros cuadrados. Se desea estimar la cantidad
total de ventas mensual para el grupo en la ciudad, para lo cual se seleccionarán al azar y
sin reemplazamiento tres de estos supermercados. Si, para fines didácticos, dispusiéramos de
la siguiente información:

Supermercado Tamaño (m2 ) Ventas totales en miles de dólares

A 300 24
B 200 20
C 100 11
D 1000 245
E 150 18
F 500 90

Obtenga para un muestreo secuencial ppt una estimación del total buscado y de su error
estándar de estimación. ¿Qué pasarı́a si se aplica un muestreo ppt? Replique estos resultados
para un muestreo ppt con reemplazamiento.
Solución: Notemos que el verdadero total de ventas a estimar para la cadena es de 408 000
dólares. Consideremos primero el muestreo secuencial ppt, para el cual hemos desarrollado
la siguiente función en R que calcula sus probabilidades de inclusión de primer y segundo
orden.
120 CAPÍTULO 4. MUESTREO POR CONGLOMERADOS

library(combinat) # Requiere del paquete combinat

pisppt <-function(X,n){
N = length(X)
XT = sum(X)
m = apply(combn(X,n),2,permn)
m = matrix(unlist(m),ncol=n,byrow=TRUE)
nm = dim(m)[1] # Numero de permutaciones de N en n
p<-pi1<-0
for (j in 1:nm){
p[j] = prod(m[j,])/(XT*prod(XT-cumsum(m[j,1:n-1])))}
pi2=matrix(0,N,N)
for (i in 1:(N-1)){
aux1 = (m==X[i])
index = which(apply(1*aux1,1,sum)==1)
pi1[i] = sum(p[index])
for (j in (i+1):N){
aux2 = (m==X[j])
aux2 = 1*aux2[index,]
pi2[i,j] = sum(p[index[which(apply(aux2,1,sum)==1)]])}}
pi1[N] = n-sum(pi1)
pi2 = pi2+t(pi2)
diag(pi2) = pi1
pi2}

Una aplicación de esta función nos brinda las siguientes probabilidades de inclusión de
primer y segundo orden, donde las primeras se encuentran en la diagonal de la matriz.

(p = pisppt(X,3))

## [,1] [,2] [,3] [,4] [,5] [,6]

## [1,] 0.5234 0.1223 0.0602 0.451 0.0910 0.323
## [2,] 0.1223 0.3743 0.0392 0.315 0.0594 0.213
## [3,] 0.0602 0.0392 0.1982 0.162 0.0291 0.106
## [4,] 0.4507 0.3146 0.1624 0.899 0.2401 0.631
## [5,] 0.0910 0.0594 0.0291 0.240 0.2893 0.159
## [6,] 0.3228 0.2132 0.1056 0.631 0.1591 0.716

Note, por ejemplo, que la probabilidad de que se seleccione al supermercado D es bastante

alta e igual a 0.899; mientras que la probabilidad de que este supermercado sea seleccionado
junto con, digamos el supermercado A, es de 0.4507.
4.11. MUESTREO SECUENCIAL PPT 121

Para la selección de la muestra debemos proceder secuencialmente y tomar tres números

aleatorios. Supongamos que obtuvimos 0.8869, 0.9493 y 0.4259. El primer supermercado
seleccionado será

Supermercado Tamaño πi (1) Πi (1)

A 300 0.133333333 0.133333333
B 200 0,088888889 0.222222222
C 100 0.044444444 0.266666667
D 1000 0.444444444 0.711111111
E 150 0.066666667 0.777777778
F 500 0.222222222 1
Total 2250

el supermercado F. Cabe aclarar que Πi (1) denota aquı́ la probabilidad acumulada para la
primera de selección. Eliminado el supermercado F del proceso, el segundo supermercado
seleccionado será

Supermercado Tamaño πi|6 (2) Πi|6 (2)

A 300 0.171428571 0.171428571
B 200 0.114285714 0.285714286
C 100 0.057142857 0.342857143
D 1000 0.571428571 0.914285714
E 150 0.085714286 1
Total 1750

el supermercado E. Finalmente, eliminados los dos supermercados ya seleccionados, el último

supermercado seleccionado será por la tabla

Supermercado Tamaño πi|5,6 (3) Πi|5,6 (3)

A 300 0.1875 0.1875
B 200 0.125 0.3125
C 100 0.0625 0.375
D 1000 0.625 1
Total 1600

el supermercado D. Con ellos, la estimación pedida será de

90 18 245
τ̂ = + + = 460.47345
0.7155999 0.2893101 0.8991226
miles de dólares. Este mismo resultado puede obtenerse de manera más directa con R y el
paquete sampling a través de los códigos
122 CAPÍTULO 4. MUESTREO POR CONGLOMERADOS

y = c(24,20,11,245,18,90)
HTestimator(y[4:6],diag(p)[4:6])

## [,1]
## [1,] 460

Más aún, el error estándar de estimación estimado de esta estimación puede obtenerse
del teorema 4.1 con la función varHT mediante

pik2 = p[4:6,4:6]
sqrt(varHT(y[4:6],pik2,1))

## [1] 76.1

sqrt(varHT(y[4:6],pik2,2))

## [1] 73.1

donde el primer término corresponde a la estimación con el estimador de Horvitz-Thompson;

mientras que el segundo está asociado al método SGY.
Enfoquémonos ahora en el muestreo ppt, para el que ya obtuvimos las probabilidades de
inclusión de primer orden y en el que el supermercado D serı́a de todas maneras seleccionado.
La dificultad consiste en hallar las probabilidades de inclusión de segundo orden. Según la
proposición 4.2 b), ellas deben satisfacer las siguientes ecuaciones:

π12 + π13 + π14 + π15 + π16 = 0.96

π21 + π23 + π24 + π25 + π26 = 0.64
π31 + π32 + π34 + π35 + π36 = 0.32
π41 + π42 + π43 + π45 + π46 = 2
π51 + π52 + π53 + π54 + π56 = 0.48
π61 + π62 + π63 + π64 + π65 = 1.6

Este sistema posee, sin embargo, infinitas soluciones, una de las cuales se resume en la
siguiente matriz π = [πij ] de probabilidades de inclusión de segundo orden:
 
0 0.05 0.04 0.48 0.04 0.35
 
 0.05 0 0.02 0.32 0.03 0.22 
 
 0.04 0.02 0 0.16 0.02 0.08 
π=  

 0.48 0.32 0.16 0 0.24 0.8 
 
 0.04 0.03 0.02 0.24 0 0.15 
0.35 0.22 0.08 0.8 0.15 0
4.12. MUESTREO CON PROBABILIDADES DESIGUALES 123

Esta elección arbitraria deberı́a de corresponder al mecanismo de selección de las tres unida-
des pedidas (en la que el supermercado D estará de todos modos). Tal mecanismo es difı́cil de
deducir, por lo que una mejor estrategia serı́a primero fijar el mecanismo de selección para
luego encontrar la matriz particular π asociada. Ello es lo que precisamente haremos en la
siguiente sección.
Analicemos, finalmente, la posibilidad de tomar un muestreo con reemplazamiento, el
cual simplifica muchı́simo el proceso de selección. Supongamos para ello que obtuvimos los
números aleatorios 0.09245, 0.7779 y 0.5865. Entonces, de la primera tabla obtenida en el
muestreo secuencial ppt (con ψi = πi (1)), los supermercados seleccionados serán A, D y F.
Ello nos da una estimación para el total de ventas de
24 245 90
τ̂ψ = ( + + )/3 = 378.75
0.133 0.444 0.222
miles de dólares. El error estándar de estimación estimado de τ̂ψ es, por la fórmula (4.7),
de 194.556 mil dólares.

4.12. Muestreo sin reemplazamiento con probabilida-

des desiguales
El ejemplo anterior ilustra la complejidad del cálculo de las probabilidades de selección
y la falta de claridad sobre como obtener la muestra. Como adelantamos, veremos en esta
sección esquemas de muestreo alternativos, los cuales podrı́an suplir la metodologı́a anterior-
mente descrita. Estos esquemas buscan respetar las probabilidades de inclusión pre-definidas
πi , sobre una muestra de tamaño n, y en algunos casos nos brindan probabilidades de in-
clusión de segundo orden. Para formalizarlas, definamos un diseño de muestreo como el
par (Q, p), donde Q denota el conjunto de todas las muestras posibles de tamaño n que
se pudieran extraer de una población P = {1, 2, . . . , N } y p denota a una distribución de
probabilidades (conjunta) sobre las muestras en Q; esto es,

0 < p(δ) ≤ 1, ∀δ ∈ Q y p(δ) = 1.
δ ∈Q
En el muestreo con probabilidades iguales, por ejemplo, los diseños de muestreo más emplea-
dos son los correspondientes al MASc, caracterizado por Q = R = {δ = (δ1 , δ2 , . . . , δN ) ∈

PN / N i=1 δi = n}, y al MASs, caracterizado por Q = S = {δ = (δ1 , δ2 , . . . , δN ) ∈

{0, 1} / N
N
i=1 δi = n}. La cardinalidad de estos conjuntos viene dada, respectivamente,
por #(R) = CnN +n−1 y #(S) = CnN (véase el ejercicio 6 del capı́tulo 2); mientras que sus
1
distribuciones de probabilidade son iguales a p(δ) = C N +n−1 y p(δ) = C1N , respectivamente.
n n
La definición de un diseño de muestreo no nos dice, sin embargo, cómo es que en la práctica
uno podrı́a tomar la muestra. Para ello requeriremos de lo que se conoce como un algoritmo
124 CAPÍTULO 4. MUESTREO POR CONGLOMERADOS

de muestreo (sampling algorithm); esto es, un procedimiento que nos permita seleccionar la
muestra. La manera más directa de definir este algoritmo es la enumerativa. Esta consiste en
listar todos los elementos del diseño (Q, p) junto con sus probabilidades acumuladas y luego
seleccionar aquel elemento en Q cuya probabilidad acumulada sea la primera en superar
a cierto número aleatorio. Tal algoritmo resulta, sin embargo, prohibitivo si n y N son
relativamente grandes o si p no está completamente especificada. El texto de Tillé (2006) se
enfoca precisamente en el desarrollo de algoritmos de muestreo que sean más eficientes que
el enumerativo planteado. Algunos de estos esquemas se introducen seguidamente.

4.12.1. El esquema de Poisson

Este es uno de los esquemas más simples, pero tiene la desventaja de proveer un ta-
maño de muestra aleatorio y no fijo. El algoritmo consiste en generar N números aleatorios
u1 , u2 , . . . , uN uniformes en el intervalo unitario y seleccionar en la muestra a la unidad i
si ui < πi . Ası́, si δi denota la variable binaria que indica si la unidad i es seleccionada
N
o no, el tamaño de muestra bajo este esquema será ns = i=1 δi y su número esperado
N Xi n
E(ns ) = i=1 πi . En el caso particular de un muestreo ppt con πi = X , el tamaño de
muestra esperado será precisamente el planificado n. Este esquema se encuentra implemen-
tado en el paquete sampling de R bajo el comando UPpoisson, donde el prefijo UP significa
“unequal probabilities”.

4.12.2. El esquema sistemático ordenado

Este es uno de los esquemas de muestreo para probabilidades desiguales más simples y
populares sobre un tamaño de muestra fijo n. Su lógica es la misma que la del muestreo
sistemático; esto es, en él se selecciona al azar un único número aleatorio u en el intervalo
unitario y a partir de este se hacen sistemáticamente las siguientes selecciones. Si definimos
i
por Πi = k=1 πk a la suma acumulada de las probabilidades de selección, la primera
unidad j1 que se seleccionará será la primera en la población P para la cual se cumpla
que 0 ≤ u < Πj1 . De manera similar la k-ésima unidad a seleccionarse, jk , será aquella
que satisfaga Πjk −1 ≤ u + k − 1 < Πjk , donde k = 2, . . . , n. Se puede demostrar que las
probabilidades de inclusión de segundo orden en este esquema vienen para i < j dadas por

πij = mı́n{máx{0, πi − Dij }, πj } + mı́n{πi , máx{0, Dij + πj − 1}},

donde Dij = Vij − [Vij ], siendo [.] la notación para el máximo valor entero y Vij = j−1
k=i πk .
Una desventaja de este esquema es que muchas de las probabilidades anteriores son
nulas. Para atenuar ello y hacer que el esquema no sea dependiente del orden dado en el
marco muestral, uno podrı́a aplicarlo luego de ordenar aleatoriamente el marco muestral,
de tal manera que las probabilidades de inclusión de segundo orden sean las medias de las
4.12. MUESTREO CON PROBABILIDADES DESIGUALES 125

probabilidades de inclusión del esquema sistemático anterior para todas las permutaciones
posibles en el marco muestral. Claramente, esto será posible si el aspecto computacional
lo permite; es decir, si el tamaño de la población no es muy grande. El esquema anterior
ası́ como este último, se encuentran implementados en el paquete sampling de R a través de
los comandos UPsystematic y UPrandomsystematic, respectivamente. Se dispone también
del comando UPsystematicpi2 que calcula, para el primero, las probabilidades de inclusión
de segundo orden.

4.12.3. El esquema de Sampford

Este es un diseño sin reemplazamiento que destaca por su simplicidad y, como Sampford
(1967) lo deriva, nos provee de probabilidades de inclusión de segundo orden explı́citas. Este
es un esquema de rechazo que consiste en seleccionar la primera unidad con probabilidades
πi πi
n
y las demás n − 1 unidades con reemplazamiento y probabilidades proporcionales a 1−π i
.
Esta muestra se acepta luego si las n unidades son todas distintas, y se rechaza en caso
contrario; el proceso se repite hasta alcanzar las n muestras requeridas. Con este esquema se
presenta un problema cuando las probabilidades de inclusión son grandes, pues de elegirse
inicialmente las unidades con estas probabilidades, las demás n − 1 difı́cilmente podrán ser
distintas. El método se encuentra implementado en el paquete sampling de R a través de los
comandos UPsampford y UPsampfordpi2 ; este último nos provee de las probabilidades de
inclusión de segundo orden.

4.12.4. Esquemas de división

Deville y Tillé (1998) propusieron un esquema general sin reemplazamiento para un
tamaño de muestra fijo n que se basa en la idea de expresar el vector de probabilidades de
inclusión de primer orden π como una combinación lineal convexa de M vectores similares
π (1) (0), π (2) (0), . . . , π (M ) (0) bajo escalares λ1 (0), λ2 (0), . . . , λM (0) ∈ [0, 1]:
M

π= λj (0)π (j) (0),
j=1

de tal manera que este vector se actualize para el paso 1 como uno de los M vectores
anteriores, digamos π(1) = π (k) (0), el cual será seleccionado con probabilidad λk (0). El
vector resultante tomará ahora el rol del vector de probabilidades de inclusión de primer
orden y el algoritmo se repetirá hasta el paso K en el que π(K) ∈ {0, 1}N , lo cual nos
brindará la muestra buscada. Dependiendo de cómo se especifique la combinación lineal
convexa en cada paso t
M
π(t) = λj (t)π (j) (t), (4.9)
j=1
126 CAPÍTULO 4. MUESTREO POR CONGLOMERADOS

el método generará una gran variedad de esquemas distintos. Aquı́ solo explicitaremos algu-
nos de ellos
El esquema por división hacia un MAS
Este esquema considera M = 2 y fuerza a que uno de los dos vectores de mezcla en (4.9)
corresponda siempre a un MAS. El escalar λ1 (t) se escoge de tal manera que, en la siguiente
iteración, la probabilidad de inclusión de la unidad k con el valor más cercano a 0 o 1 tome
precisamente uno de estos valores. Dado que toda unidad con una probabilidad de inclusión
de 0 o 1 no integrará o integrará con certeza la muestra final, el algoritmo se simplifica para
cada iteración.
El esquema pivotal
Este esquema considera M = 2 y tiene la peculiaridad de que modifica en cada paso
solamente las probabilidades de inclusión de dos de sus unidades. Si en el paso t se eligen
las unidades i y j (de probabilidades no nulas ni 1) y πi (t) + πj (t) > 1, entonces el esquema
se define por
1 − πj (t)
λ(t) = ,
2 − πi (t) − πj (t)


 πk (t) si k ∈ P \ {i, j}
(1)
πk (t) = 1 si k = i

 π (t) + π (t) − 1 si k = j
i j
y 

 πk (t) si k ∈ P \ {i, j}
(2)
πk (t) = πi (t) + πj (t) − 1 si k = i

 1 si k = j
En caso contrario; es decir, si 0 < πi (t) + πj (t) < 1, el esquema se define por
πi (t)
λ(t) = ,
πi (t) + πj (t)


 πk (t) si k ∈ P \ {i, j}
(1)
πk (t) = πi (t) + πj (t) si k = i

 0 si k = j.
y 

 πk (t) si k ∈ P \ {i, j}
(2)
πk (t) = 0 si k = i

 πi (t) + πj (t) si k = j.
En el primer caso se fija una probabilidad de 1 a una sola de las unidades; mientras que
en el segundo se fija una probabilidad de 0 a solo una de las unidades. De esta manera, el
esquema requiere de a lo más N pasos para obtener la muestra.
Tanto el esquema pivotal como otros de división en M clases, como el esquema de elimi-
nación de Tillé o el esquema de Midzuno generalizado, se encuentran implementados
4.13. MUESTREO POR CONGLOMERADOS PARA LA POBLACIÓN API 127

en el paquete sampling de R. Mayores detalles de estos y otros esquemas se pueden encontrar

en el texto de Tillé (2006).

Ejemplo 4.6. Estimemos, bajo los esquemas ppt dados, el total de ventas para los super-
mercados del ejemplo 4.5. La estimación de Horvitz-Thompson se obtiene mediante

y = c(24,20,11,245,18,90)
m = UPpoisson(pik)
HTPoisson = HTestimator(y[m==1],pik[m==1])
m = UPsystematic(pik)
HTsys = HTestimator(y[m==1],pik[m==1])
m = UPrandomsystematic(pik)
HTrsys = HTestimator(y[m==1],pik[m==1])
m = UPsampford(pik)
HTsam = HTestimator(y[m==1],pik[m==1])
c(HTPoisson,HTsys,HTrsys,HTsam)

## [1] 358 420 432 389

4.13. Muestreo por conglomerados para la población

api
Para ilustrar el uso del paquete survey en el muestreo por conglomerados consideremos
nuevamente la base de datos poblacional api y tomaremos como conglomerados a los distritos
escolares (variable dnum).

library(survey)
data(api)
K = dim(apipop)[1]
apipop$dnum[1:100] # mostrando parte de la variable de conglomeración

## [1] 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 7
## [18] 7 7 7 60 60 60 60 60 60 60 60 60 60 60 60 60 60
## [35] 116 116 116 116 116 116 116 116 116 116 116 211 211 211 248 248 248
## [52] 248 248 248 248 248 248 248 248 248 248 248 248 248 248 248 248 248
## [69] 248 248 248 248 248 248 248 248 248 248 248 248 248 248 248 248 248
## [86] 248 294 294 294 294 294 294 294 294 294 294 294 294 294 294
128 CAPÍTULO 4. MUESTREO POR CONGLOMERADOS

(N = length(table(apipop$dnum)))

## [1] 757

Como se ve, existen 757 distritos escolares o conglomerados.

Supongamos ahora que deseamos realizar un muestreo por conglomerados de una etapa
mediante una selección de 15 distritos escolares. La obtención de esta muestra no es tan
directa, pero por fortuna podemos invocar al paquete sampling de R. Este paquete contiene
la rutina cluster , que permite obtener muestras por conglomerados. Los códigos del caso
son

library(sampling)
n = 15
[Link](12345)
aux1=cluster(apipop,clustername=c("dnum"),n, method=c("srswor"),description=T)

## Number of selected clusters: 15

## Number of units in the population and number of selected units: 6194 103

samplec1 = getdata(apipop, aux1)

L = dim(aux1)[1]

El diseño se completará con

(dclus1<-svydesign(ids=~dnum, fpc=rep(N,L), data=samplec1))

## 1 - level Cluster Sampling design

## With (15) clusters.
## svydesign(ids = ~dnum, fpc = rep(N, L), data = samplec1)

Note que este es un diseño sin reemplazamiento, pues se incluye un factor de corrección
para poblaciones finitas. Algo que remarcar aquı́ y que no ocurrı́a en los diseños anteriores
es la presencia de ids=~dnum , que especifica a la variable dnum como variable de conglome-
ración.
Analicemos ahora, como en los diseños previos, cómo estimar el número total de matri-
culados y la media del ı́ndice api para el año 2000:

svytotal(~enroll,dclus1)

## total SE
## enroll 3219521 1211326
4.13. MUESTREO POR CONGLOMERADOS PARA LA POBLACIÓN API 129

svymean(~api00,dclus1)

## mean SE
## api00 724 26.3

Note que este diseño resulta ser menos preciso que los diseños MASs y MAE vistos anterior-
mente.
Consideremos ahora un muestreo aleatorio por conglomerados bietápico con 40 unidades
primarias (distritos escolares) y 5 unidades secundarias (colegios) por distrito. Si bien el
paquete survey contiene una base de datos con estas caracterı́sticas, llamada apiclus2,
nosotros buscaremos tomar una muestra propia. Para esto podrı́amos apelar al comando
mstage del paquete sampling, que en teorı́a permite obtener este tipo de muestras. Tal
estrategia, sin embargo, no será aquı́ conveniente ya que los argumentos de dicho comando
exigen que el número de unidades secundarias a tomar sea a priori conocido. Esto no ocurre
en nuestro ejemplo, pues hay distritos escolares con menos de 5 colegios. Nuestra muestra
bietápica la obtendremos más bien con la siguiente rutina que solo hace uso del comando
cluster:

[Link](12345)
Pop = apipop
aux0 = aggregate(Pop[,6],by=list(Pop$dnum),function(x)x[1])
aux1 = aggregate(Pop[,7],by=list(Pop$dnum),length)
Popd = cbind(aux0,aux1) # Se crea una nueva base de datos de distritos
names(Popd)[c(2,4)]=c("dname","Ncdis")
Pop = merge(Pop,Popd[,c(2,4)],by=c("dname"))
m1<-sampling:::cluster(Pop,clustername=c("dnum"),size =40,method ="srswor")
m1<-getdata(Pop,m1) # Muestra de primera etapa (distritos)
t = [Link](sapply(table(m1$dnum),function(x) min(5,x)))
m2 = NULL
for(i in 1:40){ # Muestra de segunda etapa (colegios)
mx = m1[m1$dnum==unique(m1$dnum)[i],]
mx$Prob1 = mx$Prob
m<-sampling:::cluster(mx,clustername=c("snum"),size=t[i],method ="srswor")
m = getdata(mx,m)
m2 = rbind(m2,m)}
m2$w = 1/(m2$Prob1*m2$Prob) # Pesos de muestreo
m2$fpc1 = fpc=rep(N,dim(m2)[1])

El objeto diseño apropiado con la metadata necesaria para este ejemplo es

130 CAPÍTULO 4. MUESTREO POR CONGLOMERADOS

(dclus2 <- svydesign(ids=~dnum+snum,fpc=~fpc1+Ncdis,data=m2))

## 2 - level Cluster Sampling design

## With (40, 129) clusters.
## svydesign(ids = ~dnum + snum, fpc = ~fpc1 + Ncdis, data = m2)

Como en los diseños previos, la estimación del número total de matriculados y la media
del ı́ndice api para el 2000 se obtendrán mediante

svytotal(~enroll, dclus2, [Link]=TRUE)

## total SE
## enroll 3059677 651303

svymean(~api00, dclus2)

## mean SE
## api00 702 20.1

4.14. Diseño por conglomerados ppt para la población

penal
Nuestro interés en esta sección será planificar una futura encuesta por muestreo para la
población penal del Perú con el fin de estimar, con la mayor precisión posible, la proporción
de internos sentenciados dadas ciertas restricciones de presupuesto. Para ello propondremos
un diseño por conglomerados bietápico en el que seleccionaremos las unidades primarias, que
estarán constituidas por los establecimientos penales (EP), con probabilidades proporcionales
a su número de internos y luego tomaremos internos mediante un MASs. Aquı́ consideraremos
los EP definidos en el capı́tulo 3 y excluiremos a los penales de Barbadillo y la Base Naval
del Callao.
La pregunta central es entonces cuántos EP e internos se deben seleccionar. La respuesta
a ello no es trivial, ya que el muestreo ppt de primera etapa no solo nos inhibe de utilizar los
resultados de la sección 4.8, sino que no nos provee de fórmulas explı́citas para la varianza
de la estimación de nuestra proporción buscada. Requeriremos, asimismo, de estimaciones
de la proporción de sentenciados, las cuales las tomaremos del censo del 2016. Detalles de la
base de datos, costos estimados y cálculo de las proporciones comentadas se muestran en el
siguiente código:
4.14. DISEÑO POR CONGLOMERADOS PPT PARA LA POBLACIÓN PENAL 131

load("[Link]")
cp16x = cp16f[-which(cp16f$EP=="Barbadillo"),]
cp16x = cp16x[-which(cp16x$EP=="Base Naval Callao"),]
pa = by(cp16x$SITUACION_JURIDICA,cp16x$EP,table)
cEP1 = unlist(lapply(pa,"[[",1))
cEP2 = unlist(lapply(pa,"[[",2))
pEPs = [Link](cEP2/(cEP1 + cEP2)) # prop. de sentenciados por EP
M = [Link](unlist(table(droplevels(cp16x$EP)))) # [Link] internos por EP
N = length(M) # numero de EP's
c2 = rep(5,N)
c2[c(8,13:18)]=3
cc = c(750,c2,10000)
library(nloptr)

donde en las últimas filas hemos estimado un costo por EP a seleccionar de 750 soles, un
costo por interno de 5 soles (con excepción de Lima y Callao, en que este se reduce a 3 soles)
y un presupuesto total para el trabajo de campo de máximo 10 000 soles.
Un aspecto clave para sugerir los tamaños de muestra será calcular una estimación de
la varianza de la proporción de sentenciados a estimar. Para ello utilizaremos, por simplici-
dad, un esquema sistemático ordenado, el cual recordemos nos provee de las probabilidades
de inclusión de segundo orden que son esenciales en el cálculo del estimador de Horvitz-
Thompson. Dado entonces el número de EP a seleccionar (n), la cantidad de internos por
EP a tomar (m), la cantidad de internos por EP (M ) y las proporciones de internos senten-
ciados estimadas por EP (pEP s), la función siguiente permite calcular la varianza (4.6) en
discusión

Vem <-function(m,n,M,pEPs,cc){ N = length(M) # número de EP's

pik = inclusionprobabilities(M,n)
pik2 = UPsystematicpi2(pik)
K = sum(M) # número total de internos
v1 = 0;v2 = sum((1-m/M)*(M^3)*pEPs*(1-pEPs)/((M-1)*m*pik))
for(i in 1:(N-1)){
for(j in (i+1):N){
v1=v1+(pik[i]*pik[j]-pik2[i,j])*((M[i]*pEPs[i]/pik[i]-M[j]*pEPs[j]/pik[j])^2)
}}
(v1 + v2)/(K^2)}

Nuestro diseño buscará minimizar la varianza anterior, sujeto a que los costos de muestreo
132 CAPÍTULO 4. MUESTREO POR CONGLOMERADOS

no superen el presupuesto otorgado. Sin embargo, dado que este costo

N
Mi
N

c1 δ i + c2i δj|i δi
i=1 i=1 j=1

es aleatorio, consideraremos su costo esperado. Concretamente, nuestro problema se redu-

cirá a resolver, con respecto a n y los mi la minimización de

N
N N

1 Mi p̄i Mj p̄j 2 3 mi p̄i (1 − p̄i )
(πi πj − πij )( − ) + Mi (1 − ) , (4.10)
K2 i=1 j>i
πi πj i=1
Mi mi (Mi − 1)πi

sujeto a que c1 n + N i=1 c2i mi πi ≤ C0 , mi ≤ Mi y n ≤ N . Aquı́, c1 denota el costo por
EP seleccionado, c2i el costo unitario por interno dentro del EP i y C0 el presupuesto total
para el trabajo de campo. Note que el problema (4.10) es uno de programación no lineal
entera con restricciones de desigualdad. Aquı́, los πi y πij dependen de n de manera no
lineal y los p̄i denotan las proporciones de sentenciados estimados en cada EP i sobre la
base del censo del 2016. Dado que no existe una rutina estándar de programación no-lineal
entera bajo restricciones, optaremos por resolver (4.10) para cada posible valor entero de
n ∈ {2, 3, . . . , [ Cc10 ]} y elegir luego el tamaño de muestra n de primera etapa, como el valor
que minimice las varianzas de estas soluciones. Para esto usaremos el paquete nloptr(Ypma
et al., 2018) de R, el cual es una interfase para resolver problemas de optimización con
restricciones. Las restricciones de costos y opciones de optimización se programan en

gm <-function(m,n,M,pEPs,cc){ N = length(M)
c2 = cc[2:(N+1)]
pik = inclusionprobabilities(M,n)
sum(c2*pik*m) - (cc[N+2]-cc[1]*n)}
opts = list("algorithm"="NLOPT_LN_COBYLA","xtol_rel"=1.0e-8,maxeval = 2000)

y la función a minimizar se encuentra en

moptimn <-function(n,M,pEPs,cc){ N = length(M)

c2 = cc[2:(N+1)]
pik = inclusionprobabilities(M,n)
m0 = (cc[N+2]-cc[1]*n)/sum(c2*pik*pEPs*(1-pEPs))
ini = m0*pEPs*(1-pEPs)
ind = which(ini > M)
ini[ind] = M[ind]
ff = nloptr(x0 = ini,eval_f=Vem, lb=rep(0.0001,N),ub=[Link](M),
eval_g_ineq =gm, opts=opts,n=n,M=M,pEPs=pEPs,cc=cc)}
4.14. DISEÑO POR CONGLOMERADOS PPT PARA LA POBLACIÓN PENAL 133

mientras que la gráfica de esta función para diferentes valores de n, obtenida con el código
abajo mostrado, se aprecia en la figura 4.2.
0.004
0.003
Varianza

0.002
0.001

2 4 6 8 10 12

Figura 4.2: Varianza (4.6) de la proporción de sentenciados estimados para cada valor de n

v = 0
top = floor(cc[N+2]/cc[1])
for (h in 2:top){ aux = moptimn(h,M,pEPs,cc)
v[h] = aux$objective}
v = v[-1]
plot(2:top,v,xlab="n",ylab="Varianza")
lines(2:top,v)

El tamaño de muestra recomendado será entonces de 10 EP y la cantidad de internos que se

seleccionará en cada EP, en caso de que este sea elegido, se obtendrá de

opts = list("algorithm"="NLOPT_LN_COBYLA","xtol_rel"=1.0e-8,maxeval = 10000)

mm = moptimn(10,M,pEPs,cc)
round(mm$solution)

## [1] 56 68 11 54 60 50 41 73 42 38 30 64 84 77 77 13 98 82 47 53 57 59 56
## [24] 62 52 52 42 31 75 61 70 49 62 57 56 63 38 60 57 54 49 57 60 13 41 44
## [47] 48 37 49 56 50 41 45 42 46 34 52 49 55 53 60 23 49 22 55 57 60 14 58
## [70] 62 60 18 58 43 60 49 44 17 59 10 55 10 58 33 46 29 57 51
134 CAPÍTULO 4. MUESTREO POR CONGLOMERADOS

4.15. Ejercicios
1. Un estudiante de un internado desea estimar el promedio final medio que alcanzaron él y
sus compañeros en un curso de la institución. En lugar de obtener un listado de todos sus
compañeros y realizar un MASs, se da cuenta de que los alumnos de su institución están
distribuidos en 100 cuartos de 4 alumnos cada uno. Por ello decide seleccionar al azar 5 de
estos cuartos y preguntarles a todos los estudiantes en esos cuartos el puntaje que obtuvieron
en el curso. Los resultados se muestran en la siguiente tabla:

Alumno Cuarto
No . 1 2 3 4 5
1 15.4 11.8 10 15 13.4
2 13 15.2 12.8 14.4 9.6
3 17.2 16.4 12.6 17.2 16.4
4 15.2 13.4 9.4 18.2 16

a) Obtenga la estimación buscada y su error estándar de estimación estimado.

b) Obtenga un intervalo de confianza al 99 % para la estimación anterior.

2. En Richardson (2012) se presenta el mapa de la figura 4.3 que corresponde a un sitio

arqueológico. Este contiene 100 cuadrı́culas de posible excavación, donde X denota a una
cuadrı́cula que contiene artefactos o “hallazgos”. Si usted tiene un presupuesto para selec-
cionar tan solo 20 cuadrı́culas, seleccione al azar su muestra siguiendo los diseños MASc,
MASs, MAE con asignación proporcional (dividiendo el área en los estratos I y II confor-
mados por las columnas 1-5 y 6-10), muestreo sistemático y de conglomerados con 2 UPM
(donde cada fila es una UPM). Para cada diseño estime el número total de cuadrı́culas con
hallazgos, indicando en cada caso su error estándar de estimación estimado.

1 2 3 4 5 6 7 8X 9 10
11 12 13 X 14 15 16 17 18 19 X 20 X
21 22 23 24 25 X 26 27 28 29 30
31 32 33 34 35 X 36 37 38 39 40
41 42 43 44 X 45 46 47 X 48 X 49 50
51 X 52 53 X 54 X 55 X 56 57 58 X 59 60
61 62 63 64 65 66 X 67 68 69 70
71 72 73 74 X 75 X 76 77 78 79 X 80
81 82 83 84 85 86 87 88 89 90
91 92 93 94 95 96 97 98 X 99 100 X

Figura 4.3: Mapa de un sitio arqueológico

4.15. EJERCICIOS 135

3. A fin de estimar la proporción de poseedores de al menos un auto entre los 3000 empleados
de una compañı́a que se divide en 20 departamentos de 150 funcionarios cada uno, se plantea
un diseño que seleccionará al azar 10 departamentos y dentro de cada departamento 10
empleados. Si el número encontrado de empleados que poseen al menos un auto en esta
muestra fue de
4, 5, 9, 0, 9, 9, 8, 6, 5, 4,
estime la proporción pedida y construya un intervalo de confianza al 95 % para este paráme-
tro.
4. Una empresa de investigación de mercados ideó un plan de muestreo para estimar las
ventas semanales de un producto A en una área geográfica. La empresa decidió muestrear
ciudades dentro del área y luego supermercados dentro de cada una de las ciudades. La
medición de interés es el número de cajas vendidas del producto A en una semana especı́fica.
Cinco ciudades son muestreadas de entre las 20 del área. Usando los datos presentados en la
tabla adjunta

Ciudad Número de Número de Media Desviación

supermercados supermercados muestreados muestral estándar muestral
1 45 9 102 20
2 36 7 90 16
3 20 4 76 22
4 18 4 94 26
5 28 6 120 12

a) Estime las ventas medias de todos los supermercados en el área para la semana especı́fica.
¿Es insesgado el estimador utilizado?
b) ¿Se tiene suficiente información para estimar el número total de cajas del producto A
vendidas en todos los supermercados del área durante la semana? Si es ası́, obtenga esta
estimación y explique cómo obtendrı́a su error estándar de estimación estimado.
5. Considere la base de datos poblacional Province 91 vista en el ejercicio 17 del capı́tulo
2, en donde la variable de conglomeración Cluster agrupa a un conjunto de municipalidades
geográficamente contiguas de la provincia en estudio. Suponga que deseamos realizar una
encuesta por muestreo utilizando ya sea un diseño por conglomerados de una etapa o de dos
etapas. En la primera se seleccionarán tres conglomerados y en la segunda se seleccionarán
4 conglomerados y dentro de estos dos municipalidades, todas mediante un MASs. Si es de
interés estimar el número de personas desempleadas en la provincia,
a) Halle la estimación pedida bajo los dos esquemas de muestreo.
b) Asumiendo que cuenta con toda la información, obtenga los efectos de diseños de ambos
esquemas e indique cuál serı́a más eficiente.
c) Asumiendo que no cuenta con toda la información, estime los efectos de diseño anteriores.
136 CAPÍTULO 4. MUESTREO POR CONGLOMERADOS

6. En este ejercicio, tomado de Mendenhall et al. (2007), una socióloga desea estimar el
número total de jubilados que viven en una ciudad. La socióloga decide muestrear manzanas
y después casas dentro de las manzanas. Se seleccionaron aleatoriamente 4 manzanas de
entre 300 de la ciudad. Responda a las siguientes preguntas a partir de los datos presentados
en la tabla que aparece a continuación

Manzana Número de casas Número de casas Número de residentes

muestreadas jubilados por casa
1 18 3 1, 0, 2
2 14 3 0, 3, 0
3 9 3 1, 1, 2
4 12 3 0, 1, 1

a) Estime el número total de residentes jubilados en la ciudad y su error estándar de esti-

mación.
b) Estime el número promedio de residentes jubilados por casa y su error estándar de esti-
mación.
c) ¿Puede estimar el número promedio de residentes por manzana? Si su respuesta es afir-
mativa, obtenga esta estimación y su error estándar de estimación.
7. Muestre que la correlación intraclase para un diseño bietápico, en las que las USM son
todas de un mismo tamaño M , puede escribirse como
N M M
i=1 j=1 k=j (yij − µ)(yik − µ)
ρ= ,
(N M − 1)(M − 1)σ 2
donde µ y σ 2 son, respectivamente, la media y la varianza poblacionales de la variable y de
investigación, N es el número de UPM e yij es el valor que toma esta variable y en la j-ésima
USM de la UPM i.
8. Complete la demostración del teorema 4.1. Más concretamente, muestre que el estima-
dor de Sen-Yates-Grundy para la varianza del estimador del total de Horvitz-Thompson es
insesgado.
9. Consideremos un muestreo trietápico que busca estimar la media de una variable y en
la que las unidades muestrales son todas de igual tamaño. Suponga que se tomarán secuen-
cialmente un MASs de n UPM, un MASs de m USM dentro de cada UPM y un MASs de q
UTM (unidades terciarias de muestreo) dentro de cada USM.
a) Encuentre una fórmula para la varianza del estimador.
b) Halle los tamaños de muestra óptimos en el sentido de que con ellos se minimice la varianza
anterior o el costo total de muestreo C = c0 + c1 n + c2 nm + c3 nmq, sujeto a que se fije uno
de ellos. Aquı́, c0 es un costo fijo, c1 el costo por UMP seleccionado, c2 el costo por USM
seleccionado y c3 el costo por UTM seleccionado.
4.15. EJERCICIOS 137

10. En una población de 4 personas se seleccionarán al azar y sin reemplazamiento a 2

personas con probabilidades no constantes. Se sabe que la probabilidad de que se seleccionen
a las dos primeras personas es 0.2, que se seleccionen a la primera y tercera es la misma que
se seleccionen a la primera y cuarta, siendo esta de 0.1, que se seleccionen a la segunda y
cuarta es la misma que se seleccionen a la tercera y cuarta, siendo esta de 0.15 y, finalmente,
que se seleccionen a la segunda y tercera persona es de 0.3.
a) Halle las probabilidades de inclusión de cada persona en la muestra.
b) Si la población estadı́stica del número de hermanos y de estas cuatro personas es, res-
pectivamente, Py = {2, 1, 5, 4}, tome bajo este diseño una muestra de tamaño 2 y estime
el número total de hermanos de esta población. Obtenga también una estimación del error
estándar de estimación correspondiente.
11. Demuestre, utilizando el estimador de Horvitz-Thompson, que la varianza del estimador
de la media poblacional para un muestro por conglomerados bietápico está dada por la
expresión (4.2).
12. Muestre que el estimador τ̂ψ definido en la sección 4.9 es un estimador insesgado del total
poblacional. Pruebe también que la varianza de este estimador viene dada por
N N
1 τi 1 V (τ̂ij )
V (τ̂ψ ) = ψi ( − τ )2 +
n i=1 ψi n i=1 ψi

y que (4.7) es un estimador insesgado de esta varianza.

13. Para conocer el rendimiento escolar en los colegios de una zona (6 en total) se ha planeado
seleccionar aleatoriamente y sin reemplazo 2 de estos colegios con probabilidades proporcio-
nales al número de alumnos de los colegios y luego seleccionar al azar 30 alumnos de cada
colegio con el fin de aplicarles una prueba de conocimientos. La distribución del número de
estudiantes por colegio de la zona es

Colegio A B C D E F
Número de estudiantes 150 200 50 30 400 100

Si realizada la selección anterior salieron elegidos los colegios A y E con los siguientes resul-
tados:
Colegio seleccionado Media Varianza
1 14.5 25.64
2 10.9 16.36
a) Estime, de manera insesgada, el rendimiento medio de esta zona junto con su error estándar
de estimación.
b) Si alguien le objeta que debió considerar, para que el muestreo sea representativo, iguales
probabilidades de selección, ¿qué le responderı́a?
138 CAPÍTULO 4. MUESTREO POR CONGLOMERADOS

14. El año pasado una plaga de roya afectó seriamente la producción de café en una zona de
un paı́s que agrupa a 15 unidades agropecuarias (UA) y las cuales se ubican en dos zonas
ecológicas (1 = Baja y 2 = Alta). Con el objetivo de estimar las pérdidas medias en miles
de dólares (µ) para los productores de café de la zona a causa de la plaga, el ministerio
del sector está interesado en realizar un estudio en la zona. Los datos siguientes ilustran la
variable de pérdida en miles de soles (y), la variedad cultivada de café (A o B), el número
de hectáreas (Ha) y las variables anteriormente descritas para cada unidad agropecuaria de
la zona. Naturalmente, y se desconoce, pero se la presenta aquı́ solo para evitar que usted
tenga que recabar esta información en el campo.

UA Zona Cooperativa Ha Variedad y

1 1 1 41.5 A 7.3
2 1 1 23.8 A 6.2
3 1 1 33.3 B 7.2
4 1 1 22.1 A 4.8
5 1 2 44.8 A 7.6
6 1 2 37.3 A 7.4
7 1 2 29.5 A 5
8 1 3 21.5 B 5.8
9 1 3 18.4 B 2.2
10 1 3 13.7 A 6.1
11 2 4 12.5 B 4.5
12 2 4 15.2 B 4.8
13 2 5 6.5 B 2.8
14 2 5 5.8 B 3.3
15 2 5 10.4 A 5.1

a) Suponga que se seleccionan, mediante un MASs, las UA 4, 9, 11 y 15 a fin de estimar µ.

Halle el error estándar de estimación estimado respectivo.
b) Use los números aleatorios 0.231, 0.627, 0.122 y 0.883 para seleccionar, mediante un MASs,
4 UA. Estime con ello µ.
c) Asumiendo que conoce la tabla arriba dada, halle bajo un MASs la desviación estándar
de cualquier media muestral de tamaño 4 y estı́mela usando la muestra en b).
d) Tome un MAE con asignación proporcional y tamaño n = 6, con la variable zona como
variable de estratificación, y estime µ y la proporción de UA en la región que cultivaron la
variedad A.
e) Suponga que al seguir el diseño en d) encontró que el muestreo por UA en la zona 1 cuesta
aproximadamente 54 soles; mientras que el costo en la zona 2 es de 40 soles. ¿Cómo sugerirı́a
para un estudio futuro distribuir la muestra de las 6 UA de tal manera que minimice estos
costos de muestreo? Use las estimaciones de d).
4.15. EJERCICIOS 139

f) Suponga ahora que se aplica un muestreo por conglomerados de una etapa, siendo la
variable de conglomeración la cooperativa. Si salieron seleccionados, bajo este diseño, las
cooperativas 1 y 4, estime µ bajo dos escenarios: uno en el que conozca el número de UA
por cada cooperativa y otro en el que desconozca este número y lo averigue en el trabajo de
campo.
g) De algún indicador en f) que le permita comparar este diseño con el MAE aplicado en d)
y haga la comparación respectiva, indicando cuál de los diseños es más eficiente.
h) Si tomará una muestra de 2 conglomerados (cooperativas) bajo un esquema sistemático
ordenado con tamaños proporcionales al número de hectáreas que administra cada coopera-
tiva, ¿con qué probabilidad las cooperativas 1 y 4 serı́an seleccionadas?
i) Estime µ, bajo el esquema en h). Use el número aleatorio 0.305.
15. Realice, para el ejemplo de las ventas del supermercado, un pequeño estudio de simulación
a fin de comprobar que el método de Sampford “funciona”. Para ello, escriba un programa
en R que seleccione 1000 muestras de tamaño 3 bajo este esquema y, con estas simulaciones,
estime las probabilidades de inclusión ppt de primer orden. Compare luego estas con las
verdaderas probabilidades ppt del ejemplo.
16. En el siguiente ejercicio, tomado de Mendenhall et al. (2007), un parque de diversiones
cobra entrada por auto en lugar de por persona y desea estimar el número promedio de
personas por auto que entran al parque en un dı́a festivo. El funcionario del parque sabe por
experiencia que entrarán a este alrededor de 400 autos y decide muestrear 80 de ellos. Para
obtener una estimación de la varianza, decide utilizar un muestreo sistemático repetido con
10 muestras de 8 autos cada una. Usando los datos que a continuación se presentan, estime
el número medio de personas por auto y establezca un lı́mite para el error de estimación.

Inicio Segundo Tercer Cuarto Quinto Sexto Séptimo Octavo

aleatorio elemento elemento elemento elemento elemento elemento elemento
2(3) 52(4) 102(5) 152(3) 202(6) 252(1) 302(4) 352(4)
5(5) 55(3) 105(4) 155(2) 205(4) 255(2) 305(3) 355(4)
7(2) 57(4) 107(6) 157(2) 207(3) 257(2) 307(1) 357(3)
13(6) 63(4) 113(6) 163(7) 213(2) 263(3) 313(2) 363(7)
26(4) 76(5) 126(7) 176(4) 226(2) 276(6) 326(2) 376(6)
31(7) 81(6) 131(4) 181(4) 231(3) 281(6) 331(7) 381(5)
35(3) 85(3) 135(2) 185(3) 235(6) 285(5) 335(6) 385(8)
40(2) 90(6) 140(2) 190(5) 240(5) 290(4) 340(4) 390(5)
45(2) 95(6) 145(3) 195(6) 245(4) 295(4) 345(5) 395(4)
46(6) 96(5) 146(4) 196(6) 246(3) 296(3) 346(5) 396(3)

Las respuestas del número de personas por auto se encuentran entre paréntesis.
140 CAPÍTULO 4. MUESTREO POR CONGLOMERADOS

17. El organismo de medición de la calidad educativa de un paı́s ideó un plan de muestreo

para estimar el rendimiento medio de los alumnos del tercer año de educación secundaria
de una región. El organismo decidió muestrear primero distritos educativos y luego colegios
dentro de cada distrito. Cinco distritos son muestreados de entre los 15 de la región. Usando
los datos que se muestran en el cuadro 4.15, donde se marca con X los distritos seleccionados,
a) Estime el rendimiento medio de los colegios en la región. ¿Es insesgado el estimador usado?
b) Obtenga un lı́mite para el máximo margen de error en la estimación anterior al 95 %.
c) Suponga que a futuro se seleccionarán al azar tres distritos con probabilidades propor-
cionales al número de colegios del distrito a fin de medir el impacto de un nueva polı́tica
educativa para la región. Haga la selección y diga a qué distritos habrı́a que hacerles el se-
guimiento en este estudio. Calcule también la probabilidad de que el distrito con el mayor
número de colegios de la región participe de este estudio.

Distrito Número de Número de Número de Media DE

escolar colegios colegios elegidos colegios unidocentes
X 1 25 9 3 15.25 3.06
2 16 4
3 32 11
X 4 26 7 3 13.56 2.18
5 24 2
6 20 5
7 26 4
8 18 2
X 9 30 4 6 12.17 2.45
10 36 9
X 11 28 4 5 10.65 2.60
12 22 9
13 45 10
X 14 39 6 8 15.38 2.93
15 26 7

Cuadro 4.3: Datos de la muestra para el ejercicio 17

18. Suponga que en la pregunta anterior se hubiese tenido interés en estimar la proporción de
colegios unidocentes de la región y que con este fin se plantearan dos propuestas: seleccionar
4 distritos con probabilidades proporcionales al número de colegios en el distrito o seleccionar
4 distritos mediante un muestreo por conglomerados de una etapa.
a) Utilizando un esquema sistemático ordenado en la primera propuesta, ¿serı́a posible re-
portar la proporción estimada buscada y su error estándar de estimación estimado?
4.15. EJERCICIOS 141

b) Realice la selección de los 4 distritos y estime la proporción de colegios unidocentes en la

región bajo las dos propuestas. Para la selección ppt use un esquema de Sampford.
c) A un nivel de confianza del 95 %, ¿qué error reportarı́a en sus estimaciones anteriores?.
¿Cuál propuesta considerarı́a que es la mejor?
19. Una cadena tiene 16 tiendas en el paı́s. Si bien la cadena sugiere un precio de venta de
750 soles para un nuevo modelo de celular YTRON que llegó el mes pasado, este precio es
variable y se deja a criterio del vendedor siempre que no sea inferior a los 680 soles, que es el
precio de costo. Para estimar la proporción de celulares YTRON vendidos con rebaja sobre
el precio ofrecido y estimar el monto total recabado hasta el momento por la venta de estos
celulares, se piensa tomar una muestra de 4 de estas tiendas.
a) Si la muestra se tomó mediante un MASs y se obtuvieron los siguientes resultados:

Número de Número de Monto total de ventas Número de

celulares YTRON celulares YTRON del celular celulares YTRON
en stock vendidos YTRON vendidos con rebaja
30 5 3730 1
45 10 7200 8
18 8 5670 6
20 9 7000 3

Reporte las estimaciones pedidas y sus errores estándar de estimación estimados.

b) Si la distribución del número de celulares YTRON destinados a cada tienda a inicios del
mes (stock) fue la siguiente y la muestra se toma con probabilidades proporcionales al stock:

Tienda 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Stock 55 45 10 12 10 120 18 20 35 45 10 36 30 27 15 50

obtenga estas probabilidades y tome la muestra respectiva mediante un esquema sistemático

ppt. Reporte la semilla aleatoria utilizada.
c) Suponga ahora que usted considera utilizar el estimador de Hansen-Hurwitz con reem-
plazamiento. Tome la muestra de 4 tiendas e indique cómo obtendrı́a la estimación del total
actual de ventas de los celulares YTRON en la cadena.
20. Suponga que para la ECE 2018 de la DRE Amazonas se le pide hacer un estudio de simu-
lación que consiste en seleccionar 500 muestras de 50 colegios, cada una con probabilidades
proporcionales al número de alumnos por colegio. Basándose en los esquemas de Poisson,
sistemático ordenado y aleatorio, Tillé, Midzuno, pivotal y de conglomerados de una etapa,
estime el rendimiento medio en Matemáticas. Indique a partir de un diagrama de cajas,
cuáles de los esquemas anteriores logran una mayor precisión.
142 CAPÍTULO 4. MUESTREO POR CONGLOMERADOS

21. Suponga que en el ejemplo 4.6 se plantea un plan con las siguientes caracterı́sticas:

Las muestras se tomarán secuencialmente.

La primera selección se tomará con probabilidad proporcional al área del supermercado,

la segunda y tercera selección se harán al azar y con reemplazamiento, sin tomar en
cuenta la primera selección.

Defina formalmente el diseño de muestreo asociado a este algoritmo.

22. Un ingeniero ambiental desea estimar el número total de árboles en un determinado

condado que han sido afectados por una enfermedad y cuál es el nivel de esta infección.
Hay 15 zonas forestales bien definidas en el condado, las cuales están divididas en parcelas
de aproximadamente el mismo tamaño. Cuatro equipos están disponibles para el estudio, el
cual deberá completarse en un dı́a. Con este propósito se diseñó un muestreo aleatorio por
conglomerados bietápico. En este se seleccionaron al azar y sin reemplazamiento 4 zonas y
6 parcelas. Los datos recopilados del número de árboles afectados y entre paréntesis de la
cantidad de ellos que tienen una infección avanzada se muestran en la siguiente tabla:

Zona Número de parcelas Número de árboles infectados (con infección avanzada)

1 12 15(5), 14(2), 21(8), 18(3), 9(1), 10(0)
2 16 4(0), 7(2), 10(1), 9(1), 8(3), 5(0)
3 14 10(3), 11(2), 14(2), 10(1), 9(0), 15(4)
4 21 6(2), 3(1), 4(1), 1(0), 2(0), 5(1)

a) Calcule la probabilidad de que una parcela particular de la zona 2 sea seleccionada.

b) Estime el número total de árboles infectados en la zona 1 y reporte su error estándar de
estimación estimado.
c) Estime el número total de árboles con infección severa en el condado y reporte su error
estándar de estimación estimado.
d) Estime la proporción de árboles afectados en el condado que tienen una infección severa.
e) Suponga que la distribución del área en metros cuadrados de las parcelas y del número
de árboles que estas contienen es, para la zona 2, la siguiente:

Parcela 1 2 3 4 5 6 7 8
Área 400 580 674 920 180 300 380 555
Num. de árboles 16 21 18 24 24 23 25 51

Parcela 9 10 11 12 13 14 15 16
Área 990 602 508 210 350 678 440 735
Num. de árboles 42 19 11 10 36 21 37 12
4.15. EJERCICIOS 143

Si usted toma una muestra de 8 parcelas con probabilidades proporcionales al área de estas,
¿cuál serı́a su estimación y cuál su error estándar de estimación estimado para el número de
árboles que contendrı́a esta zona? Use para su muestreo un esquema de Sampford.
f) Interprete la salida del siguiente código:

zona = rep(1:4,each=6)
M = rep(c(12,16,14,21),each=6)
N = rep(15,24)
ya = c(15,14,21,18,9,10,4,7,10,9,8,5,10,11,14,10,9,15,6,3,4,1,2,5)
ysa = c(5,2,8,3,1,0,0,2,1,1,3,0,3,2,2,1,0,4,2,1,1,0,0,1)
ps = ysa/ya
Bas = [Link](id=1:24,N,zona,M,ya,ysa,ps)
dis = svydesign(ids=~zona+id,fpc=~N+M,data=Bas)
svymean(~ps,dis)

23. Suponga que en el ejemplo 4.6, no es ya de interés tomar un muestreo ppt, sino considerar
iguales probabilidades de selección con excepción del supermercado D, el cual debe tener el
doble de probabilidad de ser seleccionado que los otros supermercados.
a) ¿Cuáles serı́an las probabilidades de inclusión de primer orden bajo este esquema?
b) Halle el estimador de Horvitz-Thompson para el total de ventas en la cadena si salieron
seleccionados, bajo este esquema, los supermercados A, D y E.
c) Si se seleccionan ahora al azar y sin reemplazamiento uno por uno cada uno de los 3
supermercados, utilizando en cada selección probabilidades proporcionales al tamaño, ¿con
qué probabilidad será seleccionado el supermercado D?
d) Tome su muestra ppt y estime el total de ventas de la cadena, si se decide que en caso
salga seleccionado el supermercado D, se medirá el total de ventas en 2 de sus 5 divisiones
seleccionadas al azar. Suponga que los totales de ventas en estas divisiones están en el orden
de los 40, 45, 68, 29 y 63 mil dólares.
Capı́tulo 5

Una introducción al muestreo

complejo

La gran mayorı́a de encuestas por muestreo sobre poblaciones grandes involucran varias
de las ideas analizadas: una encuesta puede estar segmentada en dominios, estratificada
con varias etapas de formación de conglomerados, las probabilidades de selección pueden
no ser iguales y es factible utilizar un muestreo sistemático en cualquiera de las etapas.
Generalmente, la estratificación forma la clasificación más gruesa, los estratos pudieran ser
áreas del paı́s o tipos de habitat. Se extraen de los estratos muestras de conglomerados (a
veces con varias etapas) y puede haber una post-estratificación o interés a posteriori sobre
algunos dominios. Todo esto hace, como se comprenderá, que las fórmulas para los errores
de estimación en este tipo de diseños sean prácticamente inmanejables. En este capı́tulo,
presentaremos una introducción a la obtención de estimadores y de sus varianzas en estos
tipos de diseños. Comenzaremos analizando los pesos de muestreo, el cálculo de estimadores
mediante estos pesos y la estimación de las varianzas de estos estimadores. Finalmente,
brindaremos una introducción al análisis estadı́stico bajo muestras complejas.
Para tener una idea de la magnitud de los problemas comentados, consideremos el censo
penitenciario 2016 como base de una encuesta futura por muestreo. Dadas las caracterı́sti-
cas y el tamaño de la población, pueden plantearse aquı́ varios diseños, uno de los cuales
expusimos al término del capı́tulo anterior. Aun cuando los diseños clásicos estudiados son
teóricamente factibles, en la práctica estos son inviables dadas las restricciones de costos y la
complejidad de la logı́stica subyacente. Una propuesta más realista para los penales podrı́a
ser, por ejemplo, optar por un diseño estratificado y por conglomerados bietápico. De manera
natural, los estratos pudieran estar definidos, como en el capı́tulo 3, por el género y nivel
de hacinamiento de las cárceles, las unidades primarias de muestreo (UPM) en cada estrato
podrı́an tomarse como los establecimientos penitenciarios (EP) y, finalmente, las unidades
secundarias de muestreo (USM) podrı́an ser los internos al interior de cada EP. Se puede
también pensar en tres etapas, si previamente a la selección de los internos se seleccionan

145
146 CAPÍTULO 5. UNA INTRODUCCIÓN AL MUESTREO COMPLEJO

al azar algunos pabellones. Otro punto que considerar es si se toman o no dominios en el

estudio. Estos podrı́an estar constituidos por las oficinas regionales que tienen a su cargo la
administración de un grupo de EP. Finalmente, no es necesario que en las distintas etapas se
tome un MASs. En varias encuestas similares sobre cárceles de la región se han considerado
muestreos sistemáticos en algunas de las etapas de selección (dada su simplicidad y logı́sti-
ca). Más aún, dada la inequidad de los tamaños de los EP, podrı́a resultar conveniente que
en una o más de las etapas se realicen muestreos ppt.

5.1. Pesos de muestreo

El peso base de muestreo para una unidad de observación se define como el inverso de
su probabilidad de selección. En un muestreo complejo, estos pesos requieren con frecuencia
algunos ajustes adicionales por motivos, tales como la elegibilidad desconocida, la no res-
puesta y el uso de data auxiliar tendiente a reducir la varianza o corregir deficiencias en el
marco muestral. En su forma definitiva, los pesos contienen prácticamente toda la informa-
ción necesaria para construir un estimador puntual. Nosotros agregaremos un supraı́ndice 0
a estos pesos para enfatizar que son los pesos base.
Consideremos, por simplicidad, que nuestro interés sea estimar un total poblacional τ de
una variable estadı́stica y en una población de tamaño N . Entonces, el estimador puntual
de τ tendrá la forma
τ̂ = ωk0 yk δk ,
k

donde la suma va sobre todas las unidades de la población y las múltiples etapas de selección;
δk es una v.a. indicadora de si la unidad k es seleccionada o no en la muestra, y los ωk0 son
los pesos bases asociados a la selección de la unidad correspondiente a la medición yk . Este
estimador puede escribirse alternativamente como

τ̂ = ωi0 Yi ,
i∈S

donde la suma va sobre las unidades seleccionadas en la muestra bajo el diseño (que denotare-
mos por S y que es un subconjunto de la población P) e Yi denota a la v.a. correspondiente al
valor que y toma en la i-ésima selección. Veamos algunos ejemplos y por brevedad apelemos
por ahora a la primera notación.

En el MAS se tiene que

N

τ̂ = ωi0 yi δi ,
i=1
N
donde ωi0= es el inverso de la probabilidad de selección. Puesto que la suma de los
n
pesos de las unidades seleccionadas es N , el estimador natural de la media poblacional
5.1. PESOS DE MUESTREO 147

es µ; es decir, Ȳ puede escribirse como

N 0
ωi yi δi
Ȳ = i=1
N 0
.
i=1 ωi δi

En un MAE se tiene que

Nh
H

0
τ̂ = ωih yih δih ,
h=1 i=1
0 Nh 1
donde ωih = nh
= P (δih =1) . Recordemos que por el hecho de que la suma de los pesos
de las unidades seleccionadas sea N , cada unidad en la muestra “representa” cierta
cantidad de unidades de la población de modo que toda la muestra “representa” la
población. La estimación de la media para el muestreo estratificado es
H Nh 0
h=1 i=1 ωih yih δih
Ȳ = H Nh 0
.
h=1 i=1 ωih δih

En un muestreo por conglomerados bietápico se tiene que

Mi
N

τ̂ = ωij0 yij δij ,
i=1 j=1

N Mi
donde ωij0 = nni
, y la estimación de la media poblacional es
N Mi 0
i=1 j=1 ωij yij δij
Ȳ = N Mi 0 .
i=1 j=1 ωij δij

Es interesante notar que estos estimadores del total son por construcción insesgados y que
tales esquemas pueden utilizarse para obtener el estimador de un total en otros diseños
complejos. Consideremos, por ejemplo, el caso de un muestreo por conglomerados de tres
etapas o trietápico. Aquı́, la probabilidad conjunta de que la unidad terciaria k, de la unidad
secundaria j perteneciente a la unidad primaria i sea seleccionada, puede calcularse por

πijk = P (δijk = 1) = P(Seleccionar la unidad k | se seleccionaron las unidades i y j)

× P(Seleccionar la unidad j | se seleccionó la unidad i) × P(Seleccionar la unidad i).

Luego, el peso de muestreo para esta unidad de observación viene dada por

0 0 0
ωijk = ωk|i,j × ωj|i × ωi0 ,

0 0
siendo, respectivamente, ωk|i,j , ωj|i y ωi0 los inversos de las probabilidades arriba indicadas.
148 CAPÍTULO 5. UNA INTRODUCCIÓN AL MUESTREO COMPLEJO

5.1.1. Ajuste de pesos por no respuesta

Hasta el momento hemos implı́citamente asumido que contamos siempre con un marco
muestral perfecto y que toda unidad seleccionada en la muestra ha de responder a la encuesta
o al instrumento de recolección de información. En la práctica, como es de esperarse, esto
raramente ocurre, lo cual origina errores de no muestreo tanto en la cobertura como en la
no respuesta. Una manera de mitigar estos errores es efectuando algunos ajustes a los pesos
base (otra alternativa serı́a la imputación).
Supongamos que deseamos calcular la media µ de una variable estadı́stica y en una
población de tamaño N a la cual subdividiremos en dos grupos de tamaños Nr y Nm de
medias µr y µm para y. Estas subpoblaciones incluyen, respectivamente, a los que responden
y a los que no en la encuesta sobre la variable y. Puesto que solo µr podrı́a conocerse (bajo un
censo), el sesgo que uno cometerı́a al reportar esta media como la de la población vendrá dado
por
Nr Nm Nm
µr − µ = µr − ( µr + µm ) = (µr − µm ).
N N N
Ası́ incurriremos en un mayor sesgo mientras la proporción de no respuesta sea más grande
(o de respuesta menor) o las medias de y para los que responden y no difieran más. Tomada
la muestra, este sesgo podrı́a teóricamente estimarse por
nm
(Ȳr − Ȳm ),
n

donde nm es el número de unidades sin respuesta en la muestra e Ȳr y Ȳm son, respectiva-
mente, las medias muestrales de y para los que responden y no. La idea de una reponderación
o ajuste es tratar de que Ȳr e Ȳm sean lo más parecidos posibles, tarea ciertamente compli-
cada, pues en la práctica uno no conoce Ȳm ni, a priori, la proporción de unidades que han
de responder a la encuesta.
Antes de entrar propiamente en la ponderación, es bueno entender cómo se podrı́a generar
una no respuesta y como, según ello, se podrı́a especificar un elemento vital en todo este
análisis: la probabilidad φk de que una unidad k seleccionada responda. Para ello seguiremos
la terminologı́a dada por Little y Rubin (2002), quienes suponen un modelo para el vector de
variables de interés. Supongamos que en una encuesta tenemos para cada unidad k un vector
de variables de interés yk disponible solo si k responde y un vector de variables auxiliares xk
siempre disponible al margen de si la unidad k responde o no. Diremos que una no repuesta
será:

MCAR (de Missing Completely at Random). Si la probabilidad de respuesta para

la unidad k, φk , no depende de yk ni de xk . Ello ocurrirı́a, por ejemplo, cuando al
modelar la probabilidad φk de respuesta para los distintos elementos, estas resulten ser
aproximadamente las mismas.
5.1. PESOS DE MUESTREO 149

MAR (Missing at Random). Si la probabilidad de respuesta para la unidad k, φk ,

depende de todas o algunas de las variables auxiliares xk .

NINR (Nonignorable Nonresponse). Si la probabilidad de respuesta para la unidad k,

φk , depende de todas o algunas de las variables de interés yk y esta dependencia no
puede ser removida con un modelamiento sobre las xk .

Supongamos ahora que deseamos estimar, bajo un diseño complejo, un total para una
variable estadı́stica y en una población de tamaño N . Con el fin de incorporar la posibilidad
de no respuesta, definamos una variable aleatoria indicadora Rk que vale 1 si, y solamente
si, la unidad k responde condicionada, a que sea seleccionada. En caso contrario, Rk vale 0.
Tomada la muestra, y considerando solo las unidades con respuesta, un estimador de τ tiene
la forma

τ̂ = ωk yk δk Rk .
k

El valor esperado de este estimador puede calcularse por

E(τ̂ ) = E(E(τ̂ | δ)) = E( ωk yk δk E(Rk | δ))
k

= ωk yk E(δk )φk = ωk yk πk φk .
k k

Ası́, este estimador será insesgado si consideramos pesos iguales a

1 1
ωk = = ωk0 ,
πk φk φk

donde ωk0 es el peso base de muestreo para la unidad k.

La obtención de los pesos últimos implica, entonces, estimar las probabilidades de res-
puesta para cada unidad seleccionada, φk . Si asumimos que las no respuestas son MCAR
o MAR, estas probabilidades podrı́an estimarse identificando alguna o algunas variables
auxiliares bajo cuyos niveles se pueda predecir si la unidad k ha de responder o no. Ello
puede hacerse con cualquier técnica de clasificación, como, por ejemplo, la regresión logı́sti-
ca binaria. Si bien esto nos conducirá a una estimación probablemente distinta para cada
unidad, en la práctica se aconseja ajustar por grupos de unidades. Estos pueden formarse,
por ejemplo, si usamos una regresión binaria, ordenándose las probabilidades estimadas φk
y clasificándolas mediante cuantiles. Luego podrı́amos ajustar los pesos bases de cada grupo
con, por ejemplo, la inversa del promedio de las probabilidades φk dentro de cada grupo. Un
ejemplo de la aplicación de esta técnica, puede verse en el ejercicio 5.4.
150 CAPÍTULO 5. UNA INTRODUCCIÓN AL MUESTREO COMPLEJO

5.1.2. Ajuste de pesos por elegibilidad desconocida

Por más depuración hecha al marco muestral, es posible que este aún contenga unidades
cuya elegibilidad no pueda predeterminarse. Esto es, unidades que no son posibles de con-
tactar en la encuesta y, por tanto, su respuesta será incierta. Al igual que en el ajuste por no
respuesta, el ajuste por elegibilidad desconocida se hace con las mismas clases que en esta y
simplemente consiste en multiplicar el peso base por el cociente entre la suma de los pesos
base de la clase dividida entre la suma de los pesos base de las unidades en la clase cuya
elegibilidad sea conocida (sea que ellas respondan o no a la encuesta).

5.2. Estimadores no lineales

Si bien el uso de los pesos resuelve el problema de encontrar estimadores puntuales de
totales, medias o proporciones en un diseño complejo, ello no nos da información acerca de la
forma de determinar sus errores estándar. Las varianzas de los estimadores dependen de las
probabilidades de que cualquier pareja de unidades sea seleccionada para estar en la muestra
y requieren más conocimiento del diseño que el dado simplemente por los pesos.
Otro problema que surge con esta metodologı́a es que, en apariencia, ella está restringida
a la estimación de totales, medias o proporciones y no cubre a otros parámetros que podrı́an
ser de interés, tales como medianas, desviaciones estándar, cuantiles, correlaciones u otros.
Veremos a continuación que tal idea no es del todo cierta y que sı́ es posible estimar estas
(más no directamente sus errores estándar) sobre la base de los pesos de muestreo. Si N es
el tamaño de la población, la idea es aproximar con los pesos la verdadera proporción y la
verdadera proporción acumulada poblacional de los valores de la variable de interés y. Estas
vienen dadas respectivamente por
número de unidades cuyo valor es y
P (y) =
N
y
número de unidades cuyo valor ≤ y
F (y) = = P (x).
N x≤y

Para ello definiremos, basándonos solo en la muestra, la función de probabilidad empı́rica

ωk 1yk =y δk
P̂ (y) = k
N̂
y su función de distribución empı́rica

F̂ (y) = P̂ (x).
x≤y

donde N̂ = k ωk δk es una estimación de N , basada solo en los pesos de muestreo de la
muestra.
5.2. ESTIMADORES NO LINEALES 151

En otras palabras, P̂ (y) es igual a la suma de los pesos de todas las observaciones en la
muestra que toman el valor y, dividida entre la suma de todos los pesos en la muestra; y,
por otro lado, F̂ (y) es la suma de los pesos para todas las observaciones en la muestra con
valores menores o iguales que y, divididas entre la suma de todos los pesos en la muestra.
Si ahora deseamos estimar ciertos parámetros poblacionales, deberemos, en primer lugar,
expresar estos en términos de su real proporción poblacional; por ejemplo, la media y varianza
se expresan respectivamente por
N

2 1 N 2
µ= yP (y) y σ = (yi − µ)2 = ( y P (y) − µ2 ).
y
N − 1 i=1 N −1 y

Hecho esto, la estimación procederá al sustituir N̂ , P̂ (y) o F̂ (y) en cada aparición de N ,

P (y) ó F (y).

Ejemplo 5.1. Considere, para la ECE 2019 de la DRE Amazonas, un diseño estratifica-
do de conglomerados de una etapa, donde la variable de estratificación será la definida por
el cruce de las variables de gestión y área, y los conglomerados serán los colegios. Nuestro
interés recaerá, en primer lugar, en seleccionar una muestra de 20, 20, 4 y 4 colegios en,
respectivamente, los estratos [Link], [Link], [Link] estatal y [Link]
estatal. y, en segundo lugar, en analizar cómo hace el paquete survey para estimar el rendi-
miento medio en Ciencia y Tecnologı́a, a partir de solo los pesos base de muestreo. Para lo
primero usaremos el comando mstage,el cual exige ordenar la base de datos por la variable
de estratificación. Los códigos son los siguientes:

library(survey)
library(sampling)
load("[Link]")
Pop = ece19Am
Pop$Estrato=interaction(Pop$area,Pop$gestion2)
Pop = Pop[order(Pop$Estrato),]
[Link](12345)
disl = list("stratified","cluster")
m=mstage(Pop,stage=disl,varnames=list("Estrato","ID_IE"),
size=list(size1=table(Pop$Estrato),size=c(20,20,4,4)),method=list("","srswor"))
mues = getdata(Pop,m)[[2]]
mues$w0 = 1/mues$Prob
aa = by(Pop$ID_IE,Pop$Estrato,unique)
aa = [Link](unlist(lapply(aa,length)))
mues$fpc = rep(aa,table(mues$Estrato))
152 CAPÍTULO 5. UNA INTRODUCCIÓN AL MUESTREO COMPLEJO

Note que a la base de datos muestral mues le hemos agregado, los pesos base de muestreo
ω0 y el número de colegios por estrato f pc. Para estimar el rendimiento medio en Ciencia y
Tecnologı́a debemos definir el diseño correspondiente. Ello podrı́a hacerse en R con cualquiera
de los siguientes dos comandos:

(disc0=svydesign(ids=~ID_IE,strata=~Estrato,fpc= ~fpc,data=mues,nest=T))

## Stratified 1 - level Cluster Sampling design

## With (48) clusters.
## svydesign(ids = ~ID_IE, strata = ~Estrato, fpc = ~fpc, data = mues,
## nest = T)

(disc1=svydesign(ids=~ID_IE,strata=~Estrato,data= mues,weights=~w0))

## Stratified 1 - level Cluster Sampling design (with replacement)

## With (48) clusters.
## svydesign(ids = ~ID_IE, strata = ~Estrato, data = mues, weights = ~w0)

La diferencia entre ambos es que el primero respeta estrictamente la forma en que se

obtuvo la muestra; mientras que el segundo considera los mismos pesos de la primera, pero
asume que cada selección de los colegios al interior de los estratos se hace mediante un
MASc; es decir, con reemplazamiento. Dado que los pesos no cambian, ambos nos brindarán
las mismas estimaciones (bajo el estimador de razón), pero no necesariamente los mismos
errores estándar de estimación estimados. Cabe recordar que cada vez que se omite el factor
de corrección para poblaciones finitas fpc en svydesign, uno implı́citamente está asumiendo
un muestreo con reemplazamiento. Al respecto, una pregunta de interés serı́a qué hacer si
deseamos llevar a cabo un esquema sin reemplazamiento en el cual se conozcan los pesos de
muestreo. El paquete survey permite esta posibilidad, pero para ello se deben realizar ciertas
aproximaciones o, en todo caso, debe proveerse al comando svydesign de las probabilidades
de inclusión y de la matriz de probabilidades de inclusión de segundo orden.
Viremos ahora, al otro objetivo de este ejemplo. La estimación del rendimento medio en
Ciencia y Tecnologı́a viene dada por

coef(svymean(~M500_CT,disc1,[Link]=T))

## M500_CT
## 444

Esta estimación es obtenida, precisamente, a través de la función de distribución empı́rica y

el código
5.2. ESTIMADORES NO LINEALES 153

h = by(mues$w0,mues$M500_CT,sum)
Phat = [Link](h/sum(h))
(meanCT = sum([Link](names(h))*Phat))

## [1] 444

Un tratamiento especial se da para el caso de la estimación del cuantil p ∈ [0, 1],

qp = mı́n{y / F (y) ≥ p}.

Si bien podrı́amos sustituir directamente aquı́ F (y) por F̂ (y), resulta más conveniente utilizar
en su lugar una interpolación lineal entre los valores muestrales que tengan una proporción
acumulada cercana a p. Esto nos conlleva al siguiente estimador para el cuantil p:

p − F̂ (y1 )
q̂p = y1 + (y2 − y1 ),
F̂ (y2 ) − F̂ (y1 )

donde y1 es el mayor valor y en la muestra que satisfaga F̂ (y) < p, e y2 es el menor valor y
en la muestra que cumpla F̂ (y) > p.

Ejemplo 5.2. Se desea implementar un programa para adultos mayores de una pequeña
comunidad. El programa se brindará al cuarto superior de las personas de mayor edad, por
lo cual es de interés estimar el cuantil 0.75 de esta población. Si suponemos que las edades
de todos los habitantes de la comunidad, segmentados en distritos, es la que se muestra en
el cuadro 5.1, tome un MASs 10 personas y luego realice un muestreo por conglomerados
bietápico de dos distritos y 10 personas en estos, con un número de USM proporcionales al
tamaño del distrito, a fin de estimar el cuantil requerido bajo ambos diseños. Realice estas
estimaciones con su propia rutina y usando el comando svyquantile del paquete survey.

Distrito A A A A A A A A A A B B B B B B
Edad 20 66 46 61 53 69 50 12 64 46 48 11 38 8 62 51
Distrito B B B B B B B B C C C C C C C C
Edad 38 11 35 65 59 90 19 11 54 56 11 47 54 63 33 17
Distrito C C C C C C C D D D D D D D D D
Edad 72 67 34 47 10 23 52 17 12 20 31 12 48 3 34 37
Distrito D D D D D D D D D D D D D D D D
Edad 1 6 28 11 36 2 10 45 1 10 51 11 18 57 23 17

Cuadro 5.1: Distritos de pertenencia y edades en años de todos los miembros de la comunidad
del ejemplo 5.3

Solución: Luego de crear el data frame Eje3cap5 mediante

154 CAPÍTULO 5. UNA INTRODUCCIÓN AL MUESTREO COMPLEJO

Distrito = c("A", "A","A","A","A","A","A","A","A","A","B","B","B","B","B",

"B","B","B","B","B","B","B","B","B","C","C","C","C","C","C","C","C","C","C",
"C","C","C","C","C","D","D","D","D","D","D","D","D","D","D","D","D","D","D",
"D","D","D","D","D","D","D","D","D","D","D")
Edad = c(20,66,46,61,53,69,50,12,64,46,48,11,38,8,62,51,38,11,35,65,59,90,
19,11,54,56,11,47,54,63,33,17,72,67,34,47,10,23,52,17,12,20,31,12,48,3,34,37,
1,6,28,11,36,2,10,45,1,10, 51,11,18,57,23,17)
Eje3cap5 = [Link](Distrito=Distrito,Edad=Edad)

La estimación del cuantil buscado bajo un MAS se hará mediante

[Link](12345)
N = dim(Eje3cap5)[1]
sampleMASs = Eje3cap5[sample(N,10),]
dise1 = svydesign(id=~1,fpc = rep(N,10),data = sampleMASs)
svyquantile(~Edad,dise1,0.75)

## 0.75
## Edad 45.5

quantile(Eje3cap5$Edad,0.75)

## 75%
## 52.2

Ella nos brinda una estimación bastante pobre del verdadero tercer cuartil que está entre 52
y 53 años. Por otro lado, para la estimación por el diseño bietápico, primero será necesario
definir los pesos de muestreo. Como recordamos, estos serán el producto del peso para la
primera etapa que es 2 por el peso para la segunda etapa que dependerá de los distritos
elegidos. Por las condiciones dadas, los tamaños de muestra posibles para la segunda etapa
los podremos calcular mediante

ms = combn(4,2,function(x){
h = [Link](table(Eje3cap5$Distrito))
round(10*h[c(x[1],x[2])]/sum(h[c(x[1],x[2])]))})
ms

## [,1] [,2] [,3] [,4] [,5] [,6]

## [1,] 4 4 3 5 4 4
## [2,] 6 6 7 5 6 6
5.2. ESTIMADORES NO LINEALES 155

Como se ve, estos son de 4 y 6 residentes casi siempre, salvo que se seleccionen los distritos
A y D o los distritos B y C. Al realizar el muestreo, obtuvimos

[Link](12345)
(s = sample(6,1))

## [1] 5

(m = ms[,s])

## [1] 4 6

los distritos B y D, donde cabe recordar que, en la medida de lo posible, estamos siempre
utilizando la semilla aleatoria 12345 para efectos de reproductibilidad. Esto implica que el
peso 2 de la primera etapa tendrá que multiplicarse por 3.5 para el distrito B y por 4.167
para el distrito D, quedando la muestra final y sus pesos dados por

[Link](12345)
m1 = sample(which(Eje3cap5$Distrito=="B"),4)
m2 = sample(which(Eje3cap5$Distrito=="D"),6)
Muestra2 = cbind(Eje3cap5[c(m1,m2),],Peso = c(rep(7,4),rep(8.33,6)))
(Muestra2 = cbind(Muestra2,fpc1 = rep(4,10),fpc2 = c(rep(14,4),rep(25,6))))

## Distrito Edad Peso fpc1 fpc2

## 21 B 59 7.00 4 14
## 22 B 90 7.00 4 14
## 20 B 65 7.00 4 14
## 23 B 19 7.00 4 14
## 51 D 28 8.33 4 25
## 43 D 31 8.33 4 25
## 47 D 34 8.33 4 25
## 64 D 17 8.33 4 25
## 55 D 10 8.33 4 25
## 59 D 51 8.33 4 25

La estimación pedida, que dejamos para que la trabaje manualmente como ejercicio, se ob-
tendrá finalmente a través de

dise2 = svydesign(ids=~Distrito+Edad,fpc=~fpc1+fpc2,data=Muestra2)
svyquantile(~Edad,dise2,0.75)
156 CAPÍTULO 5. UNA INTRODUCCIÓN AL MUESTREO COMPLEJO

## 0.75
## Edad 52.7

Ella, como se aprecia, nos da una mucho mejor estimación del tercer cuartil pedido.

5.3. Efectos de diseño y consideraciones prácticas para

obtener tamaños de muestra
Obtener tamaños de muestra en un muestreo complejo es una labor complicada, pues
pocas veces es posible obtener una formulación explı́cita para la varianza del estimador. En
tal situación, como lo sugirió Kish (1965), es mejor usar las estimaciones de los efectos de
diseño.
Como recordamos, el efecto de diseño está definido como el cociente entre la varianza
del estimador bajo un muestreo complejo y la varianza de este estimador bajo un muestreo
aleatorio simple, que según nuestra convención es sin reemplazamiento. En el caso de la
media, este efecto viene dado por
Vmc (Ȳ )
def f = 2 ,
(1 − Nn ) σn
donde Vmc denota la varianza del estimador bajo el muestreo complejo. En la práctica, este
efecto se desconoce al depender de caracterı́sticas poblacionales, pero es factible de estimarse
mediante
f = V̂mc (Ȳ ) 2 .
def
(1 − N̂n ) σ̂n
Claramente, obtener esta cantidad requiere de una estimación de la varianza del estimador
bajo el muestreo complejo, punto que detallaremos en la siguiente sección. Será también ne-
cesario obtener la estimación σ̂ 2 de la varianza de la variable en estudio y. El problema con
esta última es que nosotros no hacemos un MASs sino un muestreo complejo, por lo cual esta
estimación solo debe basarse en este último diseño. Por fortuna, contamos, como lo detalla-
mos en la sección anterior, con una manera de estimar esta varianza basándonos solo en los

datos del muestreo complejo. Si bien esta estimación es en teorı́a: σ̂ 2 = N̂N̂−1 ( y y 2 P̂ (y)− µ̂2 ),

donde µ̂ = y y P̂ (y) y P̂ denota la función de probabilidad empı́rica, uno obtendrá esti-
n
madores más fiables, sobre todo si n es pequeño, si reemplazamos el cociente N̂N̂−1 por n−1 .
Esta es precisamente la metodologı́a utilizada por el paquete survey de R para estimar los
efectos de diseño. El siguiente ejemplo ilustra la estimación de este efecto.

Ejemplo 5.3. Retomemos el ejemplo 5.1 y supongamos que nos piden estimar el efecto de
diseño en la estimación del rendimiento medio en Ciencia y Tecnologı́a. Los códigos del caso
vienen dados por
5.3. EFECTOS DE DISEÑO Y TAMAÑOS DE MUESTRA 157

(mCT = svymean(~M500_CT,disc1,[Link]=T,deff=T))

## mean SE DEff
## M500_CT 443.9 15.5 22.1

o por

h = by(mues$w0,mues$M500_CT,sum)
Phat = [Link](h/sum(h))
(meanCT = sum([Link](names(h))*Phat))

## [1] 444

sum2 = sum([Link](names(h))^2*Phat)
n = sum([Link](mues$M500_CT)==0)
N = sum(h)
sigma2_e = (n/(n-1))*(sum2-meanCT^2)
(deff_e = (SE(mCT)^2)/((1 - n/N)*sigma2_e/n))

## M500_CT
## M500_CT 22.1

Supongamos ahora, asumiendo que contamos con una estimación del efecto de diseño, que
deseamos determinar el tamaño de muestra necesario n a utilizar en un muestro complejo,
de tal manera que el error en la estimación de la media sea no mayor que e con un nivel de
confianza de 100(1 − α) %; es decir:

e = z1− α2 V̂mc (Ȳ ).

De la fórmula para estimar el efecto de diseño podrı́amos, entonces, despejar la estimación

de la varianza V̂mc (Ȳ ) y reemplazarla en esta última para obtener

2
f (1 − n ) σ̂ .
e = z1− α2 def
N̂ n
Ası́, despejando
2
z1− f σ̂ 2 N̂
α def
2
n= .
2
N̂ e2 + z1− 2
α def f σ̂
2

Note que si el tamaño de la población N o N̂ es grande, se tendrá que aproximadamente

f n0 ,
n = def
158 CAPÍTULO 5. UNA INTRODUCCIÓN AL MUESTREO COMPLEJO

donde n0 es el tamaño de muestra para un MASs con poblaciones infinitas. En la práctica,

el cálculo de estos tamaños de muestra debe aún corregirse ante la posibilidad de no res-
puestas. Las tasas de no respuestas tnr son fácilmente estimables de experiencias pasadas
y se miden como la proporción de sujetos en estudio que no respondieron al estudio. Esta
tasa obviamente incrementará el tamaño de muestra anterior y conllevará a un tamaño de
muestra final igual a
n
nf = ,
1 − tnrˆ
siendo tnrˆ la tasa de no respuesta estimada. Ası́, si se calculó n = 500 y se estima una tasa
de no respuesta del 7 %, el tamaño de muestra final que deberı́a considerarse es de nf = 538
unidades.
El desarrollo hasta el momento descrito constituye la metodologı́a más común para el
cálculo de los tamaños de muestra en muestras complejas. El lector interesado puede indagar
esto en diversos estudios. Un ejemplo se puede ver en

[Link]
Informe%20Diseno%20Muestral_Revision_13sep12.pdf.

Este es un informe que describe el diseño muestral de la Encuesta de Caracterización Socio-

económica Nacional (Casen) 2011 realizada en Chile.
Otro punto importante, al planificar una muestra sobre una gran población, es si se
van a considerar dominios de estudio o no. Recordemos que los dominios conforman, en
general, una partición de la población para las que se toman muestras independientes a fin
de controlar la precisión de las estimaciones sobre cada dominio y sobre toda la población.
Calculado el tamaño de muestra para la población, digamos n, una pregunta de interés serı́a
saber cómo distribuir estos en los D dominios de estudio si es que estos existieran. Un criterio
podrı́a ser tomándolos de forma proporcional al tamaño Nd de cada dominio; sin embargo,
ello podrı́a resultar oneroso o producir estimaciones poco confiables en algunos de ellos, con
márgenes de error superiores a los diseñados para el dominio. En su lugar, Bankier (1988)
propuso minimizar alguna función criterio sobre el error relativo que se cometerı́a bajo cierta
asignación. Nosotros extenderemos esta idea considerando también la incorporación de costos
unitarios cd por selección en los dominios y el uso de efectos de diseño. Concretamente, si
estamos interesados en estimar la media de una variable y para la población, buscaremos la
asignación de la muestra total a los dominios que minimize la función
D

(Xdα CV (Ȳd ))2 (5.1)
d=1

o que minimize el costo total de muestreo, sujeto a la condición de que los tamaños de muestra

por dominio nd satisfagan la restricción n = D d=1 nd . Aquı́ Xd denota la importancia del
dominio d, que por lo usual es su tamaño, y α ∈ [0, 1] es un valor que queda a criterio
5.4. ESTIMACIÓN DE LA VARIANZA 159

del investigador y que modela la relevancia de la importancia que se le dé a cada dominio.
Mientras α sea más pequeño, los dominios más pequeños, o de menor importancia, tenderán
a tener una mejor representación. Un valor de compromiso es α = 0.5.
El estimador del coeficiente de variación en (5.1) viene dado por

V̂ (Ȳd ) V̂ (Ȳd )
ˆ (Ȳd ) =
CV × 100 = × 100,
µ̂d Ȳd

donde µd es la media poblacional del dominio d y se asume que Ȳd es un estimador insesgado
de µd . El problema con este coeficiente es que si el muestreo es complejo la desviación estándar
de Ȳd es difı́cil de obtener, por lo cual podrı́amos usar los efectos de diseño estimados def ˆf
d
para los dominios a fin de reescribir (5.1) como
√
D Xdα defˆ f d 2 σ̂ 2
mı́n ( ) (1 − Nndd ) ndd ,
d=1
DȲd (5.2)
s.a. d=1 nd = n

siendo σ̂d2 la varianza estimada en el dominio d. Si se sigue literalmente la prueba de la

proposición 3.2, no es difı́cil mostrar que la solución de (5.2) o de la minimización del costo
total de muestreo, fijado un nivel para (5.1) o para el costo total, viene dado por
√
α
Xd ˆ f σ̂
def d
√d
Ȳd cd
nd = √ n.
D Xjα ˆ f σ̂
def j j
j=1 √
Ȳj cj

En el caso particular de que los costos de muestreo y efectos de diseño por dominio sean los
mismos, esta fórmula se simplifica a
Xdα σ̂d
Ȳd
nd = D Xjα σ̂j n.
j=1 Ȳj

Obviamente, para calcular esta cantidad será necesario contar con estimaciones de los distin-
tos parámetros y efectos de diseño por dominio, los cuales pueden provenir de algún estudio
pasado o una muestra piloto.

5.4. Estimación de la varianza

Si bien los pesos de muestreo son de gran utilidad para incorporar el diseño en la ob-
tención de la mayorı́a de estimaciones de interés, ellos no nos dicen mucho acerca de sus
varianzas y errores estándar de estimación. En esta sección abordaremos el problema de es-
timar estas varianzas; para ello se han considerado en la literatura dos enfoques: uno clásico
de linealización y otro a través de métodos de remuestreo.
160 CAPÍTULO 5. UNA INTRODUCCIÓN AL MUESTREO COMPLEJO

5.4.1. El método de linealización

Consideremos una población en la que nos interese estimar un parámetro θ expresable
como una función suave (es decir, con derivadas continuas) de q totales de la población; vale
decir,
θ = h(τ1 , τ2 , . . . , τq ).
Si τ̂1 , τ̂2 , . . . , τ̂q son estimadores insesgados de, respectivamente, τ1 , τ2 , . . . , τq , entonces un
estimador natural de θ viene dado por

θ̂ = h(τ̂1 , τ̂2 , . . . , τ̂q ).

Con el fin de encontrar la varianza de este estimador, podemos usar una expansión lineal
basada en el teorema de Taylor y aproximar θ̂ alrededor de su verdadero valor θ mediante
q
∂h
θ̂ = h(τ̂1 , τ̂2 , . . . , τ̂q ) h(τ1 , τ2 , . . . , τq ) + (τ̂j − τj ) (τ1 , τ2 , . . . , τq ).
j=1
∂τj

Note que este es un estimador aproximadamente insesgado de θ, ya que τ̂j es un estimador

∂h
insesgado de τj , y que de tomarse aj = ∂τ j
(τ1 , τ2 , . . . , τq ), se cumple que
q

θ̂ θ + aj (τ̂j − τj ).
j=1

Tomándose la varianza a la última expresión se tiene que

q q q

V (θ̂) a2j V ar(τ̂j ) + 2 aj ah Cov(τ̂j , τ̂h ). (5.3)
j=1 j=1 h=j+1

Luego, una estimación de esta varianza puede obtenerse estimando los aj y las varianzas y
covarianzas de los estimadores de los totales.

5.4.2. El estimador de razón y regresión

Como ilustración de la técnica de linealización, pensemos en un estimador que ha sido
recurrentemente utilizado a lo largo del texto. Este viene dado por el cociente o la razón de
la estimación de totales o medias de dos variables x e y
τ̂y Ȳ
θ̂ = =
τ̂x X̄
y por ello recibe el nombre de estimador de razón. La fórmula (5.3) nos provee, entonces, de
la siguiente aproximación para la varianza de este estimador:

V (τ̂x ) V (τ̂y ) 2Cov(τ̂x , τ̂y )
V (θ̂) = θ2 + − , (5.4)
τx2 τy2 τx τy
5.4. ESTIMACIÓN DE LA VARIANZA 161

donde el parámetro θ = ττxy = µµxy es el cociente de los totales o medias de las variables x e y
en la población.
En muchos casos es común que el interés al utilizar un estimador de este tipo se centre en
alguna de sus variables; por decir, y, y que la otra variable x actúe como una variable auxiliar
que si estuviera correlacionada con y y su total poblacional τx fuese conocido, nos podrı́a
ser de mucha utilidad para mejorar las estimaciones de la media o del total de y (mediante
τ̂ry = θ̂τx ) e incluso del mismo estimador de razón. El hecho que τx , o la media poblacional
de la potencial variable predictora x, µx , se conozca puede parecer extraño; pero podrı́a
ocurrir (y sucede usualmente) que tal información esté consignada en el marco muestral o
sea de fácil acceso. Puede también ocurrir que se disponga de esta información de un censo
o estudio previo sobre la misma población. Explicitemos seguidamente la varianza de este
estimador en el caso de un MASs de tamaño n de una población de tamaño N . Dado que
µy = θµx , la ecuación (5.4) podrá reescribirse como

V (X̄) V (Ȳ ) 2Cov(X̄, Ȳ )
V (θ̂) = θ2 + −
µ2x θ2 µ2x µx θµx

1 n σ2 n σy2 n σxy 1 n
= 2 θ2 (1 − ) x + (1 − ) − 2θ(1 − ) = 2
(1 − ) σy2 + θ2 σx2 − 2θσxy
µx N n N n N n nµx N
Ası́, un estimador de esta varianza puede obtenerse mediante
1 n
V̂ (θ̂) = 2
(1 − )(Sy2 + θ̂2 Sx2 − 2θ̂Sxy ),
nµx N

o, alternativamente, de definirse ẑi = yi − θ̂xi , mediante

1 n σ̂ 2
V̂ (θ̂) = 2
(1 − ) z , (5.5)
µx N n
1
N
donde σ̂z2 = n−1 ˆ2 ˆ
i=1 (ẑi − z̄ ) δi y z̄ es la media muestral de los ẑi . En ambas expresiones, si
la media poblacional µx no se conociese, ella podrı́a reemplazarse por X̄.
Es interesante observar que podrı́amos haber también deducido la varianza del estimador
de razón, si hubiéramos considerado que el sesgo del estimador puede aproximarse por
Ȳ − θX̄ Ȳ − θX̄
θ̂ − θ = .
X̄ µx
1
Luego, al tomársele la varianza a esta expresión se obtiene la aproximación V (θ̂) = µ2x
V (Z̄) =
1 n σz2
µ2x
(1 − ) ,
N n
donde σz2 denota la varianza de los zi = yi − θxi en la población y Z̄ = Ȳ − θX̄.
En un MAE, el argumento anterior requiere de cierto cuidado. La mayorı́a de softwares
estadı́sticos y textos en la literatura sugieren utilizar un estimador de razón combinado, esto
es, un estimador de la forma H Nh
Ȳ Ȳh
θ̂ = = Hh=1 NN ,
X̄ h=1 N X̄h
h
162 CAPÍTULO 5. UNA INTRODUCCIÓN AL MUESTREO COMPLEJO

el cual difiere de uno separado en que los ratios por estrato se promedian ponderadamente
H Nh Ȳh
a través de θ̂s = H Nh
h=1 N θ̂h = h=1 N X̄h . Una comparación entre estos estimadores puede
revisarse en Cochran (1977). Nosotros, a falta de aclaración, utilizaremos siempre el primero.
La varianza aproximada del estimador de razón combinado se puede obtener por un argu-
mento similar al del MASs; esto es, tomándose la varianza a la siguiente aproximación del
sesgo del estimador
H N h H Nh
Ȳ − θX̄ h=1 N (Ȳh − θ X̄h ) (Ȳh − θX̄h )
θ̂ − θ = = h=1 N .
X̄ X̄ µx
Ası́, uno obtiene que aproximadamente
H
1 Nh 2 2
nh σhz
V (θ̂) = ( ) (1 − ) , (5.6)
µ2x h=1 N Nh n h
h
2
siendo σhz = Nh1−1 N 2
i=1 (zhi − µhz ) la varianza de todos los zhi = yhi − θxhi en el estrato h.
Un estimador de esta última varianza viene dado por
H
1 Nh 2 2
nh σ̂hz
V̂ (θ̂) = ( ) (1 − ) , (5.7)
µ2x h=1 N Nh n h
h
2
siendo σ̂hz = Nh1−1 N 2
i=1 (zhi − µhz ) δhi la varianza muestral de todos los zhi = yhi − θ̂xhi , con
i = 1, 2 . . . , nh , en el estrato h. Similarmente, de no conocerse µx , este podrı́a reemplazarse
por X̄.

5.4.3. Métodos de remuestreo

Otro enfoque para la estimación de varianzas se basa en el uso de técnicas de remuestreo.
La idea aquı́ es obtener varias estimaciones del parámetro de interés θ mediante replicación
de partes comparables de la muestra original y usar la variabilidad de tales estimaciones
para estimar la varianza del estimador θ.
Para tener una idea de cómo funciona ello consideremos m estimadores insesgados y no
correlacionados θ̂1 , θ̂2 , . . . , θ̂m de θ. La media aritmética de estos estimadores
m
1
θ̄ = θ̂r
m r=1

es claramente otro estimador insesgado de θ, y su varianza viene dada por

m
1
V (θ̄) = V (θ̂r ).
m2 r=1

La siguiente proposición nos brinda un estimador insesgado de esta varianza.

5.4. ESTIMACIÓN DE LA VARIANZA 163

Proposición 5.1. Un estimador insesgado de V (θ̄) viene dado por

m
1
V̂ (θ̄) = (θ̂r − θ̄)2 .
m(m − 1) r=1

Demostración: Tomándose el valor esperado al estimador propuesto, se tiene que

m
1
E(V̂ (θ̄)) = E((θ̂r − θ̄)2 ).
m(m − 1) r=1

Restando y sumando θ al interior del valor esperado a derecha resulta que

E((θ̂r − θ̄)2 ) = E((θ̂r − θ)2 ) + E((θ̄ − θ)2 ) − 2E((θ̂r − θ)(θ̄ − θ))

m m
1 1 2
= V (θ̂r ) + V (θ̄) − 2Cov(θ̂r , θ̂r ) = V (θ̂r ) + 2 V (θ̂r ) − V (θ̂r ).
m r=1 m r=1 m
Ası́,
m m m
1 2 1 1
E(V̂ (θ̄)) = ((1 − ) V (θ̂r ) + V (θ̂r )) = 2 V (θ̂r ) = V (θ̄).
m(m − 1) m r=1 m r=1 m r=1

Exploraremos seguidamente tres de las técnicas de remuestreo más utilizadas: el muestreo

por mitades balanceadas o BRR (de balanced repeated replication), el método Jacknife y el
método Bootstrap.

5.4.4. El muestreo por mitades balanceado

Esta técnica es aplicable, en principio, a diseños estratificados en donde se seleccionan
al azar y con reemplazamiento nh = 2 unidades primarias (usualmente conglomerados) de
las Nh en cada estrato h. Ella fue propuesta por McCarthy (1969), quién se inspiró en los
diseños multifactoriales propuestos por Plackett y Burman (1946). Si H denota el número
de estratos y el interés radica en estimar la media poblacional µ, sabemos por lo estudiado
en el capı́tulo 3 que el estimador insesgado de este viene dado por
H
Nh
Ȳst = Ȳh ,
h=1
N
H 1
donde N = h=1 Nh , Ȳh = 2 (Yh1 + Yh2 ) e Yh1 , Yh2 denotan el valor que tendrá y en las
unidades seleccionadas del estrato h, las que, sin pérdida de generalidad, asumiremos que
son secuencialmente tomadas. Recordemos también que el estimador natural de la varianza
de este estimador viene dado por
H H
Nh 2 Sh2 1 Nh 2 2
V̂ (Ȳst ) = ( ) = ( ) Dh ,
h=1
N 2 4 h=1 N
164 CAPÍTULO 5. UNA INTRODUCCIÓN AL MUESTREO COMPLEJO

donde Dh = Yh1 − Yh2 .

Note que Ȳst puede también escribirse como Ȳst = 12 (Ȳst,r + Ȳst,rc ), donde Ȳst,r =
H Nh H Nh
h=1 N Yh1 e Ȳst,rc = h=1 N Yh2 son también estimadores insesgados e independientes
de µ. En tal sentido, podrı́amos invocar la proposición 5.1 y obtener el siguiente estimador
insesgado de V (Ȳst ):
1 1
V̂r (Ȳst ) = ((Ȳst,r − Ȳst )2 + (Ȳst,rc − Ȳst )2 ) = (Ȳst,r − Ȳst )2 = (Ȳst,r − Ȳst,rc )2 . (5.8)
2 4

Como se ve, este estimador es más simple que V̂ (Ȳst ), pero menos eficiente. A fin de mejorar
su eficiencia optaremos por considerar la metodologı́a de replicación por mitades. La idea
es generar réplicas al dividir la muestra tomada en dos mitades, las cuales estamos deno-
tando por r y rc. Estas réplicas se construyen asignando una de las dos unidades primarias
seleccionadas de cada estrato a la primera mitad y dejando la unidad primaria restante pa-
ra la otra mitad. Observe que existen un total de 2H asignaciones posibles o réplicas por
mitades como esta. De modo resumido, el muestreo por mitades balanceados o BBR nos
brindará un estimador de V (Ȳst ) resultante de promediar los estimadores (5.8) para todas
las distintas réplicas (o como más delante veremos, para un subconjunto apropiado de ellas).
Este estimador viene dado por
2 H 2 H
1 1
V̂BRR (Ȳst ) = H V̂r (Ȳst ) = H (Ȳst,r − Ȳst )2 . (5.9)
2 r=1 2 r=1

Ejemplo 5.4. Para una mejor comprensión consideremos el siguiente ejemplo de un MAE
con 4 estratos, en el que se han observado los siguientes resultados:

Estrato (h) Tamaño del estrato (Nh ) yh1 yh2 ȳh dh = yh1 − yh2
1 300 235 179 185 56
2 100 525 483 504 42
3 50 950 1350 1150 - 400
4 200 759 990 875 -231

Trabajando con una precisión de tres decimales, la media estimada de la población resulta
ser ȳst =530.615; mientras que la estimación de la varianza V (Ȳst ) por MAE resulta ser
1677.112. Este será nuestro valor de referencia. Lo primero a notar es que la estimación
(5.8) nos da un valor de 1208.899 que es distinto a 1677.112. El número de réplicas por
mitades para este problema es 24 = 16, siendo una réplica distinta a la anterior, por ejemplo,
{y11 , y21 , y32 , y42 } = {235, 525, 1350, 990} para la primera mitad, que aquı́ la denotaremos por
A. A la otra mitad la denotaremos por B. Con esta réplica, la estimación (5.8) resulta ser
4499.314. Como se aprecia, hay bastante diferencia en esta estimación con la de la réplica
anterior y son, precisamente, estas distintas estimaciones las que nos permitirán obtener
una mejor estimación de V (Ȳst ) al promediarlas como en (5.9). La figura 5.1 muestra las 16
5.4. ESTIMACIÓN DE LA VARIANZA 165

!"#$ % &% '%( '%) '*$+% ,% &%-&

( ( .// ).0 (12 )/1 03 /453)
) ) (// 0)0 56. 0/5 5) /4(05 789":$,;+<=#>8"=;<,?<#$<:?,"$<@< 0./43(0
. . 0/ 20/ (A.0/ (A(0/ B5// /4/11
5 0 )// 102 22/ 610 B).( /4./6
0 789":$,;+ 30/ 5204653 0304.60
3 ,?<#$<C$+"$DE$<FG7 (3114(()
1 ,?<#$<C$+"$DE$<=;D<HD$<+IJ#"=$ ()/64622
6
2 KIJ#"=$8
(/ 789+$9;8 ( ) . 5 0 3 1 6 2 (/ (( () (. (5 (0 (3
(( ( ( ( ( ( B( ( ( B( ( B( B( ( B( B( B( B(
() ) ( ( ( B( ( ( B( B( B( ( ( B( ( B( B( B(
(. . ( ( B( ( ( B( B( ( ( ( B( B( B( ( B( B(
(5 5 ( B( ( ( ( B( ( ( B( B( ( B( B( B( ( B(
(0 789+$9;8
(3 ( ).0 ).0 ).0 ).0 (12 ).0 ).0 (12 ).0 (12 (12 ).0 (12 (12 (12 (12
(1 ) 0)0 0)0 0)0 56. 0)0 0)0 56. 56. 56. 0)0 0)0 56. 0)0 56. 56. 56.
(6 . 20/ 20/ (.0/ 20/ 20/ (.0/ (.0/ 20/ 20/ 20/ (.0/ (.0/ (.0/ 20/ (.0/ (.0/
(2 5 102 22/ 102 102 102 22/ 102 102 22/ 22/ 102 22/ 22/ 22/ 102 22/
)/
)( F?,"$<+IJ#"=$<:"9$,
)) G 5204653 03342). 0)343(0 5624.60 51/4/// 021432) 0)/4(05 53.40.6 03/453) 05(4/11 0//4132 02(4).( 01(4653 0.543(0 5254./6 0304.60
). L 0304.60 5254./6 0.543(0 01(4653 02(4).( 53.40.6 05(4/11 021432) 0//4132 0)/4(05 03/453) 51/4/// 5624.60 0)343(0 03342). 5204653
)5 C+ ()/64622 (.(64)52 (34/// (3224213 .3154))0 55224.(5 (/24555 55224.(5 62/412. (/24555 62/412. .3154))0 (3224213 (34/// (.(64)52 ()/64622
)0 0./43(0
)3 C$+LKK<@< (3114(()

Figura 5.1: Muestreo por mitades balanceado para cuatro estratos

166 CAPÍTULO 5. UNA INTRODUCCIÓN AL MUESTREO COMPLEJO

réplicas por mitades existentes para este problema, donde en la fila 24 se tiene la estimación
(5.8) para cada réplica. En la fila 25 se aprecia que el promedio de las medias para las réplicas
de la mitad A coincide con la estimación por MAE de la media y, lo más sorprendente, el
promedio (5.9) de las varianzas para las 16 réplicas es exactamente igual al valor de referencia
en la estimación por el MAE.

Con el fin de generalizar los resultados del ejemplo anterior, introduzcamos para cada
réplica r la variable auxiliar δhr , que toma el valor 1 si la unidad Yh1 del estrato h está en la
primera mitad de esta réplica. En caso contrario, δhr valdrá 0. Ası́, el estimador de la media
poblacional para la r-ésima réplica en su primera mitad viene dado por
H
Nh
Ȳst,r = (Yh1 δhr + Yh2 (1 − δhr )).
h=1
N

Definamos ahora la variable aleatoria

(r) 1 si Yh1 está en la mitad A de la réplica r
δh = 2δhr − 1 =
−1 si Yh2 está en la mitad A de la réplica r

2H (r)
Note que estas variables satisfacen por construcción que r=1 δh =0y

2H
(r) (r)
δh δ = 0 (5.10)
r=1

para cualesquiera de los estratos h = en la población. Más aún, se cumple que

H
Nh (r) Dh
Ȳst,r − Ȳst = δh .
h=1
N 2

Estamos ya entonces en condiciones de establecer la siguiente proposición que formaliza lo

visto en nuestro ejemplo.

Proposición 5.2. En un MAE con reemplazamiento de dos unidades seleccionadas por

estrato se cumple que

a)
2 H
1
Ȳst,r = Ȳst
2H r=1

b)
V̂BRR (Ȳst ) = V̂ (Ȳst )
5.4. ESTIMACIÓN DE LA VARIANZA 167

Demostración: Puesto que

2 H

δhr = 2H−1 ,
r=1

se tiene que

2 H H 2 H 2 H H
1 1 Nh
H
Yh1 + Yh2
H
Ȳ st,r = H
(Y h1 ( δ hr ) + Yh2 (2 − δ hr )) = ( ) = Ȳst .
2 r=1 2 h=1 N r=1 r=1 h=1
2

Más aún,
H H H
Nh D2 Nh N (r) (r) Dh D
(Ȳst,r − Ȳst )2 = ( )2 h + δ δ
h=1
N 4 h=1 =1
N N h 2
=h

y, por tanto, podemos escribir (5.9) como

2 H 2 H
1 1
V̂BRR (Ȳst ) = V̂ r ( Ȳst ) = (Ȳst,r − Ȳst )2
2H r=1 2H r=1

H H H 2 H
Nh D2 1 Nh N Dh D (r) (r)
= ( )2 h + H ( δh δ )
h=1
N 4 2 h=1 =1 N N 2 r=1
=h

Consecuentemente, una aplicación directa de (5.10) nos conduce a que

H
1 Nh 2 2
V̂BRR (Ȳst ) = ( ) Dh = V̂ (Ȳst ).
4 h=1 N

Claramente, una desventaja del estimador BRR es que cuando H es grande, este resulta
inmanejable. Afortunadamente, es posible mostrar que para algunos valores de H, en concreto
para valores enteros múltiplos de 4, una selección adecuada de tan solo k = H de estas
réplicas nos permitirá obtener exactamente el mismo estimador V̂ (Ȳst ) que si consideramos
todas las 2H réplicas. Como la ecuación (5.10) y la demostración de la proposición anterior
lo sugieren, para este subconjunto de k réplicas se deberá cumplir que
k
(r) (r)
δh δ = 0,
r=1

cualesquiera sean los estratos h = en la población. En tal caso se dice que las réplicas están
en balance ortogonal, ya que la matriz cuadrada de orden H × H, [δhr ], llamada también
matrix de Hadamard, es ortogonal. Estas matrices se encuentran tabuladas en distintos
textos y se conjetura que existen para todo orden múltiplo de 4; siendo la de orden 200 la
mayor hasta el momento construida.
168 CAPÍTULO 5. UNA INTRODUCCIÓN AL MUESTREO COMPLEJO

Ejemplo 5.5. Mostraremos para el ejemplo 5.4. un balance ortogonal con H = 4 estratos.
Este y su estimación se muestran a continuación:

Réplicas Réplicas
Estratos 1 2 3 4 1 2 3 4
1 1 1 1 1 235 235 235 235
2 1 -1 1 -1 525 483 525 483
3 1 1 -1 -1 950 950 1350 1350
4 1 -1 -1 1 759 990 990 759
Media primera mitad 495.846 560.462 597.692 520.154
d2h 1208.899 890.793 4499.314 109.444
Varianza estimada BRR = 1677.112

Como se aprecia, la varianza estimada de la media bajo estas 4 réplicas coincide con
la estimación de referencia del MAE. La implementación en R del método BRR para este
ejemplo viene dada por

mR = [Link](y = c(235,525,950,759,179,483,1350,990),
Estrato = rep(1:4,2),Nh = rep(c(300,100,50,200),2))
mR$w = mR$Nh/2
(dism = svydesign(ids=~1, strata=~Estrato,weights =~w,data=mR))

## Stratified Independent Sampling design (with replacement)

## svydesign(ids = ~1, strata = ~Estrato, weights = ~w, data = mR)

# Convirtiendo el dise~
no para remuestreo
(dBRR = [Link](design=dism,type="BRR"))

## Call: [Link](design = dism, type = "BRR")

## Balanced Repeated Replicates with 8 replicates.

(mm = svymean(~y,design=dBRR))

## mean SE
## y 531 41

# Varianza estimada
SE(mm)^2

## [1] 1677

5.4. ESTIMACIÓN DE LA VARIANZA 169

Observaciones:

En la práctica, el número de estratos H no necesariamente es múltiplo de 4, por lo

cual la existencia de una matriz de Hadamard no está garantizada. Afortunadamente,
se pueden implementar sobre la base de los diseños de Plackett y Burman (1946) y,
tal como se hace en R, algoritmos que generan un número k de réplicas igual al menor
múltiplo de 4 que sea mayor que H, generándose con ellas una matriz de pesos de réplica
de orden H × k, cuyas columnas no necesariamente son ortogonales, pero satisfacen
aun la propiedad de brindar la correcta estimación de la varianza.

El tamaño de muestra de unidades primarias por estrato no necesita ser exactamente

nh = 2. Si este fuera el caso, se podrı́a forzar la situación anterior segmentando, por
ejemplo, el estrato h en estratos artificiales de, aproximadamente, igual tamaño y
tomándose luego al azar y con reemplazamiento 2 de estos pseudoestratos.

Si bien el método BRR nos brinda una estimación exacta en la estimación de la va-
rianza de estimadores como la media o el total, bajo reemplazamiento, esto solo se
cumplirá aproximadamente para otros estimadores no lineales θ̂. El cómputo del esti-
mador para cada réplica r se hace en la práctica con los pesos de réplica, los cuales
ajustan a los pesos de muestreo ω. El ajuste para toda unidad i seleccionada en el
estrato h se hace mediante

2ωhi si la unidad i está en la primera mitad de la réplica r
ωhi (r) =
0 en caso contrario,

desde que existe igual probabilidad de que la unidad i sea asignada o no a la primera
mitad. Estos pesos se usan luego para construir la correspondiente función de proba-
bilidad empı́rica y el estimador θ̂(r) que tiene la misma forma que θ̂, pero con pesos
distintos. El estimador de varianza BRR para la varianza de θ̂ viene, similarmente a
(5.9), dado por
k
1
V̂BRR (θ̂) = (θ̂(r) − θ̂)2 . (5.11)
k r=1

Cabe comentar que el código del ejemplo 5.5 ha usado el comando [Link] a fin
de convertir el diseño original en uno de remuestreo. Alternativamente, uno podrı́a definir
de forma directa el diseño de remuestreo con el comando svrepdesign. Ello es útil cuando
la base de datos incluye como información los pesos de réplica y los pesos de muestreo. Los
pesos de muestreo se usan para el cálculo del estimador puntual y los de réplica para el de
su varianza. Los pesos de réplicas en el ejemplo 5.5 pueden obtenerse mediante
170 CAPÍTULO 5. UNA INTRODUCCIÓN AL MUESTREO COMPLEJO

(Wr = weights(dBRR))

## [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8]

## [1,] 2 0 2 0 2 0 2 0
## [2,] 2 2 0 0 2 2 0 0
## [3,] 2 0 0 2 2 0 0 2
## [4,] 2 2 2 2 0 0 0 0
## [5,] 0 2 0 2 0 2 0 2
## [6,] 0 0 2 2 0 0 2 2
## [7,] 0 2 2 0 0 2 2 0
## [8,] 0 0 0 0 2 2 2 2

Note aquı́ que solo se muestran los pesos de réplica sin el ajuste a los pesos. Esta matriz es
siempre de orden 2H × k, pues contiene en las columnas las réplicas ortogonales o generadas
por R (véase la primera observación); y, en las filas, las unidades consideradas para ambas
mitades. Si deseamos utilizar el comando svrepdesign para obtener los mismos resultados
que en el ejemplo 5.5, podrı́amos escribir indistintamente cualquiera de las siguientes lı́neas:

(dBRRa<-svrepdesign(data=mR,type="BRR",repweights=Wr,weights=~w,
[Link]=FALSE))

## Call: [Link](data = mR, type = "BRR", repweights = Wr,

## weights = ~w, [Link] = FALSE)
## Balanced Repeated Replicates with 8 replicates.

(dBRRb<-svrepdesign(data=mR, type="BRR", repweights=Wr*mR$w,weights=~w))

## Call: [Link](data = mR, type = "BRR", repweights = Wr *

## mR$w, weights = ~w)
## Balanced Repeated Replicates with 8 replicates.

donde en el segundo caso los pesos se dan en su forma ajustada o combinada ωhi (r). En
efecto, se cumple que

svymean(~y,dBRRa)

## mean SE
## y 531 41

svymean(~y,dBRRb)
5.4. ESTIMACIÓN DE LA VARIANZA 171

## mean SE
## y 531 41

brindan las mismas estimaciones que las obtenidas en el ejemplo 5.5. Estos resultados podrı́an
también obtenerse sin usar el paquete survey. Si empleamos las mismas réplicas aquı́ utili-
zadas, el código correspondiente serı́a

mRB = cbind(mR,Wr) # Base de datos con pesos de replica

mer = 0
for(i in 1:8){
r = by(mRB$w*mRB[,4+i],mRB$y,sum)
Phat = [Link](r/sum(r))
mer[i] = sum([Link](names(r))*Phat)}
c(mean(mer),sqrt(mean((mer-mean(mer))^2)))

## [1] 531 41

Una limitación de la metodologı́a BRR es que una de las muestras por mitades es siempre
eliminada al formar una réplica. Ello podrı́a ocasionar inestabilidad en la estimación de la
varianza del estimador en el caso de que se consideren, por ejemplo, dominios de estudio,
pues podrı́a ocurrir que todo el dominio ocurra precisamente en las mitad eliminada de
una réplica particular. Para evitar situaciones como esta, Fay (1984) y Dippo et al. (1984)
propusieron modificar el método incluyendo todas las observaciones en cada réplica mediante
la asignación de pesos de réplica ωhi (r) = (2−ρ)ωhi , si la unidad i del estrato h es seleccionada
en la primera mitad de la réplica r, y pesos ωhi (r) = ρωhi , en caso contrario. Aquı́ ρ ∈ [0, 1[
es un parámetro por fijar, siendo ρ = 0.3 una elección común.
Diversas extensiones de la metodologı́a BRR puede consultarse en Wolter (2007). Allı́ se
estudia, por ejemplo, cómo modificar el remuestreo si la selección se hace sin reemplaza-
miento, cómo seleccionar más de dos unidades primarias por estrato y cómo adaptar estos
procedimientos a diversos esquemas de muestreo complejo.

5.4.5. El método Jackknife

Esta técnica, introducida inicialmente por Quenouille (1949) para la reducción de sesgo
en series temporales y desarrollada posteriormente por Tukey (1958), consiste en particionar
la muestra de tamaño n en J grupos y estimar igual cantidad de veces el parámetro de interés
θ después de haberse eliminado o cortado en cada ocasión a uno de los grupos. La variabi-
lidad entre estas estimaciones pueden entonces usarse luego para estimar la variabilidad del
estimador original propuesto para θ.
172 CAPÍTULO 5. UNA INTRODUCCIÓN AL MUESTREO COMPLEJO

Como ejemplo, consideremos un diseño multietápico estratificado con H estratos y en

los que se seleccionen con reemplazamiento nh UPM de cada estrato h. Si θ es el parámetro
de interés y θ̂ su estimador basado en la totalidad de la muestra, denotemos por θ̂(hj) al
estimador de θ basado en la muestra luego de omitir a (toda) la UPM j del estrato h. El
estimador Jackknife de la varianza de θ̂ viene dado por

H
nh
nh − 1
V̂JKn (θ̂) = (θ̂(hj) − θ̂)2 . (5.12)
h=1
nh j=1

En la práctica, este estimador se calcula con los pesos de réplica. Si se remueve la UPM j
para formar la réplica (hj) en el estrato h y ωi0 es el peso (base) de una unidad no primaria
i, entonces los pesos de réplicas ajustan estos mediante


 0 si i está en la UPM j del estrato h
nh
ωi(hj) = ω0
nh −1 i
si i está en el estrato h pero no en la UPM j

 ωi0 si i no está en el estrato h

Estos pesos ajustados se emplean luego para construir la correspondiente función de proba-
bilidad empı́rica y el cálculo de θ̂(hj) . Finalmente, estos pesos se reemplazan en (5.12) para
calcular la estimación de la varianza.
Cabe comentar un caso particular del estimador Jacknife al que se suele denotar en R por
JKn; este es el no estratificado JK1 que se obtiene cuando H = 1. Para este, el estimador
toma la forma
n
n−1
V̂JK1 (θ̂) = (θ̂(j) − θ̂)2 .
n j=1

En el caso de la estimación de la media θ = µ mediante un MASc, se tiene que para θ̂ = Ȳ

1
n 1
se cumple que θ̂(j) = n−1 i=j Yi = Ȳ − n−1 (Yj − Ȳ ). Ası́,

n
n−1 1 S2
V̂JK1 (Ȳ ) = (Ȳ − (Yj − Ȳ ) − Ȳ )2 = ,
n i=1 n−1 n

el cual es, por las proposiciones 2.1 y 2.2, el estimador natural insesgado de la varianza de
Ȳ en un MASc, y de allı́ la inclusión del término n−1
n
en el estimador.

Ejemplo 5.6. Para ilustrar esta técnica y compararla con la anterior retomemos el MAE
del ejemplo 5.4 para el cual creamos en el ejemplo 5.5 el diseño dism. Este diseño clásico
se podrá convertir en uno de remuestreo Jackknife y nos calculará el estimador (5.12) para
la media mediante
5.4. ESTIMACIÓN DE LA VARIANZA 173

(dJKn = [Link](design=dism,type="JKn"))

## Call: [Link](design = dism, type = "JKn")

## Stratified cluster jackknife (JKn) with 8 replicates.

(mm = svymean(~y,design=dJKn))

## mean SE
## y 531 41

# Estimacion (5.12)
SE(mm)^2

## [1] 1677

Al igual que con el método BRR, dos maneras alternativas de obtener esta estimación
serán con el comando svrepdesign o programándola directamente en R a través del desa-
rrollo anterior. Los códigos son:

# Pesos no ajustados de replicas con Jackknife

(Wr = weights(dJKn))

## [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8]

## [1,] 0 2 1 1 1 1 1 1
## [2,] 1 1 0 2 1 1 1 1
## [3,] 1 1 1 1 0 2 1 1
## [4,] 1 1 1 1 1 1 0 2
## [5,] 2 0 1 1 1 1 1 1
## [6,] 1 1 2 0 1 1 1 1
## [7,] 1 1 1 1 2 0 1 1
## [8,] 1 1 1 1 1 1 2 0

(dJKna<-svrepdesign(data=mR,type="JKn",repweights=Wr,weights=~w,scale=1,
rscales=0.5,[Link]=FALSE))

## Call: [Link](data = mR, type = "JKn", repweights = Wr,

## weights = ~w, scale = 1, rscales = 0.5, [Link] = FALSE)
## Stratified cluster jackknife (JKn) with 8 replicates.

(dJKnb<-svrepdesign(data=mR, type="JKn",repweights=Wr*mR$w,weights=~w,
scale=1,rscales=0.5))
174 CAPÍTULO 5. UNA INTRODUCCIÓN AL MUESTREO COMPLEJO

## Call: [Link](data = mR, type = "JKn", repweights = Wr *

## mR$w, weights = ~w, scale = 1, rscales = 0.5)
## Stratified cluster jackknife (JKn) with 8 replicates.

svymean(~y,dJKna)

## mean SE
## y 531 41

svymean(~y,dJKnb)

## mean SE
## y 531 41

mRJ = cbind(mR,Wr) # Base con los pesos de replica

mer = 0
for(i in 1:8){
r = by(mRJ$w*mRJ[,4+i],mRJ$y,sum)
Phat = [Link](r/sum(r))
mer[i] = sum([Link](names(r))*Phat)}
c(mean(mer),sqrt(sum((mer-mean(mer))^2)/2))

## [1] 531 41

5.4.6. El método Bootstrap

Esta es una técnica de remuestreo cuya lógica subyace en pensar la muestra como una
población de la cual se extraen un gran número de submuestras bajo reemplazamiento, a
las que llamamos réplicas. Estas réplicas finalmente se usan para estimar la varianza del
estimador.
Existen distintas variantes de este método para poblaciones finitas; pero solo algunas
como la de Rao y Wu (1988), que aquı́ discutiremos, están implementadas en un software
estadı́stico. Esta variante se aplica en la estimación de un parámetro θ mediante un estimador
θ̂, no necesariamente lineal, bajo una muestra por conglomerados estratificada. Se recomienda
usar entre R = 500 y R = 1000 réplicas y el método sigue los siguientes pasos:

1. Para cada estrato, seleccionar las R réplicas mediante un MASc de nh − 1 UPM a

partir de la muestra inicial de tamaño nh de cada estrato h. Sea mhj (r) el número
de veces que la j-ésima UPM del estrato h es seleccionado en la réplica r.
5.4. ESTIMACIÓN DE LA VARIANZA 175

2. Para cada réplica r = 1, 2, . . . , R y para cada unidad i tomada de la UPM j del

estrato h, reajustar los pesos como
0 nh
ωhji (r) = ωhji × mhj (r),
nh − 1
0
donde ωhji es el peso base para la unidad i perteneciente a la UPM j del estrato h.

3. Calcular el estimador θ̂r∗ para la r-ésima réplica usando los pesos ωhji (r).

4. El estimador de varianza bootstrap viene dado por

R
1 ∗
V̂B (θ̂) = (θ̂ − θ̂)2 .
R − 1 r=1 r

Una de las ventajas de este método recae en su propiedad de generar aproximadamente la

distribución de θ̂, lo cual nos permitirá determinar intervalos de confianza en forma directa.
Para obtener un intervalo de confianza al 95 % podrı́amos, por ejemplo, considerar tan solo
los percentiles 2.5 y 97.5 a partir de θ̂1∗ , θ̂2∗ , . . . , θ̂R
∗
. Otras técnicas alternativas para obtener
estos intervalos pueden encontrarse en Efron y Tibshirani (1993).

Ejemplo 5.7. Con el propósito de ilustrar y comparar los diferentes métodos de estimación
de la varianza mostrados, consideraremos el problema de la estimación de la varianza del
rendimiento medio en Matemáticas para la DRE Amazonas en la ECE 2019 bajo un muestreo
aleatorio por conglomerados estratificado. Para tal efecto, usaremos los mismos estratos que
en el ejemplo 5.1 y seleccionaremos dos conglomerados (colegios) por estrato. Seguidamente
se muestran los códigos

Pop = ece19Am
Pop$Estrato=interaction(Pop$area,Pop$gestion2)
Pop = Pop[order(Pop$Estrato),]
[Link](12345)
m=mstage(Pop,stage=list("stratified","cluster"),varnames=list("Estrato","ID_IE")
,size=list(size1=table(Pop$Estrato),size2 =c(2,2,2,2)),method=list("","srswor"))
mues = getdata(Pop,m)[[2]]
mues$w0 = 1/mues$Prob

Comparemos ahora las estimaciones del rendimiento medio en Matemáticas en Amazonas

y de sus errores estándar de estimación bajo los cuatro métodos desarrollados.

dis19 = svydesign(id=~ID_IE, strata=~Estrato, nest=T,data=mues, probs=~Prob)

#Estimación por el método de linealización
176 CAPÍTULO 5. UNA INTRODUCCIÓN AL MUESTREO COMPLEJO

r1 = svymean(~M500_CT,design=dis19,[Link]=T)
# Estimación BRR
brr19 = [Link](design=dis19,type="BRR")
r2 = svymean(~M500_CT,design=brr19,[Link]=T)
#Estimación Jacknife
jkn19 = [Link](design=dis19,type="JKn")
r3 = svymean(~M500_CT,design=jkn19,[Link]=T)
#Estimación Bootstrap
boot19 = [Link](design=dis19,type="subbootstrap",replicates=1000)
r4 = svymean(~M500_CT,design=boot19,[Link]=T)
list(r1,r2,r3,r4)

## [[1]]
## mean SE
## M500_CT 520 18.2
##
## [[2]]
## mean SE
## M500_CT 520 18.2
##
## [[3]]
## mean SE
## M500_CT 520 18.3
##
## [[4]]
## mean SE
## M500_CT 520 18.6

5.5. Una introducción al análisis estadı́stico con mues-

tras complejas
Hasta el momento hemos estudiado algunos estimadores puntuales de una variable. En
una encuesta, sin embargo, uno no solo está interesado en cuestiones univariadas, sino en
estudiar las distintas relaciones que se pudieran dar entre las variables incluidas en la en-
cuesta. En esta sección exploraremos tres de las áreas de mayor relevancia en el estudio de
estas relaciones: el análisis de datos categóricos, el análisis de regresión y la comparación de
5.5. INTRODUCCIÓN AL ANÁLISIS CON MUESTRAS COMPLEJAS 177

una o más poblaciones

5.5.1. Análisis de datos categóricos con muestras complejas

Ya vimos que una distribución fundamental para el análisis de datos categóricos (es
decir, de variables que solo pueden medirse en escala nominal u ordinal, como género, reli-
gión, ansiedad, nivel socioeconómico, etc.) es la distribución multinomial. Hipótesis sobre los
parámetros de esta distribución se pueden traducir en distintos procedimientos estadı́sticos
como las pruebas de independencia, la igualdad de proporciones o las pruebas de bondad de
ajuste.
Si (X1 , X2 , . . . , Xk ) ∼ M ul(n, p1 , p2 , . . . , pk ), la prueba asintótica estándar para contras-
tar a nivel α
H0 : p1 = p01 , p2 = p02 , . . . , pk = p0k vs H1 : ∃i / pi = p0i

donde los valores p01 , . . . , p0k son conocidos, es la prueba chi-cuadrado, cuya región crı́tica o
de rechazo para H0 viene dada por

k
(xi − E 0 )2 i
RC: U0 = > χ21−α (k − 1),
i=1
Ei0

donde xi es el valor observado de Xi y Ei0 = np0i su frecuencia esperada bajo H0 . En

muchas situaciones, sin embargo, las probabilidades pi no son directamente especificadas
en la hipótesis nula y dependen de otros parámetros poblacionales que requieren estimarse.
Uno de estos casos se da en los contrastes sobre la independencia de dos variables categóricas
X e Y , cuyos valores se encuentran tabulados en un tabla de contingencia. Pensemos, para
contextualizar, que se ha tomado una encuesta por MASs a 500 de un total de 5000 hogares de
cierto municipio para averiguar si la opinión acerca de la labor del alcalde distrital (variable
Y ) está asociada o no a que la familia posea un auto (variable X). Tomada la encuesta al
jefe de hogar, supongamos que sus respuestas se hayan resumido en la siguiente tabla de
contingencia:

Y
Posee auto 1 = Opinión desfavorable 2 = Opinión favorable Total
X 1 = No n11 = 105 n12 = 188 n1. = 207
2 = Sı́ n21 = 88 n22 =119 n2. = 293
Total n.1 = 193 n.2 = 307 n = 500

Las pruebas asintóticas más populares para contratar a nivel α

H0 : X e Y son independientes vs. H1 : X e Y no son independientes

178 CAPÍTULO 5. UNA INTRODUCCIÓN AL MUESTREO COMPLEJO

son la prueba chi-cuadrado y la prueba de razón de verosimilitud. Ambas son asintótica-

mente equivalentes y sus regiones crı́ticas para, en general, una tabla de contingencia con a
categorı́as de X y b categorı́as de Y vienen dadas por
a
b
(nij − Êij0 )2
R.C: χ20 = > χ21−α ((a − 1)(b − 1))
i=1 j=1 Êij0

y
a
b
nij
R.C: G0 = 2 nij log( ) > χ21−α ((a − 1)(b − 1))
i=1 j=1 Êij0
donde:
ni. n.j
Êij0 = np̂0i. p̂0.j =
n
es la estimación máxima verosı́mil de la frecuencia esperada en la celda (i, j) bajo H0 .
En nuestro ejemplo, los estadı́sticos de prueba correspondientes observados son χ20 =2.281
y G0 = 2.275; mientras que el valor en tabla de la distribución chi-cuadrado para α = 0.05
es χ20.95 (1) = 3.84. El valor p de este contraste es, por tanto, 0.131. Consecuentemente, no
encontramos evidencia, en el municipio, de que la opinión hacia el alcalde tenga relación con
el hecho de que la familia tenga o no un auto. Estos análisis y las correspondientes salidas
en R se muestran seguidamente:

Auto <-c(rep('No',193),rep('Si',307))
Opinion <- c(rep("Desfavorable",105),rep("Favorable",88),
rep("Desfavorable",188),rep("Favorable",119))
tt = table(Auto,Opinion)
summary(tt)

## Number of cases in table: 500

## Number of factors: 2
## Test for independence of all factors:
## Chisq = 2.3, df = 1, p-value = 0.1

Una manera equivalente de plantear contrastes de independencia es mediante las razones

de odds. En una tabla de contingencia 2 × 2 la razón de odds se define como

P (Y = 1 | X = 1)
θ= .
P (Y = 1 | X = 2)

Este parámetro poblacional puede tomar valores menores, iguales o mayores que 1. Un θ
igual a 1 indica que no hay asociación y, por tanto, el contraste de independencia anterior
equivale a plantear
5.5. INTRODUCCIÓN AL ANÁLISIS CON MUESTRAS COMPLEJAS 179

H0 : θ = 1

contra una alternativa que incluso puede ser unilateral. Para una tabla de contingencia
general a × b, podrı́amos definir el vector columna θ = [θ11 , θ12 , . . . , θ(a−1)(b−1) ] con

θij = P (X = i, Y = j) − P (X = i)P (Y = j) ≡ pij − pi. p.j

y escribir la hipótesis de independencia como

H0 : θ = 0.

Todo lo expuesto hasta el momento es válido bajo un MAS. Si el muestreo es complejo, las
distribuciones de χ20 y G0 no serán más chi-cuadrado, lo cual nos podrı́a llevar a conclusiones
erróneas. En particular, la conglomeración tiene un fuerte efecto sobre estas distribuciones
nulas. Para ilustrarlo retomemos el ejemplo previo, pero en el que no solo hayamos pregun-
tado la opinión al jefe del hogar sino también la de su cónyugue (note que ambos pertenecen
a un mismo conglomerado, que es el hogar) y supongamos, exagerando (aunque la verdad
no tanto), que ambos comparten la misma opinión sobre el alcalde; más explı́citamente, que
contamos con la siguiente tabla de contingencia:

Y
Auto particular 1 = Opinión desfavorable 2 = Opinión favorable Total
X 1 = No n11 = 210 n12 = 376 n1. = 414
2 = Sı́ n21 = 176 n22 =238 n2. = 586
Total n.1 = 386 n.2 = 614 n = 1000

Note que se tiene aquı́ una correlación intraclase de 1.

Si evaluamos en este nuevo contexto nuestros estadı́sticos, obtendremos χ20 = 4.562 y
G0 = 4.55 que duplican a sus valores anteriores. Más aún, obtendremos un valor p de 0.03269
y, por tanto, podrı́amos estar tentados a concluir, equı́vocamente, de que sı́ existe asociación
entre la opinión sobre el alcalde y la tenencia de un auto. Note también que esto no es un
fenómeno particular de este ejemplo, ya que, en general, bajo una correlación intraclase de
1 (por la duplicidad de respuestas en las unidades primarias) los estadı́sticos

a b
(pij − p̂0i. p̂0.j )2
χ20 = n
i=1 j=1
p̂0i. p̂0.j

y
a
b
pij
G0 = 2n pij log( ),
i=1 j=1
p̂0i. p̂0.j

siendo pij la proporción observada de respuestas en la celda (i, j), duplican su valor.
180 CAPÍTULO 5. UNA INTRODUCCIÓN AL MUESTREO COMPLEJO

Veamos ahora dos procedimientos para incorporar el diseño en la prueba de independen-

cia. Para ser más breves, nos centraremos en la prueba chi-cuadrado de Pearson, procedi-
mientos similares existen para la prueba de razón de verosimilitud.
Para empezar, sea (X11 , X12 , . . . , Xab ) el vector aleatorio en el que cada Xij denota el
número de unidades en la muestra de tamaño n que toman valores en la celda (i, j), siendo
pij la probabilidad de que cualquier elemento de la muestra tome valores en esta celda. Sea,
por otro lado, p = [p11 , p22 , . . . , pab−1 ] y sea p̂ un estimador de p bajo el diseño complejo.
Supongamos ahora que se cumple que
√ D
n(p̂ − p) → N (0, Vdis ),

donde Vdis es la varianza asintótica del vector (X11 , X12 , . . . , Xab−1 ). Note que si nuestro
esquema de muestreo fuese un MAS, (X11 , X12 , . . . , Xab−1 ) tendrı́a distribución multinomial
y la matriz de varianza-covarianza del diseño tomarı́a la forma Vdis = P0 = diag(p) − pp .
Dado que θ es una función de p, podrı́amos utilizar el método delta para justificar que
√ D
n(θ̂ − θ) → N (0, HVdis H ),

donde H = H(θ) es la matriz de orden (a − 1)(b − 1) × (ab − 1) conformada por las derivadas
parciales de las componentes de θ con respecto a las componentes de p.
Uno de los primeros procedimientos para contrastar independencia en datos categóricos
con muestras complejas fue desarrollado por Koch y Freeman (1975). Este test de tipo Wald
contrasta la hipótesis de independencia

H0 : θ = 0

usando el estadı́stico

χ2W 0 = θ̂ (Ĥ V̂dis Ĥ )−1 θ̂,

donde Ĥ = H(θ̂) y V̂dis es un estimador consistente de Vdis . Este estadı́stico tiene asintótica-
mente una distribución chi-cuadrado con (a − 1)(b − 1) grados de libertad. Aquı́ cabe aclarar
que si se dispusiera de un estimador consistente de la varianza de θ̂, por alguna técnica de
remuestreo, este podrı́a usarse también en lugar de Ĥ V̂dis Ĥ para definir el estadı́stico de
tipo Wald.
Un problema con el procedimiento anterior es que si la tabla es grande, el número de
unidades primarias deberı́a ser realmente grande como para poder estimar todas las compo-
nentes en Vdis . Algunos ajustes y procedimientos posteriores que buscan resolver este y otros
problemas asociados a este test se revisan en Thomas y Rao (1990).
Una alternativa más usada y eficiente fue formulada a través de los trabajos de Rao y Scott
(1984), quienes propusieron corregir el estadı́stico chi-cuadrado de Pearson multiplicándolo
por una constante adecuada. La metodologı́a se basa en el siguiente resultado asintótico
5.5. INTRODUCCIÓN AL ANÁLISIS CON MUESTRAS COMPLEJAS 181

de Rao y Scott (1981). Ellos mostraron que, bajo H0 , el estadı́stico χ20 de Pearson puede
descomponerse como
(a−1)(b−1)

χ20 = λi W i ,
i=1

donde los λ1 ≥ λ2 ≥ . . . ≥ λ(a−1)(b−1) > 0 denotan los autovalores de la matriz de diseño

generalizada D = (HP0 H )−1 (HVdis H ), y W1 , W2 , . . . , W(a−1)(b−1) son variables aleatorias
independientes con distribuciones chi-cuadrado de un grado de libertad. La corrección de
primer orden sugerida por Rao y Scott postula, entonces, como estadı́stico de prueba a,

χ20
χ2I = ,
δ̄
donde:
(a−1)(b−1)
1 T r(D)
δ̄ = δi = .
(a − 1)(b − 1) i=1
(a − 1)(b − 1)
De esta manera, el estadı́stico χ2I
tiene media (a − 1)(b − 1) y, aproximadamente, una dis-
tribución chi-cuadrado con estos grados de libertad, de no existir mucha variación en los
δi .
Rao y Scott mostraron, posteriormente, que de no disponerse de estimaciones de la ma-
triz Vdis (y, en consecuencia, de los autovalores en D para poder estimar δ̄), uno podrı́a
utilizar estimaciones de los efectos de diseño dîj , dî. y dˆ.j en las estimaciones de pij , pi. y p.j ,
respectivamente, a fin de obtener la siguiente aproximación:
a
b a
b

δ̄ˆ = (1 − p̂ij )dîj − (1 − p̂i. )dî. − (1 − p̂.j )dˆ.j .
i=1 j=1 i=1 j=1

Años después, Thomas y Roberts (1996) derivaron correcciones de segundo orden al

estadı́stico de Pearson con el fin de incorporar la variabilidad de los autovalores en la matriz
D. Ellos propusieron el estadı́stico
χ2I
χ2II = ,
1 + â2
donde â representa el coeficiente de variación de los autovalores en la matriz D estimada.
Concretamente, utilizando una aproximación de Satterwaite, ellos mostraron que
(a−1)(b−1)
δ̂i2
â2 = − 1.
i=1 (a − 1)(b − 1)δ̄ˆ2

Bajo la corrección de segundo orden, el estadı́stico χ2II tiene una distribución asintótica
chi-cuadrado con (a−1)(b−1)
1+â2
grados de libertad.
Retornando a la parte práctica, es interesante comentar que la librerı́a survey de R posee
el comando svychisq que realiza las pruebas chi-cuadrado aquı́ expuestas. El método por
182 CAPÍTULO 5. UNA INTRODUCCIÓN AL MUESTREO COMPLEJO

defecto para este análisis es el de Thomas y Roberts (1996) con la corrección de segundo
orden. Como ilustración, reconsideremos nuestro problema sobre la relación entre la opinión
sobre el alcalde y la tenencia de auto particular en el contexto del muestreo por conglome-
rados cuando la correlación intraclase es de 1. Los códigos siguientes, como se apreciarán en
los resultados, nos proveen de un procedimiento válido para realizar este contraste.

cluster = vector()
for (i in 1:500) cluster = c(cluster,i,i)
[Link] = [Link](Auto, Opinion, cluster)
cluster_design = svydesign(ids=cluster,fpc=rep(5000,1000),data=[Link])
svychisq(~Auto+Opinion,cluster_design)

##
## Pearson's X^2: Rao & Scott adjustment
##
## data: svychisq(~Auto + Opinion, cluster_design)
## F = 3, ndf = 1, ddf = 500, p-value = 0.1

5.5.2. Análisis de regresión

En el análisis de regresión lineal múltiple uno busca expresar una v.a. dependiente Y
como una función lineal de p variables independientes o predictoras x1 , x2 , . . . , xp , las cuales
se asumirán, como es usual, fijas. El modelo se plantea como

Y = β0 + β1 x1 + β2 x2 + . . . + βk xp + ,

donde es común asumir que el error es una variable aleatoria con distribución normal de
media 0 y varianza σ 2 , y estos errores se asumen independientes para distintas observaciones.
Uno de los objetivos centrales de este modelo es estimar el valor medio de Y dado el vector
x = (x1 , . . . , xp ) de variables independientes en un elemento no observado de la población.
Para ello, uno debe contar con mediciones de la variable aleatoria Y para n elementos
seleccionados al azar de la población. Dada esta m.a., el modelo puede escribirse como

Yi = β0 + β1 xi1 + β2 xi2 + . . . + βk xip + i , ∀i = 1, 2, . . . , n

o matricialmente como
Yn = Xn β + En ,
donde Yn es un vector columna de orden n × 1; Xn es una matriz n × (p + 1) cuya primera
columna es de unos; β es el vector columna de orden p + 1 de coeficientes de regresión, y En
es un vector n × 1 que contiene a los errores i .
5.5. INTRODUCCIÓN AL ANÁLISIS CON MUESTRAS COMPLEJAS 183

El método de mı́nimos cuadrados nos provee de un estimador de β que se obtiene de

resolver p
n
n

mı́n 2i = mı́n (Yi − β0 − βj xij )2 , (5.13)
i=1 i=1 j=1

siendo su solución
β̂ M CO = (X −1
n Xn ) Xn Y n .

Luego, la estimación buscada del valor medio de Y para un x dado, al cual llamamos también
el hiperplano de regresión, viene dada por

ŷx = [1, x ]β̂ M CO .

En el contexto de una población finita de tamaño N , β̂ M CO es formalmente un estimador

del vector de parámetros β que resuelve (5.13), pero para todos los posibles pares

(x1 , y1 ), (x2 , y2 ), . . . , (xN , yN )

del vector de variables independientes y la variable dependiente y en la población; esto es de

β N = (X X)−1 X YN ,

donde X es un matrix N × (p + 1) que contiene a las variables independientes e YN es el

vector columna de orden N × 1 que contiene a todas los valores de la variable dependiente en
la población. Si el muestreo es complejo y no simple, podrı́amos naturalmente considerar de
manera alternativa al estimador β̂ de β, cuyas componentes resuelvan la siguiente versión
ponderada de (5.13):
p

mı́n ωi (Yi − β0 − βj xij )2 , (5.14)
i∈S j=1

donde los ωi son los pesos asociados a la i-ésima unidad seleccionada en la muestra. A esta
se le llama precisamente una inferencia basada en el diseño, la cual difiere de la del modelo
en el sentido de que la última realiza la inferencia sobre el proceso que pensamos genera a la
población real. En tal caso, aun los coeficientes del modelo ajustado para toda la población
estarán sujetos a una incertidumbre estadı́stica y se podrı́an pensar que provienen de una
P
superpoblación, de tal manera que se cumpla que cuando n, N → ∞, Nn → c y β N → β ∗ ,
∗
para algún c ∈ [0, 1[ y un vector β .
Como se sabe, la solución de (5.14) es estándar en el análisis de regresión y se conoce
como un estimador de mı́nimos cuadrados ponderado. Ella viene dada por

β̂ = (X −1
n Wn Xn ) Xn Wn Yn ,

donde Wn = diag(ωi ) es una matriz diagonal de orden n que contiene solo los pesos asociados
a cada una de las unidades seleccionadas; Xn es una matriz n × p + 1 que contiene a las
184 CAPÍTULO 5. UNA INTRODUCCIÓN AL MUESTREO COMPLEJO

variables predictoras con una primera columna de unos, e Yn es un vector columna de

orden n que contiene los valores de la variable dependiente, ambos incluyen solo las unidades
seleccionadas.
Si bien los estimadores de mı́nimos cuadrados ponderados poseen una formulación para
su varianza, ella no es aquı́ válida, pues la matriz de pesos Wn surge de considerar el diseño y
no de asumir heterogeneidad como usualmente se plantea para este tipo de estimadores. Para
estimar la varianza de β̂ utilizaremos, al igual que en Wolter (2007), técnicas de linealización.
Note, en primer lugar, que nuestro estimador puede escribirse como

β̂ = (X −1 −1
n Wn Xn ) Xn Wn (Xn β + En ) = β + (Xn Wn Xn ) Xn Wn En ,

donde En = Yn − Xn β.
Consideremos ahora la función F (ω) = (X WX)−1 , que tiene como argumento al vector
ω de orden N × 1 que define a la matriz de orden N × N , W = diag(ω). Sea ω n un vector
N × 1 cuyas componentes contienen los pesos de muestreo de las unidades seleccionadas y
valen 0 en caso contrario. Un desarrollo de Taylor de primer orden para esta función F en
el vector ω n alrededor del vector columna de unos de orden N , ω 0 = 1N , nos brinda la
aproximación
F (ω n ) = (X
n Wn X n )
−1
= (X X)−1 + dFω 0 (ω n − ω 0 ).

Más aún, dado que por propiedad de diferenciación de matrices dFω 0 (ω n − ω 0 ) =

−1
−F (ω 0 )dFω 0
(ω n − ω 0 )F (ω 0 ), se cumplirá aproximadamente que

β̂ = β + (X X)−1 − (X X)−1 ((X
n Wn Xn ) − (X X))(X X)
−1
Xn Wn En
−1
= β + (X X)−1 X
n Wn En − X X) ((Xn Wn Xn ) − (X X))(X X)
−1
Xn Wn En .

Despreciando el último término de esta expresión, se tendrá entonces que aproximadamente

β̂ = β + (X X)−1 X
n Wn En .

Ası́, considerándose que E(X

n Wn En ) = 0, la varianza de este término resulta ser

V (β̂) = E((β̂ − β)(β̂ − β) ) = (X X)−1 Gn (X X)−1 ,

siendo Gn = V (Xn Wn En ) una matriz (p + 1) × (p + 1) de varianzas-covarianzas.

Dado que tanto los residuales En como el término (X X)−1 son usualmente desconocidos,
podrı́amos estimarlos por Ên = Yn − Xn β̂ y (Xn Wn Xn ) , respectivamente. Ello nos brinda,
−1

finalmente, un estimador tipo “sandwich” de la forma

V̂ (β̂) = (X −1 −1
n Wn Xn ) Ĝn (Xn Wn Xn ) , (5.15)
5.5. INTRODUCCIÓN AL ANÁLISIS CON MUESTRAS COMPLEJAS 185

requiriéndose para su término central una estimación Ĝn de la varianza del vector X
n Wn Ên ,
el cual será particular del diseño empleado; es decir, de la matriz de varianzas-covarianzas
V (Xn Wn Ên ), cuya entrada rs viene dada por

grs = Cov( xrk ˆk ωk δk , xs ˆ ω δ ) = xrk xs ˆk ˆ Cov(δk , δ ), (5.16)
k k

donde las sumas recorren las distintas etapas o estratos del diseño. La estimación de estos
términos dependerá del diseño particular empleado.

Ejemplo 5.8. Con el fin de precisar mejor la estimación de la varianza del vector de coe-
ficientes de regresión, pensemos en un diseño estratificado por conglomerados bietápico en
el que la i-ésima UPM al interior del estrato h = 1, 2, . . . , H es seleccionada con una pro-
babilidad πhi , i = 1, 2, . . . , Nh y la j-ésima USM dentro de la i-ésima UPM del estrato h
es seleccionada con probabilidad (condicional) πj|hi , j = 1, 2, . . . , Mhi , siendo Mhi el número
de USM dentro la i-ésima UPM. Como es usual, asumiremos que el muestreo en cualquier
UPM es independiente del muestreo en cualquier otra UPM. En este contexto, (5.16) viene
dada por
H Nh
Mhi H Nh Mhi
xrhij ˆhij δhi δj|hi xshij ˆhij δhi δj|hi
grs = Cov( , )
h=1 i=1 j=1
π hi π j|hi
h=1 i=1 j=1
πhi πj|hi

Nh
H
H Nh
δhi δhi
= Cov( Zhi|r , Zhi|s ),
h=1 i=1
πhi h=1 i=1 πhi

donde:
Mhi
xrhij ˆhij
Zhi|r = δj|hi .
j=1
πj|hi

Para mejor explicar la expresión anterior, podrı́amos utilizar la proposición 1.1, al con-
dicionar sobre el arreglo δ = [δhi ] de las variables aleatorias indicadoras de inclusión de la
primera etapa dentro de los estratos. Ello resulta en

Nh
H H Nh
δhi δhi
grs = Cov(E( Zhi|r | δ), E( Zhi|s | δ))
h=1 i=1
πhi h=1 i=1
π hi

Nh
H
H Nh
δhi δhi
+E(Cov( Zhi|r , Zhi|s | δ)).
h=1 i=1
πhi h=1 i=1 πhi

Puesto que, por un lado,

Nh
H hH N h H N
δhi δhi δhi
E( Zhi|r | δ) = E(Zhi|r ) = zrhi. ,
h=1 i=1
πhi h=1 i=1
π hi
h=1 i=1
π hi
186 CAPÍTULO 5. UNA INTRODUCCIÓN AL MUESTREO COMPLEJO
Mhi
donde zrhi. = j=1 xrhij ˆhij y ,por otro lado,

se tiene que
Nh
H
Nh H Nh Mhi
Mhi
zrhi. z shi . 1 xrhij ˆhij xshij ˆhij
grs = Cov(δhi , δhi )+
Cov(δj|hi , δj |hi )
h=1 i=1 i =1
πhi πhi h=1 i=1
πhi j=1 πj|hi πj |hi
j =1

Nh
H
Nh
H
Nh
zrhi. zshi. (1 − πhi ) zrhi. z
shi .
= + (πhi,hi − πhi πhi )
h=1 i=1
πhi h=1 i=1 i =1
πhi πhi

i=i

H Nh Mhi H Nh Mhi

Al igual que en el caso de los estimadores de Horvitz-Thompson, un estimador insesgado de

grs vendrá dado por
Nh
H
Nh
H
Nh
zrhi. zshi. (1 − πhi ) zrhi. zshi .
ĝrs = δhi + (π − πhi πhi )δhi δhi
h=1 i=1
2
πhi h=1 i=1 i =1
πhi πhi πhi,hi hi,hi

i=i

Al igual que en los estimadores de Horvitz-Thompson, no resulta difı́cil probar que el

término grs se puede escribir también como
Nh
H
Nh H Nh
zrhi. zrhi . zshi. zshi . 1
grs = (πhi πhi − πhi,hi )( − )( − )+ Cov(Zhi|r , Zhi|s ).
h=1 i=1 i >i
πhi πhi πhi πhi h=1 i=1
πhi
5.5. INTRODUCCIÓN AL ANÁLISIS CON MUESTRAS COMPLEJAS 187

Por tanto, un estimador tipo Sen-Yates-Gundy puede implementarse en este caso y viene
dado por
H Nh Nh H Nh
πhi πhi − πhi,hi zrhi. zrhi . zshi. zshi . 1 ˆ
ĝrs = ( )( − )( − )δhi δhi + 2
Cov(Zhi|r , Zhi|s )δhi ,
h=1 i=1
π hi,hi π hi π hi π hi π hi π
h=1 i=1 hi
i >i
(5.17)
ˆ
donde Cov(Zhi|r , Zhi|s ) es una estimación que se realiza sobre la base de las USM seleccio-
nadas al interior de las UPM escogidas. Este es el estimador implementado por defecto en
el comando svyglm.
Ejemplo 5.9. Consideremos la base de datos api y supongamos que deseamos estimar,
bajo un muestreo estratificado de conglomerados de una etapa, el rendimiento medio por
colegio en el 2000 en base a su porcentaje de profesores completamente calificados (full),
padres con estudios de posgraduación ([Link]), estudiantes que están aprendiendo inglés
(ell), estudiantes que tienen comidas subsidiadas (meals) y estudiantes para los que este
es su primer año en la escuela (mobility). Dado que api es una base de datos poblacional,
podrı́amos teóricamente calcular el vector de parámetros β del modelo. Este, descartando los
casos perdidos en las variables de interés, viene dado por

data(api)
N0 = dim(apipop)[1]
Pob = apipop[order(apipop$stype,apipop$dnum),] # apipop ordenado
Pob$cod0 = 1:N0
Pob$b0 = rep(1,N0)
M = [Link]([Link](Pob[,c(38,39,34,32,21,20,23,12)]))
index = [Link](M[,1]) # indice de casos validos
X = M[,2:7]
Y = M[,8]
beta = solve(crossprod(X))%*%crossprod(X,Y)
beta

## [,1]
## b0 600.989
## full 1.753
## [Link] 2.547
## ell -0.896
## meals -1.957
## mobility -0.101

Para la muestra consideraremos como antes el tipo de escuela (stype) como variable
de estratificación y los distritos escolares (dnum) como conglomerados. Optaremos por una
188 CAPÍTULO 5. UNA INTRODUCCIÓN AL MUESTREO COMPLEJO

muestra de, aproximadamente, 30 distritos escolares, los cuales los distribuiremos propor-
cionalmente a la cantidad de colegios por estrato. Ello nos llevará a consignar 14 colegios
elementales, 9 high schools y 7 colegios medios. El diseño y la toma de la muestra se presentan
a continuación

[Link](12345)
Pob = Pob[index,]
N1 = dim(Pob)[1]
tt = table(Pob$stype)
ls1 = list([Link](tt),c(14,9,7))
Pob$Nh = rep(ls1[[1]],tt)
Pob = cbind(cod = 1:N1,Pob)
mues=mstage(Pob,stage=list("stratified","cluster"),
varnames=list("stype","dnum"),
size=ls1,method=list("","srswor"),description=T)

## STAGE 1
## Number of strata: 3
## STAGE 2
## Number of selected clusters: 14
## Number of units in the population and number of selected units: 4417 112
## Number of selected clusters: 9
## Number of units in the population and number of selected units: 753 23
## Number of selected clusters: 7
## Number of units in the population and number of selected units: 1018 11

mues = getdata(Pob,mues)[[2]]
dmuesr<-svydesign(id=~dnum, strata=~stype, fpc=~Nh,nest=T,data=mues)
dmuesr

## Stratified 1 - level Cluster Sampling design

## With (30) clusters.
## svydesign(id = ~dnum, strata = ~stype, fpc = ~Nh, nest = T, data = mues)

El análisis de regresión bajo el diseño se realizará con el comando svyglm mediante

summary(svyglm(api00~full+[Link]+ell+meals+mobility, design=dmuesr))

##
## Call:
5.5. INTRODUCCIÓN AL ANÁLISIS CON MUESTRAS COMPLEJAS 189

## svyglm(formula = api00 ~ full + [Link] + ell + meals + mobility,

## design = dmuesr)
##
## Survey design:
## svydesign(id = ~dnum, strata = ~stype, fpc = ~Nh, nest = T, data = mues)
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 667.021 88.812 7.51 1.7e-07 ***
## full 1.295 0.707 1.83 0.080 .
## [Link] 2.234 1.031 2.17 0.041 *
## ell -0.825 0.728 -1.13 0.269
## meals -2.123 0.728 -2.92 0.008 **
## mobility -0.411 0.799 -0.51 0.612
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for gaussian family taken to be 2647)
##
## Number of Fisher Scoring iterations: 2

Como se aprecia, solo las proporciones de profesores completamente capacitados y de padres

con estudios de posgrado parecen tener un efecto positivo y significativo en el rendimiento
medio de la escuela; por otro lado, solo la proporción de estudiantes con comidas subsidia-
das pareciera tener un efecto negativo en el rendimiento medio de la escuela. Note que los
coeficientes de regresión podrı́amos haberlos también obtenido en R con

Xn = cbind(rep(1,dim(mues)[1]),mues$full,mues$[Link],mues$ell,mues$meals,
mues$mobility)
Yn = mues$api00
w = weights(dmuesr)
Wn = diag(w)
Hn = solve((t(Xn)%*%Wn%*%Xn))
(betah = Hn%*%t(Xn)%*%Wn%*%Yn)

## [,1]
## [1,] 667.021
## [2,] 1.295
## [3,] 2.234
190 CAPÍTULO 5. UNA INTRODUCCIÓN AL MUESTREO COMPLEJO

## [4,] -0.825
## [5,] -2.123
## [6,] -0.411

La matriz de varianzas-covarianzas de estos estimadores se pueden también obtener usan-

do las ecuaciones (??) y (5.17 ), que en este diseño se traducen en
Nh
H
Nh
H
Nh
zrhi. zshi. (1 − πhi ) zrhi. zshi .
ĝrs,HT = δhi + (π − πhi πhi )δhi δhi
h=1 i=1
2
πhi h=1 i=1 i =1
πhi πhi πhi,hi hi,hi

i=i

y
H Nh Nh
πhi πhi − πhi,hi zrhi. zrhi . zshi. zshi .
ĝrs,SGY = ( )( − )( − )δhi δhi ,
h=1 i=1
π hi,hi π hi π hi π hi π hi
i >i

donde:
nh nh (nh − 1)
πhi = y πhi,hi = .
Nh Nh (Nh − 1)
Una evaluación de los errores estándares de estimación estimados, a partir de estos estima-
dores, se muestra en la siguiente tabla:

Parámetro β0 β1 β2 β3 β4 β5
Intercepto full [Link] ell meals mobility
Estimado 667.0213 1.2951 2.2344 -0.8253 -2.1226 -0.4114
[Link] (HT) 89.1709 0.7025 1.0434 0.7199 0.7391 0.7861
[Link] (SGY) 88.8118 0.7068 1.0307 0.7282 0.7276 0.7993

Como se observa, las estimaciones de los errores estándar para los coeficientes son muy
similares y la última coincide con el de la salida del comando svyglm.
Si no consideráramos los pesos de muestreo, el análisis nos brindarı́a la siguiente salida:

summary(glm(api00~full+[Link]+ell+meals+mobility, data=mues))

##
## Call:
## glm(formula = api00 ~ full + [Link] + ell + meals + mobility,
## data = mues)
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -217.34 -35.74 0.76 38.25 165.16
5.5. INTRODUCCIÓN AL ANÁLISIS CON MUESTRAS COMPLEJAS 191

##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 562.584 50.800 11.07 <2e-16 ***
## full 1.858 0.501 3.71 0.0003 ***
## [Link] 3.723 0.692 5.38 3e-07 ***
## ell -1.459 0.526 -2.77 0.0063 **
## meals -0.991 0.394 -2.51 0.0130 *
## mobility -0.556 0.485 -1.15 0.2536
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for gaussian family taken to be 3722)
##
## Null deviance: 1718868 on 145 degrees of freedom
## Residual deviance: 521065 on 140 degrees of freedom
## AIC: 1623
##
## Number of Fisher Scoring iterations: 2

Se aprecia, entonces, una mı́nima diferencia en ambos análisis. Note también los menores
errores de estimación de los estimadores de mı́nimos cuadrados.

La extensión del análisis de regresión lineal múltiple para otro tipo de respuestas, co-
mo binarias, de conteo o no negativas, puede realizarse a través de los modelos lineales
generalizados. En estos, el método de estimación no es el de mı́nimos cuadrados sino el de
máxima verosimilitud. Este método requiere la maximización de la función de probabilidad
o densidad conjunta de las respuestas, o de su logaritmo, las últimas que se asumen que son
independientes y que se asocian al predictor lineal mediante funciones pre definidas de enlace
g que dependen del tipo de respuesta. Se asume que el modelo lineal general de trabajo en
cuestión pertenece a una familia exponencial, la cual relaciona para cada observación i su
media o media condicional con un predictor lineal mediante

g(µi ) = x
i β

y que su varianza marginal por

V (Yi ) = φV (µi ),

donde φ es un parámetro de dispersión.

192 CAPÍTULO 5. UNA INTRODUCCIÓN AL MUESTREO COMPLEJO

En el caso, por ejemplo, de la regresión logı́stica para respuestas binarias, la función de

log-verosimilitud viene dada por
n

l(β) = log L(β) = yi log(π(xi )) + (1 − yi ) log(1 − π(xi )),
i=1

donde:
exp(x
i β)
π(xi ) = = µi
1 + exp(x
i β)
representa el valor que se espera tome la variable respuesta binaria Yi y corresponde a la
µi
inversa de la función de enlace logı́stico g(µi ) = log( 1−µ i
) = x
i β.
En el muestreo complejo, la asunción de independencia entre las distintas respuestas
raramente se cumple y, por tanto, este procedimiento podrı́a resultar inválido. Para suplir
ello se ha propuesto en la literatura una metodologı́a de pseudo máxima verosimilitud asistida
por el modelo que incorpora los pesos de muestreo a la función última. La función de log-
pseudo-máxima verosimilitud a optimizar en la regresión logı́stica es

lP (β) = log P L(β) = ωi (yi log(π(xi )) + (1 − yi ) log(1 − π(xi ))).
i∈S

Una vez obtenidos los estimadores, la estimación de sus varianzas pueden obtenerse ya sea
por los métodos de linealización o replicación estudiados.
En R, el procedimiento para el ajuste e inferencia de estos modelos se encuentra imple-
mentado en el comando svyglm del paquete survey.
En este texto introductorio no discutiremos al detalle todos los modelos de regresión
lineal generalizados ni su análisis de ajuste, desarrollos que cabe comentar son en muchos
casos aún temas de actual investigación. Para mayores detalle, el lector interesado puede
consultar el texto de Heeringa y Berglund (2010) y el artı́culo de Binder (1983). Lo que
sı́ vale la pena comentar es el proceso de inferencia. En general, si estamos interesados en un
IC al 100(1 - α) % o en una prueba de significación sobre cualesquieras de los coeficientes de
regresión βi del modelo, estos vienen caracterizados por

ˆ β̂1 ), β̂i + t1− α (gl)SE(

[β̂i − t1− α2 (gl)SE( ˆ β̂1 )]
2

β̂i
y la estadı́stica de prueba t = SE( ˆ β̂i ) , la cual tiene distribución t de Student con gl =

h ah − H grados de libertad, siendo el primer término el número de conglomerados y el
segundo el número de estratos, ambos de la primera etapa del diseño. Naturalmente, t1− α2 (gl)
denota aquı́ el cuantil 1 − α2 de la distribución t de Student.
Por otro lado, las conocidas pruebas F sobre un grupo de regresores pueden sustituirse
por las pruebas de Wald a través del estadı́stico
1
FW = β̂ q Σ̂−1
q β̂ q ,
q
5.5. INTRODUCCIÓN AL ANÁLISIS CON MUESTRAS COMPLEJAS 193

donde β̂ q denota el estimador de cualquier vector de coeficientes de regresión estimados de

dimensión 1 ≤ q ≤ p que sean un subconjunto del vector de todos los p coeficientes de
regresión en el modelo y Σ̂q es su correspondiente matriz de varianzas-covarianzas estimada.
Bajo la hipótesis nula H0 : β q = 0, se cumple que asintóticamente FW tiene distribución F de
Fisher con q grados de libertad en el numerador y gl grados de libertad en el denominador.
Todas estas pruebas se encuentran implementadas en R bajo el comando regTermTest del
paquete survey.
Lumley y Scott (2014) argumentan, sin embargo, que en lugar de las pruebas de Wald
serı́a preferible usar pruebas de razón de verosimilitud, ya que estas son, a diferencia de las
primeras, invariantes a transformaciones de los parámetros y muestran mejores propiedades
en muestras pequeñas. Para ello, ellos extienden las pruebas de Rao y Scott vistas en el
capı́tulo anterior a un contexto mucho más general. Recordemos que en las pruebas de razón
de verosimilitud es de interés particionar el vector de parámetros β de dimensión p como
β = (β 0 , β 1 ), donde β 0 tiene dimensión q ≤ p y contrastar la hipótesis nula H0 : β 0 = 0. En
este modelo más general, la función de pseudo-log-verosimilitud viene dada por

lP (β) = ωi log f (yi | xi ; β),
i∈S

donde f (yi | xi ; β) denota la función de densidad o probabilidad de las respuestas en función

de las covariables y del vector de parámetros. Si θ̂ 0 denota la la solución de
∂lP (β) 1
U (β) = = ωi (yi − µi ) = 0
∂β i∈S
g (µi )V (µi )

bajo la restricción que β 0 = 0, Lumley y Scott (2014) muestran que bajo H0 y ciertas
condiciones de regularidad se cumple que, conforme n, N → ∞,
q
D

Λn = 2(lP (θ̂) − lP (θ̂ 0 )) → δi Zi2 ,
i=1

donde Z1 , Z2 , . . . Zq es una m.a. de variables normales estándar independientes y δ1 , δ2 , . . . , δq

−1
son los autovalores de la matriz de Λ = (I11 − I12 I22 I21 )V11 en las que V11 denota la matriz
√ ∗
de varianza-covarianza asintótica de n(β̂ 0 − β 0 ) e

2 ∗
∂ l P (β ) I 11 I 12
I(β ∗ ) = E(− )= .
∂ββ I21 I11

Estos autores muestran también una aproximación de Satterthwaite para la distribución de

Λ dada por q
Λ δ2
∼ χ2 (ν), con ν = qi=1 i 2 ,
δ̄ ( i=1 δi )
recomendable cuando los δi son muy heterogéneos.
194 CAPÍTULO 5. UNA INTRODUCCIÓN AL MUESTREO COMPLEJO

Ejemplo 5.10. Consideremos el siguiente ejemplo tomado del material suplementario que
acompaña al texto de Fox y Weisberg (2018), donde es de interés estudiar la actitud de las
personas hacia la prohibición del aborto. Para ello consideraremos la CES 2011, la cual fue
una encuesta electoral realizada durante el perı́odo de la campaña 2011 en Canadá. Esta
base de datos se encuentra disponible en los paquetes car y carData de R que acompañan
al texto de Fox y Weisberg (2018). Mayores detalles sobre la encuesta se pueden encontrar
en Fournier y Stolle (2013). En el CES 2011 el paı́s fue dividido en estratos conformados
por las 10 provincias de Canadá. Dentro de cada estrato h se tomó un MASs basándose
en un marco muestral de los números telefónicos de los hogares. Dado que las provincias
en Canadá son bastante distintas en tamaño y con vistas a facilitar la comparación entre
provincias, las provincias más pequeñas fueron sobremuestradas. Como consecuencia, dife-
rentes hogares tuvieron una desigual aunque conocida probabilidad de selección dentro de la
muestra. Por otro lado, los hogares seleccionados fueron contactados por teléfono y allı́ se
determinó el número de votantes elegibles en cada hogar. En una segunda etapa de muestreo
solo un individuo fue seleccionado al azar entre los individuos elegibles en el hogar. Por tal
razón, los individuos que pertenecen a hogares numerosos tendrán una menor probabilidad
de ser seleccionados en la muestra que aquellos que viven en hogares pequeños. La base de
datos CES11 posee la siguiente estructura:

library(carData)
library(car)
data("CES11")
CES11[1:8,2:9]

## province population weight gender abortion importance education urban

## 1 BC 3267345 4288 Female No somewhat somePS urban
## 2 QC 5996930 9231 Male No not bachelors urban
## 3 QC 5996930 6154 Male Yes somewhat college urban
## 4 NL 406455 3430 Female No very somePS urban
## 5 ON 9439960 8978 Male No not higher rural
## 6 ON 9439960 8978 Female No not higher urban
## 7 NL 406455 3430 Female Yes very lessHS rural
## 8 NL 406455 1715 Female Yes notvery college urban

En orden correlativo, la primera columna de la base de datos CES11 identifica al hogar

seleccionado, la segunda al estrato o provincia (province), la tercera al número de individuos
en la provincia donde el entrevistado vive (population), la cuarta al peso de muestreo (weight),
la quinta al sexo del individuo entrevistado (gender), la sexta a su respuesta a la pregunta
central del estudio: ¿Deberı́a prohibirse el aborto? (abort), la séptima a su calificativo en
escala de Likert de la importancia que le da a religión en su vida (importance), la octava a
5.5. INTRODUCCIÓN AL ANÁLISIS CON MUESTRAS COMPLEJAS 195

su nivel de educación (education) y la última a si vive en una zona rural o urbana (urban).
Antes de realizar una regresión binaria sobre la actitud de la población canadiense hacia
el aborto en función del género, nivel de educación, zona donde vive (rural o urbana) e
importancia dada a la religión, serı́a interesante describir primero cómo se comporta nuestra
variable dependiente. El siguiente código muestra este análisis y la definición del diseño.

dCES11 = svydesign(ids=~id,strata = ~province, fpc=~population,

weights = ~weight, data=CES11)
svymean(~abortion,design=dCES11)

## mean SE
## abortionNo 0.815 0.01
## abortionYes 0.185 0.01

Como se ve, el 81.5 % de las personas encuestadas se oponen a prohibir el aborto.

Comparemos seguidamente los análisis de regresión logı́stica, bajo el diseño y el modelo

dreg = svyglm(abortion~importance+gender+education+urban, design=dCES11,

family=quasibinomial)
mreg = glm(abortion ~ importance + gender + education + urban, data=CES11,
family=binomial)
compareCoefs(dreg,mreg,zvals=T,pvals=T)

## Calls:
## 1: svyglm(formula = abortion ~ importance + gender + education + urban,
## design = dCES11, family = quasibinomial)
## 2: glm(formula = abortion ~ importance + gender + education + urban,
## family = binomial, data = CES11)
##
## Model 1 Model 2
## (Intercept) -3.578 -3.446
## SE 0.324 0.280
## z -11.03 -12.30
## Pr(>|z|) < 2e-16 < 2e-16
##
## importancenotvery 0.458 0.442
## SE 0.348 0.310
## z 1.32 1.43
## Pr(>|z|) 0.1880 0.1539
##
196 CAPÍTULO 5. UNA INTRODUCCIÓN AL MUESTREO COMPLEJO

## importancesomewhat 1.327 1.203

## SE 0.271 0.235
## z 4.89 5.12
## Pr(>|z|) 1.0e-06 3.1e-07
##
## importancevery 3.141 2.977
## SE 0.262 0.225
## z 12.00 13.21
## Pr(>|z|) < 2e-16 < 2e-16
##
## genderMale 0.328 0.375
## SE 0.148 0.127
## z 2.21 2.95
## Pr(>|z|) 0.0270 0.0032
##
## educationcollege 0.418 0.393
## SE 0.229 0.198
## z 1.83 1.99
## Pr(>|z|) 0.0676 0.0468
##
## educationhigher 0.3048 -0.0359
## SE 0.2994 0.2642
## z 1.02 -0.14
## Pr(>|z|) 0.3087 0.8920
##
## educationHS 0.536 0.579
## SE 0.230 0.194
## z 2.33 2.99
## Pr(>|z|) 0.0198 0.0028
##
## educationlessHS 0.980 0.901
## SE 0.250 0.208
## z 3.92 4.32
## Pr(>|z|) 8.9e-05 1.5e-05
##
## educationsomePS 0.128 0.250
## SE 0.282 0.234
## z 0.45 1.07
5.5. INTRODUCCIÓN AL ANÁLISIS CON MUESTRAS COMPLEJAS 197

## Pr(>|z|) 0.6501 0.2859

##
## urbanurban -0.283 -0.306
## SE 0.166 0.136
## z -1.70 -2.25
## Pr(>|z|) 0.0885 0.0241
##

Como se aprecia, las estimaciones obtenidas son bastante similares. Manteniendo los otros
predictores fijos, se aprecia que la oposición al aborto se incrementa con la mayor impor-
tancia que se le dé a la religión; esta, además, es mayor en hombres que en mujeres y, en
general, mayor en los niveles educativos más bajos, aunque no monótonamente. Finalmente,
la oposición a prohibir el aborto es marginalmente más baja en residentes urbanos que en
rurales.

5.5.3. Contrastes de medias para una, dos o más poblaciones.

Los contrastes paramétricos clásicos de medias para una, dos o más poblaciones se realizan
con las conocidas estadı́sticas t, normales y F , las cuales involucran a las medias y varianzas
muestrales de las variables de interés en el estudio. Si bien, en un diseño complejo, podrı́amos
adaptar tales estadı́sticas incorporando la varianza de la media bajo el diseño y ajustando sus
grados de libertad, resulta mucho más práctico utilizar más bien un enfoque de regresión y las
pruebas de Wald vistas en la subsección 5.5.2. Esta es precisamente la estrategia empleada
por el paquete survey a través de su comando svyttest, el cual nos permite contrastar la
hipótesis nula de que la media de la población toma un valor preespecificado µ0 o que la
media de dos poblaciones es o no la misma.

Ejemplo 5.11. Suponga que para el diseño del ejemplo 5.9 sea de interés analizar la hipótesis
de trabajo que el rendimiento medio del ı́ndice api 2000 es significativamente distinto al de
1999. Ello se podrı́a realizar mediante el comando svyttest o, alternativamente, con el
comando svyglm como seguidamente se muestra

svyttest(I(api00-api99)~0,dmuesr)

##
## Design-based one-sample t-test
##
## data: I(api00 - api99) ~ 0
## t = 7, df = 30, p-value = 3e-07
## alternative hypothesis: true mean is not equal to 0
198 CAPÍTULO 5. UNA INTRODUCCIÓN AL MUESTREO COMPLEJO

## sample estimates:
## mean
## 36

summary(svyglm(api00-api99~1, design=dmuesr))

##
## Call:
## svyglm(formula = api00 - api99 ~ 1, design = dmuesr)
##
## Survey design:
## svydesign(id = ~dnum, strata = ~stype, fpc = ~Nh, nest = T, data = mues)
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 36.01 5.29 6.81 2.6e-07 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for gaussian family taken to be 803)
##
## Number of Fisher Scoring iterations: 2

Ambos análisis, descartando redondeos, brindan los mismos resultados y muestran que
sı́ existen diferencias significativas entre las medias de los ı́ndice api 1999 y 2000.
Otra hipótesis de interés es que el ı́ndice api00 este relacionado con el nivel de educación
promedio de los padres de los alumnos en estos colegios. Para esto, recordemos que la variable
[Link] recoge el número promedio de años de estudios de los padres en cada colegio. Para
simplificar, supongamos que realizamos una clasificación del nivel educativo de los padres por
colegio, asignando a cada colegio solo una de 3 categorı́as creadas al segmentar los puntajes
promedios en 3 intervalos de más o menos igual longitud. La distribución de frecuencias y
el análisis de esta variable, que llamaremos Ed, se muestra a continuación:

table(cut(Pob$[Link],3))

##
## (0.996,2.33] (2.33,3.67] (3.67,5]
## 1771 3478 761

dmuesr = update(dmuesr,Ed = cut([Link],3))

5.5. INTRODUCCIÓN AL ANÁLISIS CON MUESTRAS COMPLEJAS 199

Si bien la prueba correspondiente es, formalmente, un ANOVA, sabemos que esta se puede
también desarrollar desde un enfoque de regresión, como

summary(svyglm(api00~Ed, design=dmuesr))

##
## Call:
## svyglm(formula = api00 ~ Ed, design = dmuesr)
##
## Survey design:
## update(dmuesr, Ed = cut([Link], 3))
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 596.8 38.9 15.34 3.1e-14 ***
## Ed(2.08,3.15] 64.7 41.7 1.55 0.13
## Ed(3.15,4.23] 211.3 42.2 5.01 3.7e-05 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for gaussian family taken to be 5402)
##
## Number of Fisher Scoring iterations: 2

Ası́, solo se aprecian diferencias significativas entre el rendimiento medio de los colegios que
tienen padres con un alto nivel educativo en comparación con colegios en los que los padres
tienen un bajo nivel. Si bien los padres con niveles altos o intermedios de educación tienen una
influencia positiva en el rendimiento de las escuelas, la diferencia de rendimientos entre los
colegios con padres de nivel educativo intermedio y bajo es muy marginal y no significativa.
Esto también puede apreciase al pedir un reporte del rendimiento de las escuelas según el
nivel educativo de los padres.

svyby(~api00,~Ed,dmuesr,svymean)

## Ed api00 se
## (0.997,2.08] (0.997,2.08] 597 38.9
## (2.08,3.15] (2.08,3.15] 662 27.3
## (3.15,4.23] (3.15,4.23] 808 15.0

200 CAPÍTULO 5. UNA INTRODUCCIÓN AL MUESTREO COMPLEJO

5.6. Ejercicios
1. En cierto estudio se empleó un diseño complejo con el fin de estimar, entre otras cosas,
el ı́ndice de pobreza de una región. Para ello se seleccionaron, bajo este diseño, 10 familias,
cuyos ı́ndices de pobreza y pesos base de muestreo se muestran a continuación:

Índice 34.8 49.7 23.8 65.4 55.2 38.8 43.7 44.8 59.7 60.3
Peso 167.10 68.04 22.31 167.10 419.81 120 100 54.31 22.54 58.79

a) Un objetivo del estudio fue determinar los cuartiles de pobreza en esta población. Estime
tales cuartiles en base al diseño utilizado.
b) Estime la varianza de los ı́ndices de pobreza de la región.

2. Un embarque contiene 60 containers, los cuales transportan un total de 6000 cajas de

fruta. Para inspeccionar este embarque se decidió, en una primera etapa, seleccionar al azar
y con reemplazamiento 4 containers y luego, de cada container seleccionado (aunque sea
repetido), seleccionar al azar y sin reemplazamiento 3 cajas para registrar sus pesos. Si el
muestreo arrojó los siguientes resultados:

Container Número de cajas Peso (en kg) de las cajas en los

seleccionado en el container containers seleccionados
23 100 10.3, 12.2, 9.8
12 80 11.2, 13.1, 9.9
8 114 8.95, 15.3, 14.4
44 93 11.60, 10.53, 11.8

a) Muestre que la probabilidad de que un container cualquiera sea seleccionado en esta

inspección es 1 − ( 59
60
)4 .
b) Halle los pesos base de muestreo para cada caja seleccionada en la muestra.
c) Estime el peso promedio de las cajas de este embarque.
d) Estime el tercer cuartil de los pesos de todas las cajas de este embarque. Muestre en este
caso un código que le permita hallar tal cuartil sin usar uso del paquete survey.

3. Considere el diseño de la población penal dado en la sección 4.14.

a) Tome la muestra correspondiente y halle los pesos de muestreo para cada unidad selec-
cionada.
b) Una de las variables importantes en esta población es la situación jurı́dica del interno.
Estime, bajo este diseño, la proporción de internos sentenciados y el efecto de diseño corres-
pondiente.
c) Ajuste, de ser posible, los pesos en b) por no respuesta y estime, bajo estas nuevas
ponderaciones, la proporción de internos sentenciados.
5.6. EJERCICIOS 201

4. En data de dominio público es común, por cuestiones de confidencialidad u otros, no re-

portar la información completa del diseño y tan solo presentar (pseudo) estratos o conglome-
rados, cuyo análisis válido solo podrá hacerse a través de los pesos de muestreo consignados.
Como ejemplo consideremos la National Health Interview Survey del 2013, encuesta nacio-
nal de salud por entrevistas realizada en Estados Unidos. Una versión abreviada de ella se
encuentra en el archivo [Link] del paquete PracTools del libro de Valliant et al. (2013).
Esta contiene información de 18 variables sobre un total de 21 588 registros (personas) que
respondieron a la encuesta de salud. Más información sobre esta encuesta se encuentra en

[Link]

Al no tenerse información precisa sobre este diseño, podrı́amos considerar que la data pro-
viene de un diseño por conglomerados unietápico estratificado con 2 UPM por estrato. Un
aspecto de esta base es que hay varios casos sin respuesta para la variable [Link], la cual
reporta el ingreso categorizado de la familia del encuestado en dólares. Puesto que el porcen-
taje de casos perdidos para esta variable podrı́a ser alto, serı́a de interés ver cómo realizar
los ajustes de los pesos estimando las probabilidades de no respuesta.
a) Incluyendo solo a personas menores de 18 años, estime, mediante una regresión logı́stica,
las probabilidades de no respuesta para la variable de ingresos. Asuma que los pesos dados
son los pesos base y utilice 5 grupos para los ajustes.
b) Estime la distribución etárea en esta población, y para estimar sus errores estándar de
estimación utilice el método de linealización y todos los métodos de remuestreo estudiados.

5. Para la Encuesta Nacional de Ingresos y Gastos de los Hogares (ENIGH) del 2014 llevada
a cabo en México se empleó un diseño probabilı́stico, estratificado y por conglomerados
polietápico. Las unidades primarias de muestreo fueron constituidas por agrupaciones de
viviendas con caracterı́sticas diferenciadas dependiendo del estrato donde se ubicaban, las
unidades secundarias fueron las viviendas y la unidad de observación fue el hogar. Determine
el número de hogares a considerar en la ENIGH-2014 si se estimó que el número de hogares
para el 2014 en México fue de 31 374 724. Para ello considere como variable de referencia al
ingreso corriente total del hogar y que se desea estimar este con un error no mayor a los
1,068 pesos a un nivel de confianza del 90 %. Tome en cuenta que en la ENIGH-2012 se
utilizó un diseño similar y que en ella se estimó la desviación estándar de los ingresos por
hogar en 44 157.8329 pesos, un efecto de diseño de 3.73 y una tasa de no respuesta del 15 %.

6. Se desea realizar una encuesta por muestreo complejo para averiguar, entre otras cosas,
con un error no mayor a 0.07 y una confianza del 95 %, la proporción de satisfacción de los
trabajadores en su centro laboral para un determinado sector. Un estudio similar se realizó el
año pasado, y para este se reportó un efecto de diseño de 2.4 y un porcentaje de satisfacción
del 73 %. Si el marco actualizado de trabajadores del sector cuenta con 12 378 trabajadores,
¿cuál deberı́a ser el tamaño de muestra a considerar?
202 CAPÍTULO 5. UNA INTRODUCCIÓN AL MUESTREO COMPLEJO

7. Suponga que en el Casen 2011 estuviéramos interesados en estimar la tasa de pobreza

por región con un error de estimación de 0.5 puntos porcentuales menor al tomado en el
diseño Casen 2011. Calcule los tamaños de muestra que deberı́an tomarse para esta nueva
especificación. Utilice un nivel de confianza del 95 %.
8. Considere los siguientes resultados de una muestra con probabilidades proporcionales al
stock tomada para el problema 19 del capı́tulo 4:

Tienda Núm. de celulares Núm. de celulares Total de ventas Núm. de celulares

YTRON en stock vendidos del celular vendidos con rebaja
1 55 22 15 395 17
6 120 60 44 230 35
9 35 18 13 440 6
13 30 19 13 470 13
Estime la proporción de celulares YTRON vendidos con rebaja y el monto recaudado por
las ventas de estos celulares. Reporte, en el último caso, el error estándar de estimación
estimado.
9. En el siguiente ejemplo tomado de Lohr (2000) es de interés estimar la edad promedio de
los árboles de un parque. La manera más precisa de medir la edad de un árbol es contando el
número de anillos de crecimiento en su tronco. Este método, sin embargo, es complicado, por
lo cual alternativamente podrı́amos simplemente medir el diámetro del árbol. Un guardabos-
ques ha tomado la medida del diámetro de todos los 1132 árboles del parque y encontrado
una media de 10.3 pulgadas. Si, por otro lado, seleccionó al azar y sin reemplazamiento 20
árboles del parque para realizar la medición clásica y encontró lo siguiente:

Árbol N o . 1 2 3 4 5 6 7 8 9 10
Diámetro 12.0 11.4 7.9 9.0 10.5 7.9 7.3 10.2 11.7 11.3
Edad 125 119 83 85 99 117 69 133 154 168
Árbol N o . 11 12 13 14 15 16 17 18 19 20
Diámetro 5.7 8.0 10.3 12.0 9.2 8.5 7.0 10.7 9.3 8.2
Edad 61 80 114 147 122 106 82 88 97 99

a) Muestre un diagrama de dispersión del diámetro de los árboles seleccionados y la edad

obtenida por el método de los anillos.
b) Estime, sin tomar en cuenta el diámetro, la edad media de los árboles del parque.
c) Utilice un estimador de razón para estimar la edad media de los árboles del parque.
d) Ajuste un modelo de regresión entre la edad y el diámetro y use este modelo para la
estimación de interés. Compare esta estimación con la de las anteriores.
e) Use el método Jackknife para estimar la varianza del coeficiente de regresión en d). ¿Cómo
se compara este estimador con el obtenido con el método de linealización?
5.6. EJERCICIOS 203

10. Un parámetro de interés en la base de datos muestral apistrat del paquete survey es el
número total de estudiantes que tomaron el test api (variable [Link]).
a) Obtenga la estimación de Horvitz-Thompson del número de estudiantes que tomaron el
test api, ası́ como su error estándar de estimación.
b) Obtenga la estimación en a) con los métodos jackknife y bootstrap.
c) Obtenga a), pero ahora con un estimador de razón que utilice como variable auxiliar el
número total de alumnos matriculados.
d) Indique cuál de las dos estimaciones anteriores elegirı́a y por qué. Más aún, dado que
conoce la base de datos poblacional, compare también las dos estimaciones con el verdadero
valor del parámetro de interés.

11. En la subsección 5.4.2 describimos el estimador de razón y una aproximación de la

varianza de este estimador vı́a linealización.
a) Indique cuál cree que sea la la razón por la que el paquete survey, en la estimación de una
media bajo un muestreo por conglomerados bietápico, utiliza por defecto para la estimación
del error estándar la fórmula de un estimador de razón.
b) Muestre la validez de la fórmula (4.3) para la varianza del estimador de razón de la media
bajo un diseño por conglomerados bietápico.

12. Murgia (2018) realizó el primer estudio de adopción BIM en proyectos de edificación
en Lima y Callao. El BIM es un nuevo método de trabajo que integra a todos los agentes
que intervienen en un proceso de edificación, como arquitectos, ingenieros, constructores,
promotores, etc., y establece un flujo de comunicación trasversal entre ellos, generando un
modelo virtual que incluye toda la información relacionada con la edificación a lo largo de
su ciclo de vida. El estudio se basó en un muestreo por conglomerados bietápico, tomándose
como marco muestral el 22o . estudio “El Mercado de las Edificaciones Urbanas de Lima
Metropolitana y El Callao”(CAPECO, 2017) y una proyección y actualización del número
de obras para el tiempo de recolección de los datos. El marco muestral, unidades primarias
seleccionadas y unidades secundarias consideradas se muestran en la figura 5.2. Como se
aprecia, el universo de edificaciones en Lima y Callao se dividió en siete sectores urbanos
(estratos), que, a su vez, se subdividieron en distritos y zonas. Como se puede ver, Miraflores
y San Isidro se ubican en el sector urbano Lima Top. Sin embargo, Miraflores está dividido
en 2 zonas al igual que San Isidro. Los conglomerados de primera etapa fueron las zonas y
los de segunda las obras en cada una de las zonas. Si las repuestas en la encuesta acerca de
si en la obra se habı́a adoptado o no la metodologı́a BIM fueron, respectivamente, para cada
una de las obras mostradas en la figura 5.2 las siguientes: No No No Sı́ No Sı́ No No No Sı́ No
No No No No No No No Sı́ Sı́ Sı́ No No Sı́ No No Sı́ No Sı́ Sı́ No No No No No Sı́ No Sı́ No No No
Sı́ Sı́ No No No No No No Sı́ Sı́ No No No Sı́ No No Sı́ No No No No No No No Sı́ No No No No
No No No No Sı́ No No Sı́ No No No No No No No No No No Sı́ No No No Sı́ No No No No No
Sı́ No No No No No No No No No Sı́ No No Sı́ No No No Sı́ No No No No No No No No No No
No No No No Sı́ No No Sı́ No No No Sı́ No No No No No No Sı́ No No No Sı́ No Sı́ No Sı́ No No
5.6. EJERCICIOS 205

13. Suponga que en el 2016 el gobierno de la región de Cajamarca tenı́a interés en conocer,
entre otras cosas, la proporción de internos sentenciados, de reos que consumı́an drogas y
la distribución de tipos de delito cometidos por los internos de sus penales. Para ello se
diseñó una encuesta por muestreo que consideró a cada establecimiento penal como un do-
minio. El diseño definió como variable de estratificación al género de los internos del penal.
Por otro lado, dado que los penales en la región son bien diferenciados, siendo de lejos el de
Cajamarca el más grande (los otros dominios son Chota, Jaén y San Ignacio), el diseño consi-
deró seleccionar aquı́ una muestra ppt (proporcional al número de internos de cada pabellón)
de 4 pabellones para internos hombres (de un total de 9 pabellones que deberı́a considerar)
y solo 2 pabellones de internas mujeres. Finalmente, para los pabellones seleccionados de
hombres se tomó un MASs de 10 internos y en el de las de mujeres se entrevistaron a todas
las mujeres de los dos pabellones. Dado que los otros dominios contaban, con tan solo un
pabellón, en estos se procedió a tomar un MASs de 30 reos hombres por penal y censar a las
mujeres en estos penales. Tomándose la muestra correspondiente y considerándose el censo
penal del 2016 solo como marco muestral,
a) Estime para el dominio de Chota la proporción de internos sentenciados y su error estándar
de estimación.
b) Estime para el dominio de Cajamarca la proporción de internos sentenciados y su error
estándar de estimación.
c) Dé una estimación de los otros dos parámetros de interés tanto en Cajamarca como en
Chota.
d) ¿Cuál serı́a la estimación y el error estándar de estimación estimado para la proporción
de sentenciados en toda la región de Cajamarca?
e) ¿Podrı́a concluir, a un nivel de significación de α = 0.05 que en esta región existe asociación
entre el consumo de drogas de los internos y el tipo de delito cometido?

14. En un terreno se ha resembrado una especie de árbol y se desea estimar, entre otras cosas,
la altura promedio de estos árboles pasados 5 años de iniciada la reforestación. El terreno
se dividió en 50 lotes de tamaños similares, donde 30 lotes están bajo la administración de
una compañı́a privada y 20 bajo la administración de una compañı́a estatal. Suponga que
le brindan la información que aparece en el cuadro 5.2, donde se consignan las alturas en
centı́metros de un conjunto de árboles seleccionados mediante un MASs en cada uno de 5
lotes también seleccionados por un MASs dentro de cada administración, ası́ como el número
de árboles en cada lote seleccionado que mostraron ya algún signo de floración
a) Estime la altura promedio de los árboles en el terreno y su error de estándar de estimación.
¿Cuál serı́a la estimación de la desviación estándar de las alturas de estos árboles?
b) Estime la proporción de árboles en el terreno que muestran signos de floración y su error
de estándar de estimación.
c) Estime los efectos de diseño en las estimaciones anteriores.
206 CAPÍTULO 5. UNA INTRODUCCIÓN AL MUESTREO COMPLEJO

Administración Núm. Núm. Núm. Altura

de de árboles de árboles de los
árboles con floración muestreados árboles
Privada 52 30 5 32.72, 26.68, 29.42, 24.52, 34.04
Privada 56 35 6 25.43, 23.30, 18.32, 23.08, 20.68, 24.24
Privada 51 28 5 35.47, 37.18, 31.32, 29.08, 34.24
Privada 49 39 5 24.10, 27.50, 34.30, 30.88, 31.26
Privada 45 33 6 30.88, 27.78, 27.84,32.23, 28.83, 30.03
Estatal 60 26 6 16.47, 12.77, 17.28, 13.14, 15.53, 10.13
Estatal 46 25 5 17.62, 20.20, 17.73,18.21, 15.32
Estatal 50 37 5 14.86, 18.36, 14.82, 21.37, 17.09
Estatal 61 33 6 23.53, 26.66, 21.30, 22.76, 23.48, 23.26
Estatal 60 34 6 18.09, 25.29, 20.80, 22.96, 24.03, 25.23

Cuadro 5.2: Datos del diseño para el ejercicio 14

15. Se desea estimar el rendimiento medio en lectura de los estudiantes del segundo año
de educación secundaria de la provincia constitucional del Callao. Considere, como marco
muestral, la ECE 2019 y utilice un muestreo estratificado de conglomerados bietápico. Los
estratos estarán definidos por el tipo de gestión del colegio (Estatal y No estatal). En cada
estrato se considerarán conglomerados de primera etapa a los colegios y de segunda etapa
a los alumnos. Para simplificar, puede suponer que dispone de un presupuesto limitado que
solo alcanza para seleccionar a 30 colegios y a un máximo de 20 alumnos por colegio.
a) Obtenga una estimación del rendimiento medio en lectura de los estudiantes del segundo
año de secundaria del Callao, ası́ como su error estándar de estimación.
b) Obtenga una estimación del rendimiento medio en lectura de los estudiantes del segundo
año de secundaria por cada estrato, ası́ como sus errores estándares de estimación.
c) Si para el estrato estatal utiliza un muestreo con probabilidades proporcionales al número
de estudiantes, en la primera etapa, y un MASs de estudiantes en la segunda etapa, mejorı́a
su estimación del rendimiento medio en lectura?
d) Obtenga el número total estimado de profesores en los colegios del Callao. No tiene
que hacer aquı́ un trabajo de campo para obtener tal información, pero sı́ puede utilizar,
por ejemplo, la página web ESCALE del Ministerio de Educación que tiene información
actualizada de todos los colegios en el paı́s. Reporte aquı́ el intervalo de confianza al 95 %
para este total y estime el efecto de diseño.
5.6. EJERCICIOS 207

16. Suponga que para estimar el ı́ndice de rendimiento medio api para el año 2000 en la
población api, usted decide realizar un muestreo complejo que consiste en utilizar primero
un MAE usando como variable de estratificación el tipo de colegio y tomando luego, con
probabilidades proporcionales al tamaño (de la variable enroll), un muestreo por conglo-
merados de, respectivamente, 10 distritos con colegios de tipo elemental, 5 con colegios de
tipo medio y 5 con colegios de tipo alto.
a) Estime el ı́ndice de rendimiento medio api del 2000 para la población de escuelas públicas
de California y de sus estratos, ası́ como el ı́ndice que deberı́a haber obtenido una escuela en
ese año para ser considerado en el tercio superior.
b) Use, bajo este diseño, un análisis de regresión para analizar si la variable emer afecta al
ı́ndice api del 2000.
17. En el paquete survey de R tiene disponible la base de data poblacional elections, en donde
se muestran la cantidad de votos que los tres candidatos Bush, Kerry y Nader alcanzaron en
cada uno de los 4600 condados en su postulación para la presidencia de los Estados Unidos
en el 2004.
a) Use el método de Tillé para seleccionar una muestra sin reemplazamiento de 40 condados
con probabilidades proporcionales al número de votos alcanzados en estos. Adicione luego a
esta base de datos ppsample las probabilidades de selección y los pesos de muestreo wt.
b) Basándose en la muestra anterior y el diseño

ppsr <- svydesign(id=~1,weight=~wt, data = ppsample),

estime el total de votos que cada uno de estos candidatos alcanzó en las elecciones del 2004.
Indique qué es lo que este diseño asume.
c) Realice un pequeño estudio de simulación al replicar b) 1000 veces. Compare luego la
media de los totales estimados con los reales y obtenga intervalos de confianza al 95 % para
los totales poblacionales calculando la cobertura sobre los verdaderos valores.
d) Obtenga las estimaciones de Horvitz-Thompson para los totales pedidos y sus errores
estándar de estimación estimados. Compare estas con las estimaciones en b).
Apéndice A

Sugerencias o respuestas a los

ejercicios pares

Este apéndice incluye algunas sugerencias o soluciones a los ejercicios pares del texto. Para
efectos de reproducibilidad usaremos, en lo posible, la semilla aleatoria [Link](12345).
En caso de que esta semilla no sea consistente con su version particular de R, podrı́a tratar
antes con el comando RNGkind(sample_kind="Rounding").

Capı́tulo 1
2. a) Si X denota el número de vales de 50 soles que Juan obtendrá y la selección es
con reemplazamiento, entonces X ∼ B(4, 15 ). Si no hay reemplazamiento, X ∼ H(5, 1, 4).
Ası́ P (X ≥ 1) es mayor en el segundo caso, pues en R 1-dbinom(0,4,0.2)= 0.5904 y
1-dhyper(0,1,4,4)= 0.8.
b) Sea (X1 , X2 , X3 , X4 , X5 ) ∼ M ul(4; 0,2, 0,2, 0,2, 0,2, 0,2) el vector aleatorio que denota el
número de veces que ganarán 50 soles, respectivamente, Juan, Pepe, Rosa, Luis y Marı́a.
Entonces, marginalizando P (X1 = 1, X3 = 2) = 0.0576. Esta no coincide con la probabilidad
P (X1 = 3) = 0.0256 de que Juan gane 300 soles.
c) Considerando a Rosa y Luis como una sola categorı́a, su distribución para el número de
vales ganados entre los dos es binomial y, por tanto, la probabilidad de que ellos ganen los
4 sorteos es ( 25 )4 = 0.0256.
d) El monto que Juan obtendrá es M = 50X1 y su esperado es de 40 soles.
4. a) Sea (X1 , X2 , X3 ) el vector aleatorio cuyas componentes denotan, respectivamente, el
número de artı́culos con defectos de tipo A, B y sin defecto en la muestra de los 20 artı́culos
de la producción. Por construcción, (X1 , X2 , X3 ) ∼ HM ul(20; 12, 8, 180) y la utilidad por
vender estos artı́culos es U = 25X3 − 5X1 − 10X2 . Se pide

P (U = 400) = P (25(20 − X1 − X2 ) − 5X1 − 10X2 = 400) = P (500 − 30X1 − 35X2 = 400)

209
210 APÉNDICE A. RESPUESTAS A LOS EJERCICIOS PARES

= P (6X1 + 7X2 = 20) = P (X1 = 1, X2 = 2, X3 = 17).

Esto se calcula en R por

choose(12,1)*choose(8,2)*choose(180,17)/choose(200,20)

## [1] 0.0587

b) Por otro lado, el valor esperado de U en soles es

180 12 8
E(U ) = 25E(X3 ) − 5E(X1 ) − 10E(X2 ) = 25 × 20 × − 5 × 20 × − 10 × 20 × = 436,
200 200 200
mientras que la varianza de U es igual a

V (U ) = 625V (X3 )+25V (X1 )+100V (X2 )−250Cov(X3 , X1 )−500Cov(X3 , X2 )+100Cov(X1 , X2 )

3600
= (625(180)(20) + 25(12)(188) + 100(8)(192) + 250(180)(12)
7 960 000
+500(180)(8) − 100(12)(8)) = 1678.07.
Por tanto, la desviación estándar de las utilidades es de 40.96426 soles.
6. El número de personas entrevistadas en la encuesta más pequeña, que ya habı́an sido
entrevistadas en la encuesta más grande, X, satisface X ∼ H(50, 20, 10). Por tanto, su valor
esperado y varianza vienen dados, respectivamente, por E(X) = 4 y V (X) = 1.959.
8. a) Denotemos a Xi como la v.a. que nos dice cuántas cápsulas del medicamento genérico
contiene la caja i, i = 1, 2, 3, 4. Naturalmente, X1 ∼ H(24, 4, 6).
b) Se nos pide P (X3 = 4). Dado que la selección se hace secuencialmente, podrı́amos rees-
cribir esta probabilidad como

P (X3 = 4) = P (X3 = 4 | X1 = 0, X2 = 0)P (X2 = 0 | X1 = 0)P (X1 = 0)

C44 C28 C04 C614 C04 C620 C44 C220

= × × = = 0.001411632.
C612 C618 C624 C624
Esta probabilidad es la misma de considerarse la caja 1 o cualquier otra caja.
c) Vimos que X1 ∼ H(24, 4, 6), consecuentemente su distribución de probabilidades es

dhyper(0:4,4,20,6)

## [1] 0.28797 0.46076 0.21598 0.03388 0.00141

Por otro lado, la función de probabilidad de X2 se puede hallar al condicionar sobre X1

mediante
211

P2 <-function(x){
x1 = c(0,1,2,3,4)
sum(dhyper(x,4-x1,14+x1,6)*dhyper(x1,4,20,6))}

Similarmente, condicionándose a las selecciones previas, las funciones de probabilidad de

X3 y X4 se obtienen mediante las funciones

P3 <-function(x){
A = matrix(0,5,5)
for(x1 in 0:4){
for(x2 in 0:(4-x1)){
ax1 = dhyper(x,4-x1-x2,8+x1+x2,6)*dhyper(x2,4-x1,14+x1,6)
A[x1+1,x2+1]=ax1*dhyper(x1,4,20,6)}}
sum(A)}

P4 <-function(x){
A = array(0,dim = c(5,5,5))
for(x1 in 0:4){
for(x2 in 0:(4-x1)){
for(x3 in 0:(4-x1-x2)){
ax2 = dhyper(x,4-x1-x2-x3, 2+x1+x2+x3,6)*dhyper(x3,4-x1-x2,8+x1+x2,6)
A[x1+1,x2+1,x3+1]=ax2*dhyper(x2,4-x1,14+x1,6)*dhyper(x1,4,20,6)}}}
sum(A)}

Como se comprueba con, por ejemplo, X4

c(P4(0),P4(1),P4(2),P4(3),P4(4))

## [1] 0.28797 0.46076 0.21598 0.03388 0.00141

todas estas funciones nos brindan la misma distribución que la de la variable aleatoria X1 .
d) Como el rango del vector (X1 , X2 , X3 , X4 ) son los números naturales cuya suma es 4, se
tiene que

PX1 X2 X3 X4 (x1 , x2 , x3 , x4 ) = P (X4 = x4 | X1 = x1 , X2 = x2 , X3 = x3 )P (X3 = x3 | X2 = x2 , X1 = x1 )

×P (X2 = x2 | X1 = x1 )P (X1 = x1 )
1 −x2 8+x1 +x2 14+x1
Cx4−x C6−x Cx4−x 1
C6−x C 4 C 20 C6 C6 C6 C6
= 1x4 (x4 ) 3
12
3
× 2
18
2
× x1 246−x1 = x1 x2 24x3 x4 .
C6 C6 C6 C4
212 APÉNDICE A. RESPUESTAS A LOS EJERCICIOS PARES

e) Sea Y la v.a. que denota el número de cajas que contienen alguna cápsula genérica. El
rango de esta v.a es RY = {1, 2, 3, 4} y se tiene que

P (Y = 1) = P (X1 = 4)+P (X2 = 4)+P (X3 = 4)+P (X4 = 4) = 4P (X1 = 4) = 0.005646527.

P (Y = 2) = C24 P (X1 = 2, X2 = 2, X3 = 0, X4 = 0) + C24 P (X1 = 1, X2 = 3, X3 = 0, X4 = 0)

+C24 P (X1 = 3, X2 = 1, X3 = 0, X4 = 0) = 0.2625635.
P (Y = 4) = P (X1 = 1, X2 = 1, X3 = 1, X4 = 1) = 0.121965
y, por complemento, P (Y = 3) = 0.609825.
10. Formalmente, (Xi , Xj , Xm , Xo ) ∼ Hmul(n; Mi , Mj , Mm , N − Mi − Mj − Mm ), donde Xo
denota los elementos seleccionados en la muestra que no pertenecen a las clases i, j, ni m;
sin embargo, para cualquier x1 , x2 y x3 entero, siempre se cumple que
3

P (Xi = x1 , Xj = x2 , Xm = x3 ) = P (Xi = x1 , Xj = x2 , Xm = x3 , Xo = n − xi )
i=1

M N −M −Mj −Mm
CxM1 i Cx2 j CxM3 m Cn−3i
i=1 xi
= .
CnN
Decir, por tanto, que el vector aleatorio (Xi , Xj , Xm ) tiene distribución hipergeométrica
multivariada no es en verdad cierto, aun cuando su distribución se derive de esta última. La
función de probabilidad del vector (Xi , Xj , Xm ) viene dada por la expresión anterior.
6
12. Para encontrar el estimador, propongamos uno lineal de la forma p̂ = i=1 ci Xi δi .
1
6 n i Mi
Condicionando al vector (δ1 , δ2 , . . . , δ6 ), E(p̂) = 6 i=1 ci Ni . El valor de la constante ci

que hace que este sea insesgado es, por tanto, ci = nNi N̄i , donde N̄ = 16 6i=1 Ni . El estimador
insesgado de p es por tanto,
6
1
p̂ = Ni p̄i δi .
N̄ i=1
La varianza de este estimador viene, por la proposición 1.5, dada por

V (p̂) = E (V (p̂ | δ1 , . . . , δ6 )) + V (E(p̂ | δ1 , . . . , δ6 )) .

Como las muestras a tomar en cada caja se pueden asumir independientes, se tendrá que
6 6
1 2 2 1 1 Mi Mi Ni − ni 2 2
V (p̂ | δ1 , . . . , δ6 ) = V (p̄ i )Ni δ i = (1 − )( )N δ
2
N̄ i=1 2
N̄ i=1 ni Ni Ni Ni − 1 i i

y ası́,
6 6
1 1 Mi Mi Ni − ni 2 1 1 Mi (Ni − Mi )(Ni − ni )
E (V (p̂ | δ1 , . . . , δ6 )) = 2 (1− )( )N = .
N̄ i=1 ni Ni Ni Ni − 1 i 6 6N̄ 2 i=1 ni (Ni − 1)
213

1
6
Por otro lado, como E(p̂ | δ1 , . . . , δ6 ) = N̄ i=1 Ni pi δi , se tiene que
 
6 6 6
1  

V (E(p̂ | δ1 , . . . , δ6 )) = N 2 2
p V (δ ) + Ni Nj pi pj Cov(δi , δj )
N̄ 2  i=1 
i i i
i=1 j=1
i=j
 
6
6
6
1  5

= Ni2 p2i − Ni Nj p i p j 
.
36N̄ 2  i=1 i=1 j=1
i=j

Por tanto, la varianza pedida viene dada por

 
6
6
6
6
1   Mi (Ni − Mi )(Ni − ni ) 5 1 
V (p̂) =  + Ni2 p2i − Ni N j p i p j 
.
6N̄ 2
i=1
ni (Ni − 1) 6 i=1
6 i=1 j=1
i=j

14. a) Si X denota la cantidad de personas encuestadas de las tres primeras instituciones,

entonces X ∼ H(M, M1 + M2 + M3 , n), donde M = N i=1 Mi . Se pide

CnM1 +M2 +M3

P (X = n) = .
CnM
b) Similarmente, sea Y la v.a. que denota el número de personas encuestadas de la primera
M1
institución. Entonces Y ∼ H(M, M1 , n) y P (N e = 1) = P (Y = n) = CCnM , donde M1 ≥ n.
n
N
c) Como se sugiere, la v.a. N e se puede escribir como N e = 1 , don-
Ni=1 {Xi >0}
de (X1 , X2 , . . . , XN ) ∼ Hmul(M ; M1 , M2 , . . . , MN ). Ası́, E(N e) = i=1 E(1{Xi >0} ) =
N N N M −Mi
Cn
i=1 P (Xi > 0) = i=1 (1 − P (Xi = 0)) = i=1 (1 − Cn M ).
d) La probabilidad de que la muestra esté constituida solo por participantes de las tres
28
C16
primeras instituciones es P (X = 16) = C 100 = 2.26 × 10−11 . Por otro lado, P (N e = 1) =
16
17
C16
100
C16
= 1.263 × 10−17 . Se espera, por otro lado, entrevistar a personas de aproximadamente

x = c(17 , 8 , 3 , 4 , 6 , 9 , 12 , 14 , 1 , 2 , 1 ,4 , 2 , 10 , 2 , 5)
round(sum(1-choose(100-x,16)/choose(100,16)))

## [1] 9

instituciones, donde x denota el vector del número de personas por institución. Finalmente,
para que N e = 2 deberı́an seleccionarse cualesquiera de los siguientes conjuntos de institu-
ciones {8, 10}, {8, 13}, {8, 15}, {7, 4}, {7, 12} y {14, 5}. Por tanto, utilizándose la distribución
hipergeométrica multivariada, se tendrá que

P (N e = 2) = P (X8 = 14, X10 = 2, X0 = 0) + P (X8 = 14, X13 = 2, X0 = 0)

214 APÉNDICE A. RESPUESTAS A LOS EJERCICIOS PARES

+P (X8 = 14, X15 = 2, X0 = 0) + P (X7 = 12, X4 = 4, X0 = 0)

+P (X7 = 12, X12 = 4, X0 = 0) + P (X14 = 10, X5 = 6, X0 = 0),
donde X0 denota el número de personas encuestadas de las otras instituciones no considera-
das al interior de las probabilidades. Note que todas estas probabilidades son las mismas e
1 6
iguales a C 100 y, por tanto, P (N e = 2) = C 100 = 4.458 × 10−18 .
16 16

16. a) Si X denota el número de parqueos que tendrá que pagar el turista, se tiene que
X ∼ H(12, 9, 4) y, por tanto, su valor esperado es E(X) = 4×9
12
= 3.
b) Para simular se puede usar la función rhyper

[Link](12345)
rhyper(1,9,3,4)

## [1] 3

Otra manera es mediante

[Link](12345)
min(which(phyper(0:4,9,3,4)>runif(1)))-1

## [1] 3

c) No es adecuada, pues la selección de parques en el lazo (for) es con reemplazamiento y se

dice que el turista elige 4 de los 12 parques.

Capı́tulo 2
2. a) Note que X ∼ H(N, m, n). Un desarrollo de Taylor de segundo orden para N̂1 alrededor
de la media de X, µ = E(X) = nmN
, nos da la aproximación
nm nm 2nm
N̂1 = − 2 (X − µ) + 3 (X − µ)2 .
µ µ µ
Tomando el valor esperado obtendremos la primera expresión a probar. En cuanto a la
varianza de N̂1 , podrı́amos considerar solo el desarrollo de primer orden y obtener, tomando
varianzas a esta, la aproximación
n2 m2 N4 m m N −n N 2 (N − m)(N − n)
V (N̂1 ) = V (X) = n (1 − ) = .
µ4 n2 m2 N N N −1 nm(N − 1)
m m mr
b) Note que Y ∼ BN (r, p = N
), luego E(N̂2 ) = r
E(Y )= r p
= N . Similarmente,

m2 m2 r(1 − p) N (N − m)
V (N̂2 ) = 2
V (Y ) = 2 = .
r r p2 r
215

Por otro lado,

m2 2 m2 r(1 − p) r2 r2 N (N − m)
E(V̂ (N̂2 )) = 2
(E(Y ) − rE(Y )) = 2
( 2
+ 2 − )= .
r (r + 1) r (r + 1) p p p r

Una desventaja del muestreo inverso es que el número de selecciones hasta obtener los r
elementos marcados puede ser grande, lo cual hace que este sea costoso y tome mucho
tiempo.
c) N̂1 = 500 y N̂2 = 508. Reemplazando en V (N̂1 ), N por su estimación N̂1 y usando V̂ (N̂2 ),
obtendremos
V̂ (N̂1 ) = 48 097.95 y V̂ (N̂2 ) = 41 318.95.
En esta aplicación, el muestreo inverso parece ser más preciso.
4. a) Si es un estimador insesgado.
σ2 2nc2
b) V (Ȳc ) = (1 − Nn )( Nn−1 + N −1
).
c) No hay contradicción.
6. Recordemos que toda muestra en un MASc puede representarse por un vector
(δ1 , δ2 , . . . , δN ), donde δi denota el número de veces que la unidad i es seleccionada. Es-
tas v.a. toman valores en el conjunto {0, 1, 2, . . . , n} y satisfacen

δ1 + δ2 + . . . + δN = n.

Si identificamos ahora a cada valor entero positivo por igual número de barras verticales
y mantenemos los signos +, podrı́amos, entonces, identificar cada muestra por una única
secuencia de barras verticales y signos +. Por ejemplo, si N = 9 y n = 6 una posible muestra
es que la primera unidad sea elegida 3 veces, la cuarta 2 veces y la octava una vez; esto es:

(3, 0, 0, 2, 0, 0, 0, 1, 0),

pues
3 + 0 + 0 + 2 + 0 + 0 + 0 + 1 + 0 = 6.
Ası́, esta muestra se representará por la secuencia

||| + + + || + + + +|+

Consecuentemente, el número total de muestras que se podrán obtener en un MASc es igual

al número de maneras que podrı́amos ordenar estas secuencias, donde se tienen n caracteres
repetidos de tipo | y N − 1 caracteres repetidos de tipo +. Esto es bien conocido y viene
dado por la cantidad de permutaciones con elementos repetidos; es decir, por

(N + n − 1)!
= CnN +n−1 .
n!(N − 1)!
216 APÉNDICE A. RESPUESTAS A LOS EJERCICIOS PARES

8. a) Usando la regla conservadora p̄ = 0.5, se tiene que n = 86.

b) (XA , XB , XC , XD ) ∼ HM ul(86; 10, 20, 8, 682) denota el número de fábricas que serán
seleccionadas de cada consorcio y D para los que no están en un consorcio. En particular,
XB ∼ H(720, 20, 86) y P (XB > 0) = 1 − P (XB = 0) = 0.9242674.
c) El valor esperado es 107.75 o aproximadamente 108.
10. a) Nn .
b) NM−n .
c) Definiendo los eventos Ai y Bi como, respectivamente, yo y mis padres seamos seleccio-
nados en el i-ésimo dı́a, se nos pide

P (A1 ∩ B1 ) + P (A2 | Ac1 ∩ B1 )P (Ac1 ∩ B1 ) + P (B2 | A1 ∩ B1c )P (A1 ∩ B1c )

+P (A2 ∩ B2 | Ac1 ∩ B1c )P (Ac1 ∩ B1c ).

Condicionando aquı́ las probabilidades condicionales del segundo dı́a con respecto a la v.a.
X =número de viviendas que no responden el primer dı́a ∼ B(n, q), se sigue que esta
probabilidad viene dada por N (Nn−1) (n − 1 + 4nq + (n − 1)q 2 ).
d) Podrı́amos agregar la v.a Y = número de viviendas que responden el segundo dı́a. Note
que Y | X = x ∼ B(x, 1 − q). Ası́, la probabilidad de que se complete el tamaño de muestra
planificado viene dada por
n

P (Y = x | X = x)P (X = x) = (1 − q 2 )n
x=0

y la probabilidad pedida es 1 − (1 − q 2 )n .
e) 0.3027767.
12. a) Considere la primera caracterización de S 2 y sume y reste Ȳ al interior de (Yi − Yj )2 .
Desarrollando el cuadrado y operando es inmediato llegar a la fórmula tradicional de S 2 .
b) En un MASc,

n n n n
2 1 1
E(S ) = E(Yi − Yj )2 = V (Yi − Yj )2 .
2n(n − 1) i=1 j=1 2n(n − 1) i=1 j=1
i=j i=j

n n n n
1 1
= (V (Yi ) + V (Yj ) − 2Cov(Yi , Yj )) = 2σ 2 = σN
2
.
2n(n − 1) i=1 j=1 2n(n − 1) i=1 j=1 N
i=j i=j

Por otro lado, en un MASs,

n n n n
1 1 σ2
E(S 2 ) = (V (Yi )+V (Yj )−2Cov(Yi , Yj )) = 2
(σN +2N +2 N −1 )
2n(n − 1) i=1 j=1 2n(n − 1) i=1 j=1 N
i=j i=j
217

2
2 σN −1 2
= σN + = σN −1 .
N
c) Basta tomar el lı́mite cuando N → ∞.
14. a) La función de probabilidad de X es PX (x) = CxN ( N1 )5 ax , donde

ax = 11x=1 (x) + 301x=2 (x) + 1501x=3 (x) + 2401x=4 (x) + 1201x=5 (x).

b) Podrı́a definir la variable dicotómica δi∗ = 1δi >0 , donde δi ∼ B(5, N1 ), y expresar el esti-

mador como τ̂ ∗ = C N ∗
i=1 yi δi . Sobre la base de ello, la constante que hace a este estimador
insesgado es C = 1−q , donde q = (1 − N1 )5 .
1

c) La varianza de este estimador viene dada por

N N N
∗ q 2 (1 − N2 )5 − q 2
V (τ̂ ) = y +( ) yi yj .
1 − q i=1 i (1 − q)2 i=1 j=i

d) El código

F = (1:15)/15
u = c(0.327, 0.894, 0.131, 0.289, 0.643)
m = NULL
for(i in 1:5) m[i] = min(which((F>u[i]) == TRUE))
m

## [1] 5 14 2 5 10

nos dice que la muestra está conformada por 4 personas distintas.

N ∗
16. a) Sea yi∗ = yi γi , entonces E(τ̂d ) = Nn N ∗
i=1 yi E(δi ) = i=1 yi = τd .
b) Dado que los datos de y ∗ los podemos particionar en dos subconjuntos de tamaños Nd y
N − Nd , donde el primero contiene los datos del dominio y el segundo son todos 0, la media
µ∗d de estos datos es µ∗d = NN d µd
y su varianza satisface

2 1
σ∗d = ((Nd − 1)σd2 + (N − Nd − 1) × 0 + Nd µ2d + (N − Nd ) × 0 − N µ2∗d )
N −1
1
= ((Nd − 1)σd2 + qd Nd µ2d ).
N −1
c) Como τ̂d = N Ȳd , donde Ȳd es la media muestral en la población estadı́stica Py∗ , se tiene
por la proposición 2.2 que
n σ2
V (τ̂d ) = N 2 (1 − ) ∗d ,
N n
2
siendo σ∗d la varianza poblacional de Py∗ .
218 APÉNDICE A. RESPUESTAS A LOS EJERCICIOS PARES

d) Basta reemplazar b) en c) y considerar la fórmula del tamaño de muestra de un total

2
z1− 2 2
α σ∗d N
sobre la población Py∗ : n = N z2 2α σ2 +e2 , la cual se obtiene del de la media, redefiniendo el
1− 2 ∗d
error.
e) Solo considerar en la fórmula anterior que e = Nd µd z1− α2 CV0 y aproximar de manera
natural las fracciones de los tamaños en la población total y del dominio.
f) Se nos brindan las estimaciones µ̂d = 5100 y σ̂d = 380, con lo cual la estimación actual del
consumo total de agua en la zona será de 15 millones y 300 000 litros. Dado que desconocemos
Nd (asumiendo que en el trabajo de campo no hubo presupuesto para obtener este valor),
podrı́amos usar la aproximación dada en d) con las estimaciones anteriores y p̄d = 0.6. Ası́,
el tamaño de muestra requerido será de n = 204 viviendas.
18. a) El tamaño de muestra requerido se calculará sobre la base de las estimaciones del
mismo ı́ndice en 1999 como:

N = dim(apipop)[1]
z = qnorm(0.975)
mu0 = mean(apipop$api99)
s0 = sd(apipop$api99)
e = mu0*z*0.03
n = (N*(z*s0)^2)/((z*s0)^2 + N*e^2)
(n = ceiling(n))

## [1] 49

El diseño y las estimaciones son

[Link](12345)
muestra = apipop[sample(N,n),]
dism = svydesign(ids= ~1,fpc= rep(N,n),data = muestra)
(m = svymean(~api00,dism))

## mean SE
## api00 646 17.9

(svytotal(~enroll,dism,[Link]=T))

## total SE
## enroll 3853806 395991

(svyby(~api00, ~stype, dism, svymean))

219

## stype api00 se
## E E 650 20.4
## H H 665 38.1
## M M 581 66.5

siendo los verdaderos valores de estos parámetros los siguientes:

mean(apipop$api00)

## [1] 665

sum(apipop$enroll,[Link]=T)

## [1] 3811472

[Link](by(apipop$api00,apipop$stype,mean))

## apipop$stype
## E H M
## 672 634 656

Note que el error de estimación en la estimación del api00 es |645.65 − 664.7126| = 19.0626,
que es menor al preestablecido de 37.1558 puntos. Por otro lado, se tiene el CV estimado y
el intervalo de confianza al 95 % para la media siguientes:

(CV = [Link](100*SE(m)/coef(m)))

## [1] 2.76

confint(m)

## 2.5 % 97.5 %
## api00 611 681

último que contiene a la verdadera media del ı́ndice api 2000.

20. a) Basta desarrollar
N N N N
1 1 1
Cov( xi δ i , yj δ j ) = 2 ( xi yj Cov(δi , δj )),
n i=1 n j=1 n i=1 j=1

recordando que (δ1 , δ2 , . . . , δN ) ∼ Hmul(n; 1, . . . , 1).

220 APÉNDICE A. RESPUESTAS A LOS EJERCICIOS PARES

b) Un estimador natural para esta covarianza estará dada por

ˆ X̄, Ȳ ) = (1 − n ) Sxy ,
Cov(
N n
donde:
N
1
Sxy = (xi − X̄)(yi − Ȳ )δi
n − 1 i=1
es la covarianza muestral entre x e y. No es difı́cil mostrar que este es un estimador insesgado
de la covarianza anterior.
22. a) Utilizando el paquete survey

[Link](12345)
(index1 = sample(100,20))

## [1] 73 87 75 86 44 16 31 48 67 91 4 14 65 1 34 40 33 97 15 78

Las áreas de los rectángulos seleccionados son

aream=c(10,48,8,12,40,24,54,54,56,40,10,8,14,12,50,20,3,42,6,30)
areas1 = [Link](aream)

y las estimaciones pedidas las calculamos mediante

disMASs = svydesign(id=~1,fpc = rep(100,20),data=areas1)

(m1 = svytotal(~aream, disMASs))

## total SE
## aream 2705 379

confint(m1,level=0.98)

## 1 % 99 %
## aream 1823 3587

b) Para el MASc tenemos

[Link](12345)
(index2 = sample(100,20,replace=TRUE))

## [1] 73 88 77 89 46 17 33 51 73 99 4 16 74 1 40 47 39 41 18 96
221

aream=c(10,36,100,18,21,56,3,49,10,60,10,24,27,12,20,8,30,45,56,6)
areas2 = [Link](aream)
disMASc = svydesign(ids=~1,weights = rep(5,20),data=areas2)
(m2 = svytotal(~aream, disMASc))

## total SE
## aream 3005 549

confint(m2,level=0.98)

## 1 % 99 %
## aream 1728 4282

24. a) Con los datos dados creamos la base de datos [Link]. Las estimaciones pedidas
se obtendrán mediante el código

load("[Link]")
disTS = svydesign(id=~1,fpc=rep(700,35),data = TallaS)
m = svymean(~Estatura,disTS)
svyvar(~Estatura,disTS)

## variance SE
## Estatura 0.00721 0

svymean(~Sexo,disTS)

## mean SE
## SexoHombre 0.686 0.08
## SexoMujer 0.314 0.08

b) El error será

[Link](qnorm(0.975)*SE(m))

## [1] 0.0274

c) No serı́a adecuado.
2
z1− 2
ασ N
σ 2 /µ2
d) n = 2
2
z1− α σ +e2 N
2 = σ 2 /((N µ2 )+CV02 )
. Estimando los parámetros µ y σ 2 con los datos de la
2
muestra y fijándose CV0 = 0.005, obtendremos que n = 84.
26. a) 0.024451.
222 APÉNDICE A. RESPUESTAS A LOS EJERCICIOS PARES

b) EL IC contiene a 0.5, por lo cual no podrı́a asegurarse que el candidato opositor vaya a
ganar las elecciones.
28. a) El código en R serı́a

[Link](12345)
N = dim(apipop)[1]
n = 500
index = sample(N,n)
sample = apipop[index,]
disMASs = svydesign(id=~1,fpc=rep(N,n),data = sample)
means = svymean(~api00+api99,disMASs)
(contr = svycontrast(means,c(api00=1,api99=-1)))

## contrast SE
## contrast 30.5 1.23

b) Se nos pide

confint(contr)

## 2.5 % 97.5 %
## contrast 28.1 32.9

c) Considere la variable d = y − x, que es la diferencia entre los ı́ndices api para el 2000
y 1999. El TLC para el esquema MASs de la sección 2.2 permitirá, asumiendo muestras y
poblaciones grandes, construir el siguiente IC al 100(1 − α) % para la diferencia de medias
del ı́ndice api entre el 2000 y 1999:

IC = [D̄ − z1− α2 SE(D̄) , Ȳ + z1− α2 SE(D̄) ],

donde el error estándar de estimación de la diferencia de medias SE(D̄) = V (D̄) =

V (X̄) + V (Ȳ ) − 2Cov(X̄, Ȳ ) podrı́a estimarse, según la proposición 2.2 y el ejercicio 20,
por
ˆ D̄) = 1 (1 − n )(Sx2 + Sy2 − 2Sxy )
SE(
n N
Realizando los cálculos, obtendremos

Dbar = mean(sample$api00 - sample$api99)

Sx2 = var(sample$api99)
Sy2 = var(sample$api00)
Sxy = cov(sample$api99,sample$api00)
223

e = 1.96*sqrt((1 - n/N)/n)*sqrt(Sx2+Sy2-2*Sxy)
c(Dbar-e,Dbar+e)

## [1] 28.1 32.9

valores que son prácticamente iguales a los obtenidos con el paquete survey.

Capı́tulo 3
2. a) Un estimador insesgado natural de µD es µ̂D = Ȳ1 − Ȳ2 y el de su error estándar de
estimación es
n1 S12 n2 S22
V̂ (µ̂D ) = (1 − ) + (1 − ) .
N1 n 1 N2 n 2
b) Bastará resolver
2 σ2
n 1 σ1
mı́nn1 ,n2 (1 − )
N1 n 1
+ (1 − Nn22 ) n22 ,
s.a n 1 + n2 = n

cuya solución es n1 = σ1σ+σ

1n
2
y n = n − n1 = σ1σ+σ
2n
2
.
c) Puesto que no se tienen las varianzas poblacionales, podrı́amos resolver el problema ante-
rior con el estimador insesgado V̂ (µ̂D ) y obtener las estimaciones n1 = S1S+S 1n
2
= 44..128+3
128×300
.46 =
163.2051 y n2 = n − n1 = 136.7949. Sin embargo, como este es en verdad un problema de
programación entera, deberı́amos de evaluar en la función objetivo las dos posibles soluciones
163 y 164 para n1 y escoger la que la minimice. Ellos nos brinda n1 = 163 y n2 = 136.
nh Sh
2
4. Puesto que en un MAE, Ȳ y V̂ (Ȳ ) = H Nh 2
h=1 ( N ) (1 − Nh ) nh son, respectivamente, estima-
dores insesgados de los parámetros µ y V (Ȳ ) en la población estadı́stica Py de una variable
y, se tiene que
H Nh
(N − n) 1 Nh
E(V̂M ASs (Ȳ )) = ( y 2 E(δhi ) − E(Ȳ 2 ) + V (Ȳ ))
n(N − 1) N h=1 nh i=1 hi
H Nh 2
2 2
2
(N − n) yhi (N − n) σN −1 (N − 1) + N µ n σN
= ( h=1 i=1 2
−E(Ȳ ) ) = − µ2 = (1− ) −1 .
n(N − 1) N n(N − 1) N N n
6. Utilizando la semilla aleatoria [Link](12345) y una asignación proporcional obtendre-
mos en R una estimación del total de 2935 unidades, con un error de estimación estimado de
176.71. El IC pedido será [2523.914 , 3346.086]. Si bien la estimación con el MASc es, por
azar, ligeramente más cercana al verdadero valor, hay que apreciar que el MAE nos brinda
estimaciones más confiables que la del MAS, pues su error estándar de estimación estimado
es mucho menor.
224 APÉNDICE A. RESPUESTAS A LOS EJERCICIOS PARES

8. a) Si X = (X1 , X2 , . . . , XH ) ∼ Hmul(n; N1 , N2 , . . . , NH ) es el vector aleatorio que denota

los tamaños de muestra en los pos(estratos), entonces la distribución marginal de Xh es
hipergeométrica y por tanto E(Xh ) = n NNh y V (Xh ) = n NNh (1 − NNh ) N −n
N −1
. Ası́,

H
H

Nh Nh
E(Ȳ ) = E(Ȳh ) = E(E(Ȳh |Xh )) = µ,
h=1
N h=1
N

donde:

E(E(Ȳh |Xh )) = E(Ȳh |Xh = nh )P (Xh = nh ) = µh P (Xh = nh ) = µh ,
nh nh

la suma va sobre todos los posibles valores que puede tomar la distribución hipergeométri-
ca marginal de Xh y la última igualdad se da por ser Ȳh un estimador condicionalmente
insesgado de µh .
b) Puesto que

H H
Nh Xh σh2 Nh 1 1
V (Ȳ |X) = ( )2 (1 − ) = ( )2 σh2 ( − ),
h=1
N Nh X h h=1
N X h Nh

la varianza (no condicionada) de Ȳ puede obtenerse mediante

H
Nh 1 1
V (Ȳ ) = E(V (Ȳ |X)) + V (E(Ȳ |X)) = ( )2 σh2 (E( ) − ).
h=1
N X h N h

c) N̂h = Nn Xh .
d) Como E( X1h ) no tiene expresión conocida, podrı́amos considerar la expansión de Taylor
de la función f (x) = x1 evaluada en Xh hasta la segunda derivada alrededor de E(Xh ) y
tomar esperados para obtener la aproximación:

1 ∼ 1 1 N N 2 Nh N − n
E( )= + 3
V (Xh ) = +( ) (1 − ) .
Xh E(Xh ) E(Xh ) nNh nNh N N −1

Substituyendo la expresión anterior en V (Ȳh ) = E(V (Ȳh )) = (E( X1h ) − 1

Nh
)σh2 , obtendremos
que

H H H
Nh N − n Nh 2 1 N − n N − Nh 2
V (Ȳ ) = ( )2 V (Ȳh ) ∼
= ( )σh + 2 ( ) ( )σh .
h=1
N nN h=1 N n N − 1 h=1 N

e) Los estimadores incondicionales y condicionales se calculan respectivamente con

225

[Link](12345)
N = dim(apipop)[1]
n = 100
index1 = sample(N,n)
sam = apipop[index1,]
FreqNh = table(awards=apipop$awards)
Nh = [Link](FreqNh)
Sh = [Link](by(sam$api00,sam$awards,sd))
Vc = ((N-n)/(n*N))*sum((Nh/N)*Sh^2)
Vi = Vc + ((N-n)/((N-1)*n^2))*sum((N-Nh)*Sh^2/N)
c(Vi,Vc)

## [1] 159 158

Cabe comentar que el paquete survey no utiliza estos estimadores, sino uno propuesto
por Valliant (1993) basado en residuales. Este nos provee de la siguiente estimación de la
varianza de la media bajo post-estratificación:

disMASs = svydesign(ids=~1,fpc=rep(N,n),data = sam)

dispost = postStratify(disMASs,~awards,FreqNh)
m = svymean(~api00,dispost)
SE(m)^2

## api00
## api00 165

10. a) La probabilidad es 0.1328151.

b) Dado que en la muestra piloto se tiene información estimada de las proporciones, suge-
rirı́amos una asignación de Neyman, lo que nos da n = 336.
12. Con la asignación de Neyman, los tamaños de muestra en los estratos de obreros, técnicos
y administradores serı́an, respectivamente, 46, 26 y 6; mientras que con la proporcional, 42,
29 y 9.
14. a) En este caso, la variable sexo define dos dominios de estudio, por lo cual obtendremos
lo pedido mediante

load("[Link]")
dis19MAE = svydesign(id=~1,strata=~Estrato,fpc=~fpc,data=me19Am)
svyby(~M500_M,~sexo,dis19MAE,svymean)
226 APÉNDICE A. RESPUESTAS A LOS EJERCICIOS PARES

## sexo M500_M se
## Hombre Hombre 534 4.29
## Mujer Mujer 521 3.97

b) Podrı́amos tomar en primer lugar el estrato estatal y considerar que en esta población
se tiene una estratificación por área. Luego podrı́amos obtener la media ȲmE del dominio
de mujeres bajo este diseño parcial. De manera similar, obtendrı́amos para el diseño parcial
estratificado no estatal la media ȲmN E del dominio de mujeres. Puesto que las muestras son
independientes, la media µD de las diferencias en rendimiento para Matemáticas entre los
dominios de estudiantes mujeres de colegios estatales y no estatales se podrı́a estimar con su
correspondiente media muestral D̄ = ȲmE − ȲmN E y un IC aproximado para µD tendrá la
forma D̄ ± z1− α2 V̂ (ȲmE ) + V̂ (ȲmN E ), donde las varianzas se pueden estimar a partir de
(3.5). Dependiendo de si este contiene el valor 0 o no, podremos afirmar al 100(1 − α) % si
existen o no diferencias significativas.
c) La misma estrategia funciona para los hombres.
16. a) Definición de la base de datos y cálculo de los tamaños de muestra:

load("[Link]")
ece19Cz = ece19[ece19$Departamento==levels(ece19$Departamento)[8],]
ece19Cz$Estrato=interaction(ece19Cz$area,ece19Cz$gestion2)
save(ece19Cz,file='[Link]')
load("[Link]") # Base de datos 2018
ece18Cz = ece18[ece18$Departamento==levels(ece18$Departamento)[8],]
ece18Cz$Estrato=interaction(ece18Cz$Area,ece18Cz$Gestion2)
ece18Cz = ece18Cz[order(ece18Cz$Estrato),]
sigmah_e = sqrt(by(ece18Cz$M500_M,ece18Cz$Estrato,var,[Link]=T))
sigmah_e = [Link](sigmah_e)
Nh = [Link](table(ece19Cz$Estrato))
ah = Nh*sigmah_e/sum(Nh*sigmah_e)
d = dim(ece19Cz)[1]*5/qnorm(0.975)
n = sum(((Nh*sigmah_e)^2)/ah)/(d^2 + sum(Nh*sigmah_e^2))
(n = ceiling(n)) # Número de alumnos a tomar (n)

## [1] 929

(nh = round(ah*n)) # Distribución de n por estratos

## [1] 649 154 124 2

b) Las estimaciones pedidas estarán dadas por

227

library(sampling)
[Link](12345)
ece19Cz = ece19Cz[order(ece19Cz$Estrato),]
mCz = strata(ece19Cz,c("Estrato"),size=nh,method="srswor")
me19Cz = getdata(ece19Cz,mCz)
disMAECz = svydesign(ids=~1,strata=~Estrato,fpc = rep(Nh,nh),data=me19Cz)
(meanECz = svymean(~M500_M,disMAECz,deff=T,[Link]=T))

## mean SE DEff
## M500_M 566.77 2.89 0.89

c) Puesto que las muestras en los dominios de Cusco y Amazonas son independientes, el IC
al 95 % pedido viene dado por

SE = sqrt(SE(meanECz)^2 + SE(meanEAm)^2)
LI = coef(meanECz)-coef(meanEAm) - qnorm(0.975)*SE
LD = coef(meanECz)-coef(meanEAm) + qnorm(0.975)*SE
c(LI,LD)

## [1] 31 47

lo cual revela que el rendimiento medio en Matemáticas de los alumnos del Cusco es signifi-
cativamente mayor que el de los alumnos de Amazonas.
18. a) Tomadas las muestras de 21,4 y 5 alumnos en, respectivamente, los estratos E, H y M
se obtuvieron con la semilla aleatoria 12345 las estimaciones σ̂E = 134.6075, σ̂H = 654.9485
y σ̂M = 529.6044.
b) nE = 493, nH = 410, nM = 447.
c) El número de matriculados se estima en 3 788 376 estudiantes con un IC al 95 % de
[3 712 051 , 3 864 701].
d) La estimación serı́a de 0.67437 con un error de estimación estimado de 0.0136.
20. La solución mostrada, se basa en datos tomados el 2017. Usted debe actualizar esta
solución, pues la página web de Amazon es dinámica. Para el ejercicio, nuestra base de datos
o marco muestral la obtuvimos a través del paquete rvest de R.
La muestra y las estadı́sticas pedidas se obtendrán con el código siguiente:

library(sampling)
library(survey)
library(stringr)
load("[Link]")
228 APÉNDICE A. RESPUESTAS A LOS EJERCICIOS PARES

AmazonStat = AmazonStat[order(AmazonStat$tipos),]
AmazonStat[1:3,]

## titulos
## 3 Statistics, 4th Edition
## 8 Elementary Statistics: Picturing the World (6th Edition)
## 12 Elementary Statistics (12th Edition)
## autores fechas precios starsf
## 3 David Freedman and Robert Pisani Feb 13, 2007 128 4.1
## 8 Ron Larson and Betsy Farber Jan 12, 2014 34 4.2
## 12 Mario F. Triola Dec 31, 2012 14 4.1
## tipos
## 3 Hardcover
## 8 Hardcover
## 12 Hardcover

Nh = table(AmazonStat$tipos)
nh = round(70*Nh/sum(Nh))
[Link](12345)
me=strata(AmazonStat,c("tipos"),size=nh,method="srswor")
meAmazon = getdata(AmazonStat,me)
disme = svydesign(id=~1,strata=~tipos,fpc=~rep(Nh,nh),data=meAmazon)
(mprecios = svymean(~precios,disme))

## mean SE
## precios 42.3 3.78

(mstar = svymean(~starsf,disme,[Link]=T))

## mean SE
## starsf 4.86 0.57

aux = unlist(lapply(meAmazon$fechas, str_sub, 9,12))

(mp2017 = svymean((aux=="2017"),disme))

## mean SE
## [1,] 0.0857 0.03
229

Capı́tulo 4
2. Las estimaciones del total y de su error estándar de estimación, usando la semilla 12345,
se muestran en la tabla siguiente:
Diseño Total Error estándar de estimación
MASc 15 8.19178
MASs 15 7.326915
MAE 7.5 3.172663
Sistemático 25
Conglomerados bietápico 25 4.472136

4. a) Las ventas medias (utilizando un estimador de razón, que no es insesgado) en el área

se estiman en 97.9279 94 cajas por semana.
b) Si se tiene información para estimar el número total de cajas del producto A vendidas
en todos los supermercados del área durante la semana. Este total y su error de estimacion
pueden ser, indistintamente, estimados por el estimador de Horvitz-Thompson o por τ̂r =
ˆ . Usando esta última representación, se obtiene la siguiente estimación
K̂ Ȳr , donde K̂ = N M̄
τ̂r = 20 × (29.4) × 97.9279 = 57 608.
6. a) El número total de residentes jubilados se estima en 3900 con un error estándar de
estimación de 635.96.
b) El número promedio de residentes jubilados por casa se estima en 0.98113 con un error
estándar de estimación de 0.1127.
c) Sı́ se puede estimar mediante
300
1
µˆτ = Mi Ȳi δi ,
4 i=1
donde Mi denota el número de casas en la manzana i e Ȳi es la media muestral del número
de jubilados por casa en la manzana i. Reemplazando, obtendremos una estimación de 13
jubilados promedio por manzana, con un error estándar de estimación estimado de 0.9.
8. Procedamos primero a demostrar el insesgamiento de los estimadores de la varianza del
estimador de Horvitz-Thompson.

E(V̂HT (τ̂HT )) = E(E(V̂HT (τ̂HT ) | δ1 , . . . , δN ))

N
N N N
(1 − πi ) πij − πi πj τi τj V (τ̂i )
= E( E(τˆi 2 )δi + ( ) δi δj + δi )
i=1
πi2 i=1 j=1
π ij π π
i j i=1
πi
j=i
N
N N
πij − πi πj τi τj V (τ̂i )N
(1 − πi )
= 2
(V (τˆi ) + τi2 )πi + ( ) πij + πi
i=1
πi i=1 j=1
πij πi πj i=1
πi
j=i
230 APÉNDICE A. RESPUESTAS A LOS EJERCICIOS PARES

N
N
N N
(1 − πi ) τi τ j
= (V (τˆi ) + τi2 ) + (πij − πi πj ) + V (τ̂i ) = V (τ̂HT ).
i=1
πi i=1 j=1
πi πj i=1
j=i

De manera similar,

E(V̂SY G (τ̂HT )) = E(E(V̂SY G (τ̂HT ) | δ1 , . . . , δN ))

N N N
πi πj − πij V (τ̂i ) V (τ̂j ) τi τj 2
= ( )( 2 + + ( − ) )π ij + V (τ̂i )
i=1 j>i
πij πi πj2 πi πj i=1

N
N N N N
τi τj V (τ̂i ) V (τ̂j )
= (πi πj − πij )( − )2 + (πi πj − πij )( 2 + 2
)+ V (τ̂i ).
i=1 j>i
πi πj i=1 j>i
πi πj i=1

El segundo término a la derecha en esta expresión, que llamaremos x, resulta por la propo-
sición 4.2 ser igual a
N N N
1 V (τ̂i ) V (τ̂j )
x= (πi πj − πij )( 2 + 2
)− V (τ̂i )
2 i=1 j=i πi πj i=1

N
N
N

V (τ̂i ) V (τ̂i )
=n − (n − 1) − V (τ̂i ),
i=1
πi i=1
πi i=1

término que reemplazándose arriba en la expresión nos lleva a la ecuación dada en (5.6).
10. a) Sea πij la probabilidad conjunta de que se seleccionen en la muestra a las personas i

y j. Dado que la probabilidad de inclusión πi satisface πi = j=i πij , se tendrá que

π1 = 0.2 + 0.1 + 0.1 = 0.4

π2 = 0.2 + 0.3 + 0.15 = 0.65
π3 = 0.1 + 0.3 + 0.15 = 0.55
π4 = 0.1 + 0.15 + 0.15 = 0.4

b) La tabla siguiente nos muestra todas las posibles muestras de tamaño 2, ası́ como sus
probabilidades conjuntas y acumuladas:

Muestra πij Πij

{1,2} 0.2 0.2
{1,3} 0.1 0.3
{1,4} 0.1 0.4
{2,3} 0.3 0.7
{2,4} 0.15 0.85
{3,4} 0.15 1
En base a
231

[Link](12345)
> runif(1)
[1] 0.7209039

la muestra estará conformada por las personas 2 y 4. Con ellos obtenemos una estimación
(de Horvitz-Thompson) de
1 4
+ = 11.53846;
0.65 0.4
es decir, de entre 11 y 12 hermanos. El error estándar de estimación estimado para este total
es de 6.185814 y 7.246029, respectivamente, para los estimadores de Horvitz-Thompson y de
Sen-Yates-Grundy.
12. Como δ = (δ1 , δ2 , . . . , δN ) ∼ M ul(n; ψ1 , ψ2 , . . . , ψN ) y los τ̂i son insesgados, se tiene que
N δi N δi N N
1 τ̂ij 1 τi 1 τi 1
E(τ̂ψ ) = E(E( | δ)) = E( )= E(δi ) = nτi = τ.
n i=1 j=1
ψi n i=1 j=1
ψi n i=1 ψi n i=1

Por otro lado,

N N
1 τi 1 V (τ̂ij )
V (τ̂ψ ) = V (E(τ̂ψ | δ)) + E(V (τ̂ψ | δ)) = V ( δ i ) + E(δi )
n 2
i=1
ψi 2
n i=1 ψi2

N N N N
1 τi 2 1 τi τ j 1 V (τ̂ij )
= ( ) V (δ i ) + Cov(δ i , δ j ) +
n2 i=1 ψi n2 i=1 j=1 ψi ψj n i=1 ψi
i=j

N N N N
1 τi2 1 V (τ̂ij )
= ( (1 − ψi ) + τi2 − ( τi ) 2 ) +
n i=1 ψi i=1 i=1
n i=1 ψi
N N N
1 τi 1 V (τ̂ij ) 1 τi2 + V (τ̂ij )
= ψi ( − τ ) 2 + = ( − τ 2 ).
n i=1 ψi n i=1 ψi n i=1 ψi
Finalmente, no es difı́cil ver que el estimador de la varianza puede escribirse como
N
δi
1 τ̂ij2
V̂ (τ̂ψ ) = ( − nτ̂ψ2 ).
n(n − 1) i=1 j=1 ψi2

Ası́, condicionándose, la esperanza de este estimador viene dada por

N

1 E(τ̂ij2 )
E(V̂ (τ̂ψ )) = E(E(V̂ (τ̂ψ ) | δ) = ( E(δi ) − nV (τ̂ψ ) − nE(τ̂ψ )2 )
n(n − 1) i=1 ψi2

N

1 V (τ̂ij ) + τi2 1
= ( nψi ( ) − nV (τ̂ψ ) − nτ 2 ) = (nV (τ̂ψ ) − V (τ̂ψ )) = V (τ̂ψ ).
n(n − 1) i=1 ψi2 n−1
232 APÉNDICE A. RESPUESTAS A LOS EJERCICIOS PARES

14. a) El error estándar de estimación estimado es de 0.5664.

b) La estimación de µ es 5.1.
c) La desviación estándar es 0.7248 y su estimación es 0.5818.
d) La media se estima en 5.917 y la proporción en 0.667.
e) Se distribuirı́a en 3 por cada zona.
f) En ambos casos la estimación serı́a de 5.8.
g) Podrı́amos obtener los efectos de diseño, donde claramente el MAE resulta ser más efi-
ciente.
h) Estas cooperativas serán seleccionadas con probabilidad 0.0783.
i) La estimación de µ será de 5.981.

16. La estimación del número medio de personas por auto será de 4.1625 con un error estándar
de estimación estimado de 0.6771.

18. a) Los distritos seleccionados serı́an el tercero, séptimo, décimo primero y décimo cuarto.
Si se evalúan las probabilidades de inclusión de segundo orden, varias de estas asociadas a
los distritos seleccionados son 0. Por lo tanto, si bien será posible estimar la proporción de
colegios unidocentes pedida en aproximadamente 0.22, no será posible obtener la estimación
de Horvitz-Thompson de su error estándar de estimación.
b) Ordinalmente, los distritos seleccionados bajo un muestreo por conglomerados de una
etapa (con semilla aleatoria 12345) serı́an el 10, 11, 13 y 15; mientras que, usando el esquema
de Sampdforf, obtuvimos los distritos 1, 6, 13 y 15.
c) La proporción estimada de colegios unidocentes en la región y su margen de error estimado
al 95 % se muestran en la tabla siguiente:

Esquema Proporción estimada Margen de error

Conglomerados 0.28147 0.0675
Sampdford ppt 0.21536 0.0563

Como se observa, el muestreo ppt resultó ser más preciso, lo cual que se puede también
comprobar aquı́, ya que la verdadera proporción poblacional es de 0.213.

20. En este ejercicio es necesario crear una base de datos agregada de colegios con las sumas
de los rendimientos evaluados. Puesto que estos últimos contienen casos perdidos, los impu-
taremos por su valor medio. Hecho esto, el boxplot deberı́a quedar (ello, dependerá de las
simulaciones) como por ejemplo.
233

800
700
600
500
400

Poisson

Syst

Rsyst

Til e

Midzuno

Pivotal

Cong
Como se aprecia, todos los planes ppt, con excepción del de Poisson, muestran claramente
una mayor precisión en las estimaciones del rendimiento medio en Matemáticas que el del
muestreo aleatorio por conglomerados de una etapa.
22. a) La probabilidad de selección de la parcela es 0.1.
b) Este se estima en 114.6667 con un error estándar de estimación estimado de 15.912226.
c) El número de árboles severamente afectados en el condado se estima en 383.12 con un
error estándar de estimación estimado de 67.306.
d) Se podrı́a usar un estimador de razón en la que el numerador se obtenga por lo hallado
en c) y el denominador vienen dado por el número de árboles con infección en el condado,
el cual se estima en 1961.875. En consecuencia, nuestra estimación de la proporción pedida
383.125
vendrı́a dada por 1961 .875 = 0.1952851.
e) El código en R para la estimación del caso es el siguiente:

[Link](12345)
areas = c(400,580,674,920,180,300,380, 555,990,602,508,210,350,678,440,735)
num = c(16,21,18,24,24,23,25,51,42,19,11,10,36,21,37,12)
pik = inclusionprobabilities(areas,8)
m = UPsampford(pik)
HTestimator(num[m==1],pik[m==1])
## [,1]
## [1,] 436
pik2 = UPsampfordpi2(pik)
sqrt(varHT(num[m==1],pik2[m==1,m==1],1))
## [1] 51.1
234 APÉNDICE A. RESPUESTAS A LOS EJERCICIOS PARES

f) De ejecutarse el código se obtiene una estimación de 0.17169 con un SE de 0.0154. El

primer número corresponde a la estimación del promedio en el condado de las proporciones
por parcela de árboles infectados que tienen una infección severa y el segundo corresponde
a su error estándar de estimación estimado.

Capı́tulo 5
2. a) Puesto que el muestreo de containers es con reemplazamiento, se tiene que X = número
1
de veces que un container es seleccionado ∼ B(4, 60 ). Se nos pide, por lo tanto, P (X > 0) =
59 4
1 − P (X = 0) = 1 − ( 60 ) .
b) Si el container i tiene Mi cajas, sea Yij =número de veces que la caja j del container i es
seleccionado. Se cumple entonces que Yij | Xi = x ∼ B(x, M3 i ), donde Xi ∼ B(4, 60 1
) es la v.a
que denota el número de veces que el container i es seleccionado. El peso de muestreo para
la caja j del container i viene dado entonces por ωij = πj1πi , donde πi = 1 − ( 59
60
)4 y

πj|i = P (Yij ≥ 1 | Xi ≥ 1) = 1 − P (Yij = 0 | Xi ≥ 1)

4
4
3 x
=1− P (Yij = 0 | Xi = x)P (Xi = x) = 1 − (1 − ) P (Xi = x)
x=1 x=1
Mi
Estos pesos para las cajas de los containers 23, 12, 8 y 44 vienen dados, respectivamente,
por

M = c(100,80,114,93)
xx = 1:4
pxx = dbinom(xx,4,1/60)
pa = 1 - (59/60)^4
w <- pp <-NULL
for(i in 1:4){
pp[i] = (1-sum(pxx*(1-3/M[i])^xx))*pa
w[i] = 1/pp[i]}
w

## [1] 16.4 16.4 16.4 16.4

c) El peso promedio estimado será de 11.59 kilogramos.

d) El cuantil 0.75 estimado se puede obtener con el siguiente código:

Pesos = c(10.3,12.2,9.8,11.2,13.1,9.9,8.95,15.3,14.4,11.6,10.53,11.8)
Cong = rep(1:4,each=3)
235

## [1] 12.2

4. a) Empecemos considerando solo a las personas con 18 años o más

load("/Users/lucho/Documents/TextoMuestreo2019/Bases_de_Datos/[Link]")
nhis18 = [Link][[Link]$[Link]>1,]
nhis18$resp = [Link]([Link](nhis18$[Link]))
[Link](table(nhis18$resp))

##
## 0 1
## 0.105 0.895

Como se aprecia, tenemos aquı́ un poco más del 10 % de no respuestas a la pregunta sobre los
ingresos. Para estimar las probabilidades de no respuesta utilizaremos una regresión logı́stica
con las siguientes potenciales variables predictoras:

[Link]: Edad del adulto recodificada en 4 grupos.

hisp: Etnicidad hispana (1 = Hispanos, 2 = No hispanos blancos, 3 = No hispanos

negros 4 = Otros grupos raciales no hispanos).

sex: Sexo (1 = Hombre, 0 = Mujer).

race: Raza (1 = Blanca, 2 = Negra, 3 = Otra).

No se incluyeron más variables, pues estas son las únicas sin datos perdidos en la base de
datos. El siguiente serı́a el código para el análisis de regresión logı́stica con esta muestra
compleja:
236 APÉNDICE A. RESPUESTAS A LOS EJERCICIOS PARES

[Link] = svydesign(ids=~psu, strata=~stratum, data = nhis18, nest=T,

weights=~svywt)
[Link] = svyglm(resp~[Link]([Link]) + [Link](hisp)
+ [Link](sex) + [Link](race),
family = binomial(link="logit"),design = [Link])

## Warning: non-integer #successes in a binomial glm!

lpredc = [Link]$[Link]
probpc = exp(lpredc)/(1 + exp(lpredc))
r = summary([Link])

Definamos ahora, mediante cuantiles, 5 grupos para las probabilidades de no respuesta.

Las probabilidades pedidas para estos 5 grupos serán

q = quantile(probpc,seq(0,1,0.2))
[Link] = cut(probpc,breaks=q,[Link]=T)
phi = by(data=probpc,[Link],mean)
phi

## [Link]: [0.805,0.871]
## [1] 0.857
## --------------------------------------------------------
## [Link]: (0.871,0.9]
## [1] 0.889
## --------------------------------------------------------
## [Link]: (0.9,0.904]
## [1] 0.902
## --------------------------------------------------------
## [Link]: (0.904,0.913]
## [1] 0.909
## --------------------------------------------------------
## [Link]: (0.913,0.97]
## [1] 0.918

b) Para estimar la distribución étarea, por los métodos de estimación de varianza vistos en
el curso, podrı́amos apelar al siguiente código:
237

# Definición del dise~no base

[Link] = svydesign(id=~psu, strata=~stratum,
nest=T,data=[Link], weights=~svywt)
#Estimación por el método de linealización
a1 = svymean(~factor([Link]),deff=T,design=[Link])
names = c("<=18","18-24","25-44","45-64","65+")
# Estimación por los métodos de remuestreo
[Link] = [Link](design=[Link],type="BRR")
a2 = svymean(~factor([Link]),deff=T,design=[Link])
[Link] = [Link](design=[Link],type="JKn")
a3 = svymean(~factor([Link]),deff=T,design=[Link])
[Link]=[Link](design=[Link],type="subbootstrap",replicates=1000)
a4 = svymean(~factor([Link]),deff=T,design=[Link])
list(a1,a2,a3,a4)

## [[1]]
## mean SE DEff
## factor([Link])1 0.25309 0.00371 1.57
## factor([Link])2 0.10055 0.00403 3.87
## factor([Link])3 0.28487 0.00371 1.46
## factor([Link])4 0.23968 0.00420 2.09
## factor([Link])5 0.12181 0.00402 3.27
##
## [[2]]
## mean SE DEff
## factor([Link])1 0.25309 0.00371 1.58
## factor([Link])2 0.10055 0.00406 3.93
## factor([Link])3 0.28487 0.00373 1.48
## factor([Link])4 0.23968 0.00420 2.09
## factor([Link])5 0.12181 0.00404 3.30
##
## [[3]]
## mean SE DEff
## factor([Link])1 0.25309 0.00371 1.57
## factor([Link])2 0.10055 0.00403 3.87
## factor([Link])3 0.28487 0.00372 1.46
## factor([Link])4 0.23968 0.00420 2.09
## factor([Link])5 0.12181 0.00402 3.27
##
238 APÉNDICE A. RESPUESTAS A LOS EJERCICIOS PARES

## [[4]]
## mean SE DEff
## factor([Link])1 0.25309 0.00371 1.57
## factor([Link])2 0.10055 0.00403 3.87
## factor([Link])3 0.28487 0.00372 1.46
## factor([Link])4 0.23968 0.00420 2.09
## factor([Link])5 0.12181 0.00402 3.27

6. n = 361.

8. a) La estimación de la proporción de celulares vendidos con rebaja estará dada por

stock = c( 55, 45, 10, 12, 10, 120, 18, 20, 35, 45, 10, 36, 30, 27, 15, 50)
pik = inclusionprobabilities(stock,4)
w = 1/pik
select = c(1,6,9,13)
sum(c(17,35,6,13)*w[select])/sum(c(22,60,18,19)*w[select])

## [1] 0.589

y la estimación del monto total por ventas del celular YTRON será

sum(c(15395,44230,13440,13470)*w[select])

## [1] 199261

y el de su error estándar de estimación es de 18 737.

10. a) El código siguiente nos da la estimación pedida y su error estándar de estimación

estimado:

dstrat<-svydesign(id=~1,strata=~stype, fpc = ~fpc,data=apistrat)

svytotal(~[Link],dstrat)

## total SE
## [Link] 3086009 99477

b) Bastará convertir el diseño dstrat según

239

dJKn = [Link](design=dstrat,type="JKn")
svytotal(~[Link],dJKn)

## total SE
## [Link] 3086009 99477

dboot = [Link](design=dstrat,type="subbootstrap",replicates=1000)
svytotal(~[Link],dboot)

## total SE
## [Link] 3086009 103337

c) Requerimos primero el estimador de razón y calcular el número total de estudiantes, valor

último que se asume conocido

(r = svyratio(~[Link],~enroll, dstrat))

## Ratio estimator: [Link].design2(~[Link], ~enroll, dstrat)

## Ratios=
## enroll
## [Link] 0.837
## SEs=
## enroll
## [Link] 0.00776

tenroll = sum(apipop$enroll,[Link]=T)

La estimación pedida será

tenroll*coef(r)

## [Link]/enroll
## 3190038

d) Será preferible el estimador de razón, pues su error estaándar de estimación estimado es

de 3 811 472 × 0.007757103 = 29 565.98, que es casi tres veces menor que el del estimador de
Horvitz-Thompson. Más aún, la estimación de razón es más cercana al verdadero número de
estudiantes que tomaron el test, el cual es
240 APÉNDICE A. RESPUESTAS A LOS EJERCICIOS PARES

(sum(apipop$[Link],[Link]=T))

## [1] 3196602

12. Se estima que el 23.715 % de las obras están usando la metodologı́a y el error de estima-
ción de este porcentaje, a un nivel de confianza del 95 %, es del 5.092 %.
14. a) Construida la base de datos muestral htree , que tiene el formato

load("/Users/lucho/Documents/TextoMuestreo2019/Texto2019_2/[Link]")
head(htree)

## Num Adm Lote Numa Flor Nlote Altura

## 1 1 Privada 1 52 30 30 32.7
## 2 2 Privada 1 52 30 30 26.7
## 3 3 Privada 1 52 30 30 29.4
## 4 4 Privada 1 52 30 30 24.5
## 5 5 Privada 1 52 30 30 34.0
## 6 6 Privada 2 56 35 30 25.4

se puede verificar lo siguiente:

disarb=svydesign(ids=~Lote+Num,strata=~Adm,fpc=~Nlote+Numa,nest=T,data=htree)
svymean(~Altura,disarb,deff=T)

## mean SE DEff
## Altura 24.77 1.17 1.8

b) Queda como ejercicio, pero observe que, en este caso, se tiene no un diseño estratifica-
do por conglomerados bietápico como en a) sino uno de una sola etapa. Además, este no
podrá calcularse con el paquete survey sino manualmente, pues los datos dados son solo
resúmenes.
c) En la estimación de la media, el efecto de diseño se estima en 1.7988. El de b) queda como
ejercicio.
16. a) Tomemos, en primer lugar, la muestra bajo el diseño propuesto

bb = apipop[[Link](apipop$enroll)==0,]
muestra = list()
s = c(10,5,5)
for(i in 1:3){
241

bbe = bb[bb$stype==levels(bb$stype)[i],]
denroll = [Link](by(bbe$enroll,bbe$dnum,sum))
prob = inclusionprobabilities(denroll,s[i])
[Link](12345)
auxe = cluster(bbe,clustername=c("dnum"),s[i],method="systematic",
pik= prob,description=T)
muestra[[i]] = getdata(bbe,auxe)}

## Number of selected clusters: 10

## Number of units in the population and number of selected units: 4397 594
## Number of selected clusters: 5
## Number of units in the population and number of selected units: 751 23
## Number of selected clusters: 5
## Number of units in the population and number of selected units: 1009 12

MuestraF = [Link](rbind,muestra)

Las estimaciones pedidas se obtendrán con

disc = svydesign(ids=~dnum,strata=~stype, probs=~Prob,data=MuestraF,nest=T)

svymean(~api00,disc)

## mean SE
## api00 658 25.2

svyby(~api00,~stype,disc,svymean)

## stype api00 se
## E E 646 30.5
## H H 581 35.5
## M M 736 58.4

svyquantile(~api00,disc,2/3)

## 0.67
## api00 723

b) El análisis de regresión nos brinda el siguiente resultado:

242 APÉNDICE A. RESPUESTAS A LOS EJERCICIOS PARES

rmm = svyglm(api00~emer, disc)

summary(rmm)

##
## Call:
## svyglm(formula = api00 ~ emer, disc)
##
## Survey design:
## svydesign(ids = ~dnum, strata = ~stype, probs = ~Prob, data = MuestraF,
## nest = T)
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 732.13 30.58 23.94 5.9e-14 ***
## emer -5.81 1.92 -3.03 0.008 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for gaussian family taken to be 12091)
##
## Number of Fisher Scoring iterations: 2

lo cuál indica que la contribución de la variable emer en el rendimiento de las escuelas es

significativa, y se estima que por cada 1 % que se incremente el porcentaje de profesores con
calificaciones de emergencia en la escuela, el rendimiento de la escuela baja en aproximada-
mente 5.8 puntos.
Bibliografı́a

Arias-Schreiber, F., Valdivieso, L. y Peña, A. (2019). LA EVALUACIÓN DE LAS LEYES

EN EL PERÚ: El análisis de costo-beneficio en el congreso de la República, Fondo Editorial
PUCP.

Bankier, M. (1988). Power allocation: Determining sample sizes for sub-national areas, The
American Statistician 42: 174–177.

Binder, D. (1983). On the variances of asymptotically normal estimators from complex

surveys, International Statistical Review 51: 279–292.

Burnard, P. (1992). Learning from experience: Nurse tutors and student nurses perceptions
of experiential learning in nurse education: Some initial findings, International Journal of
Nursing Studies 29: 151–161.

Cho, E. y Cho, M. (2008). The variance of sample variance from a finite population, Survey
Research Methods Section, American Statistical Association, Denver, CO.

Cochran, W. (1977). Sampling techniques, Wiley Series in Probability and Statistics.

Deville, J. y Tillé, Y. (1998). Unequal probability sampling without replacement through a

splitting method, Biometrika 85: 89–101.

Dippo, C., Fay, R. y Morganstein, D. (1984). Computing variances from complex samples
with replicate weights, Proceedings of the Survey Research Methods Section, American
Statistical Association pp. 489–494.

Efron, B. y Tibshirani, R. (1993). An Introduction to the Bootstrap, Chapman and Hall.

Fay, R. (1984). Some properties of estimates of variance based on replication methods, Pro-
ceedings of the Survey Research Methods Section, American Statistical Association pp. 495–
500.

Fournier, P., C. F. S. S. y Stolle, D. (2013). Canadian election study 2011: Study documen-
tation, Technical report, Queen’s University, Kingson, Ontario.

243
244 BIBLIOGRAFÍA

Fox, J. y Weisberg, S. (2018). An R Companion to Applied Regression, 3 edn, Sage.

Gnanadesikan, R. (1997). Statistical data analysis of multivariate observations, Wiley.

Hajek, J. (1960). Limiting distributions in simple random sampling from a finite population,
Magyar Tudoanyos Akademia Budapest Matematikai Kutato Intezet Koezlemenyei 5: 361–
374.

Hansen, M. y Hurwitz, W. (1943). On the theory of sampling from a finite population,

Annals of Mathematical Statistics 14: 333–362.

Heeringa, S. G., W. B. T. y Berglund, P. A. (2010). Applied Survey Data Analysis, Chapman

and Hall.

Horvitz, D. y Thompson, D. (1952). A generalization of sampling without replacement from

a finite universe, Journal of the American Statistical Association 47: 663–685.

Khan, M.G.M., C. M. y Ahmad, N. (2006). Optimum allocation in two-stage and stratified

two-stage sampling for multivariate surveys, Proceedings of the Survey Research Methods
Section, ASA pp. 3215–3220.

Kish, L. (1965). Survey Sampling, Wiley Series in Probability and Statistics.

Koch, GG., F. D. y Freeman, J. (1975). Strategies in the multivariate analysis of data from
complex surveys, International Statistical Review 43: 59–78.

Lehtonen, R. y Pahkinen, E. (2004). Practical Methods for Design and Analysis of Complex
Surveys, Jhon Wiley Sons, Ltd.

Little, R. y Rubin, D. (2002). Statistical Analysis with Missing Data, Jhon Wiley Sons, Inc.
New Jersey.

Lohr, S. (2000). Muestreo: Diseño y Análisis, Internacional Thomson editores.

Lumley, T. (2010). Complex surveys, Wiley Series in Survey Methodology.

Lumley, T. y Scott, A. (2014). Tests for regression models fitted to survey data, Australian
and New Zealand Journal of Statistics 56: 1–14.

McCarthy, P. (1969). Pseudoreplication: Half-samples, Review of the International Statistical

Institute 37: 239–264.

Mendenhall, W., Scheaffer, R. y Ott, L. (2007). Elementos de muestreo, Thomson editores.

BIBLIOGRAFÍA 245

Murgia, D. (2018). Primer estudio de adpción bim en proyectos de edicicación en lima y

callao 2017, Technical report, Pontificia Universidad Católica del Perú. Departamento de
Ingenierı́a.

Plackett, R. y Burman, J. (1946). The design of optimum multifactorial experiments, Bio-

metrika 33: 305–325.

Quenouille, M. H. (1949). Approximate tests of correlation in time series, Journal of the

Royal Statistical Society B 11: 68–84.

Rao, J. y Scott, A. (1981). The analysis of categorical data from complex sample surveys:
Chi-squared tests for goodness of fit and independence in two-way tables, Journal of the
American Statistical Association 76: 221–230.

Rao, J. y Scott, A. (1984). On chi-squared tests for multiway contigency tables with pro-
portions estimated from survey data, Annals of Statistic 12: 46–60.

Rao, J. y Wu, C. (1988). Resampling inference with complex survey data, Journal of the
American Statistical Association 83: 231–241.

Richardson, M. (2012). Sampling in archeology, STatistics Education Web. pp. 1–18.

Sampford, M. (1967). On sampling without replacement with unequal probabilities of selec-

tion, Biometrika 54: 499–513.

Satterthwaite, F. (1946). An approximate distribution of estimates of variance components,

Biometrics Bulletin, 2 110-114.

Thomas, D. y Rao, J. (1990). Small-sample comparison of level and power for simple
goodness-of-fit statistics under cluster sampling, Journal of the American Statistical As-
sociation 82: 630–636.

Thomas, D.R., S. A. y Roberts, G. (1996). Tests of independence on two- way tables under
cluster sampling: An evaluation, International Statistical Review 64: 295–311.

Tillé, I. (2006). Sampling Algorithms, Springer.

Tukey, J. W. (1958). Bias and confidence in not quite large samples, Annals of Mathematical
Statistics 29: 614.

Valdivieso, L. (2017). Estadı́stica aplicada. Notas de clase, PUCP.

Valliant, R. (1993). Post-stratification and conditional variance estimation, JASA 88: 89–96.

Valliant, R., Dever, J. y Kreuter, F. (2013). Practical Tools for Designing and Weighting
Survey Samples, Springer.
246 BIBLIOGRAFÍA

Wolter, K. (2007). Introduction to Variance Estimation, Springer.

Ypma, J., Borchers, H. y Eddelbuettel, D. (2018). nloptr: R Interface to NLopt, R package

version 1.2.1.
URL: [Link]
La gran mayoría de las investigaciones trabajan con datos, los
cuales se obtienen al observar una o más variables en una población
o muestra. Si bien una muestra es cualquier subconjunto de la
población, conclusiones válidas sobre esta última podrán solo
garantizarse de ser la muestra probabilística, es decir, en las que
cada unidad seleccionada tenga una probabilidad conocida de ser
tomada. Este texto, en su segunda edición corregida y aumentada,
introduce las principales técnicas para seleccionar y analizar este
tipo de muestras sobre poblaciones finitas. La finitud es aquí
relevante, pues hace que el desarrollo de estas técnicas se oriente
más por un enfoque basado en el diseño. En él, la aleatoriedad de
los resultados es producto del proceso de selección de la muestra y
no de la consideración de que la o las variables de interés
provengan de un hipotético modelo poblacional como se
acostumbra asumir en la inferencia clásica. Aparte de las técnicas o
esquemas de muestreo básicos como el del muestreo aleatorio
simple, el muestreo estratificado y el de conglomerados, el texto
introduce algunos tópicos de muestreo complejo. Este, que en la
práctica es el esquema más utilizado, se origina cuando debido a las
restricciones presupuestales y logísticas o a la configuración y
tamaño de la población, se hace necesario el restringir o combinar
dos o más esquemas básicos ya sea que las selecciones se hagan
con igual probabilidad o no. Parte central y transversal del desarrollo
del texto será el uso del software libre R, con principalmente los
paquetes survey y sampling. El texto incluye también varios ejercicios
propuestos y soluciones o sugerencias a todos los problemas pares.
Muchos de los ejemplos desarrollados en el texto y de los ejercicios
planteados se basan en datos reales locales o foráneos de dominio
público.

Common questions

Con tecnología de IA

Resource Response Theory (RRT) enhances survey research by improving the reliability and validity of data gathered, especially in contexts involving sensitive questions or non-response issues. Computationally, RRT can be advantageous by allowing indirect questioning methods that can reduce the bias related to social desirability or fear of disclosure. This can lead to more honest responses and a higher accuracy of data collection. Moreover, RRT can simplify computational requirements by reducing the need for extensive post-survey adjustments, as well as potentially enhancing statistical power by increasing the effective sample size through better participation rates .

A stratified multistage sampling design offers several advantages when estimating total population variance, including improved precision of estimates and the ability to efficiently handle population heterogeneity. By stratifying the population, researchers ensure that important subgroups are proportionally represented, which helps in reducing error variances and obtaining more accurate variance estimates of the total population. The multistage approach also reduces costs and logistical complexity by limiting data collection to representative clusters. This approach can dynamically adjust for different population densities and characteristics, enhancing the accuracy and efficiency of the variance estimation process .

A multistage sampling method might be preferred over simple random sampling in large-scale surveys due to logistical and cost-efficiency benefits. Multistage sampling allows for the reduction of fieldwork by concentrating efforts in selected clusters, which minimizes travel and data collection costs. Additionally, it improves estimates' precision by allowing for stratification within clusters, addressing heterogeneity in large populations. This method also provides flexibility in sampling design, accommodating complex population structures and enabling more manageable portions of a population to be surveyed effectively .

In a cluster sampling context, the Horvitz-Thompson estimator ensures unbiased estimation of a total population by using inclusion probabilities for both the primary sampling units (PSUs) and any two units selected. Specifically, the total population estimate involves calculating a weighted sum of estimates from each cluster, where weights are the inverse probabilities of selecting each PSU. The estimator requires independence between sampling stages and that inclusion probabilities satisfy the condition that their sum equals the sample size for PSUs .

In stratified sampling, the overall population mean is estimated by weighting the sample means of each stratum by the proportion of the total population that the stratum represents. Specifically, the mean of each stratum is estimated using simple random sampling, and then these means are combined with weights reflecting the proportion of the population each stratum covers to ensure an overall unbiased estimator. The accuracy is ensured by the smaller variances within strata, as typically the variation is lower within a homogenous group, improving precision .

The variance estimator plays a critical role in ensuring the validity of sample-based population estimates by providing a measure of the estimate's precision. Specifically, it accounts for the variation inherent in the sample data due to the randomness of selection and sample size. For complex designs like stratified or cluster sampling, calculating correctly adjusted variance estimates is crucial because these designs often involve dependencies and differing probabilities of selection, which affect the precision of estimates. By accurately estimating variance, researchers can construct confidence intervals, perform hypothesis testing, and ensure reliable decision-making based on the sample data .

Confidence intervals for population proportions benefit from using stratified sampling designs, especially in heterogeneous populations, by achieving greater precision. Stratified sampling reduces variance within strata since each group is more homogenous than the entire population. This reduction in within-stratum variability translates to smaller standard errors for estimates, allowing for narrower confidence intervals than those obtained from simple random sampling of the entire population. Such precision ensures more reliable estimation of proportions, crucial when high accuracy and specific subgroup estimates are needed .

The main advantage of using the 'survey' package in R for complex sample analyses lies in its ability to link data to the design metadata automatically and reliably. This involves incorporating weights, probabilities of selection, and identifiers for the primary sampling units and strata. Functions like 'svydesign' and 'svrepdesign' facilitate this process by creating objects that include not only the data but also the design information. This ensures valid estimations with appropriate standard errors respecting the sampling design used .

The Satterthwaite approximation is significant in statistical analysis with complex samples because it provides an effective way to calculate degrees of freedom for hypothesis tests, particularly when sample sizes among strata are small or unequal. This approximation helps correct for the additional variability observed in complex sample designs, ensuring more accurate p-values and confidence intervals. By using the approximation, researchers can maintain the accuracy of inferential statistics, which is crucial when analyzing non-normally distributed data or data with unequal variances across groups .

Without-replacement sampling often results in lower variance estimates compared to with-replacement sampling because each unit's chance of selection decreases after its selection. However, it complicates the calculation of inclusion probabilities and can introduce bias if not managed correctly. With-replacement sampling simplifies probability calculations but may require larger sample sizes to achieve similar precision .

También podría gustarte

Gutiérrez-Estrategias Muestreo PDF
100% (1)
Gutiérrez-Estrategias Muestreo PDF
33 páginas
Analisis Multivariante Joseph F Hair JR 5ed PDF
100% (1)
Analisis Multivariante Joseph F Hair JR 5ed PDF
813 páginas
Estadística Descriptiva - Web
100% (1)
Estadística Descriptiva - Web
161 páginas
Cuadras - Nuevos Métodos de Estadística Multivariante
Aún no hay calificaciones
Cuadras - Nuevos Métodos de Estadística Multivariante
308 páginas
Estadistica y Muestreo PDF
100% (2)
Estadistica y Muestreo PDF
363 páginas
Simulación Estadística en R
Aún no hay calificaciones
Simulación Estadística en R
222 páginas
Estadística Avanzada en Medicina
100% (3)
Estadística Avanzada en Medicina
211 páginas
Introducción A Los Modelos Mixtos: Juan Carlos Correa Morales Juan Carlos Salazar Uribe
100% (1)
Introducción A Los Modelos Mixtos: Juan Carlos Correa Morales Juan Carlos Salazar Uribe
261 páginas
Inferencia Estadistica para Economia y Administracion de Empresas - Sanchez
Aún no hay calificaciones
Inferencia Estadistica para Economia y Administracion de Empresas - Sanchez
282 páginas
Inferencia Estadistica para Estud. - Color - PP
100% (5)
Inferencia Estadistica para Estud. - Color - PP
382 páginas
Ecuaciones Estructurales en Investigación
100% (1)
Ecuaciones Estructurales en Investigación
104 páginas
Estadistica Metodos y Aplicaciones E. Galindo
100% (1)
Estadistica Metodos y Aplicaciones E. Galindo
241 páginas
Elemento de Muestreo Richard L Scheaffer William Mendenhall Lyman Ott 6a Edicion
100% (2)
Elemento de Muestreo Richard L Scheaffer William Mendenhall Lyman Ott 6a Edicion
469 páginas
Estadística e Informática (SPSS) en La Investigación Descriptiva e Inferencial PDF
Aún no hay calificaciones
Estadística e Informática (SPSS) en La Investigación Descriptiva e Inferencial PDF
499 páginas
Conceptos Básicos de Estadística
100% (2)
Conceptos Básicos de Estadística
365 páginas
Estadistica No Parametrica para Investig
Aún no hay calificaciones
Estadistica No Parametrica para Investig
257 páginas
Elemento de Muestreo - Richard L. Scheaffer, William Mendenhall, Lyman Ott 6a Edición
75% (4)
Elemento de Muestreo - Richard L. Scheaffer, William Mendenhall, Lyman Ott 6a Edición
469 páginas
Análisis Multivariado en La Investigación Psicológica
100% (1)
Análisis Multivariado en La Investigación Psicológica
236 páginas
Libro Analisis Multivariante Repositorio
100% (5)
Libro Analisis Multivariante Repositorio
168 páginas
Análisis Multivariado en Ciencias Humana. Miguel Ángel Escotet
100% (2)
Análisis Multivariado en Ciencias Humana. Miguel Ángel Escotet
480 páginas
Estadística Aplicada A Las Ciencias Económicas y Administrativas-Bravo
75% (4)
Estadística Aplicada A Las Ciencias Económicas y Administrativas-Bravo
437 páginas
+tecnicas Estadisticas SPSS - Perez PDF
Aún no hay calificaciones
+tecnicas Estadisticas SPSS - Perez PDF
296 páginas
Estadística No Paramétrica Aplicada
100% (2)
Estadística No Paramétrica Aplicada
80 páginas
Ecuaciones Estructurales Cuadernos
Aún no hay calificaciones
Ecuaciones Estructurales Cuadernos
99 páginas
Estadistica Con R
Aún no hay calificaciones
Estadistica Con R
190 páginas
Curso de Muestreo
100% (1)
Curso de Muestreo
157 páginas
Estadistica
Aún no hay calificaciones
Estadistica
207 páginas
Introduccion Bioestadistica UCOPress
100% (1)
Introduccion Bioestadistica UCOPress
142 páginas
Aprendiendo Estadística Con Jamovi - Navarro
Aún no hay calificaciones
Aprendiendo Estadística Con Jamovi - Navarro
545 páginas
Introduccion Tecnicas Analisis Multivariable
100% (2)
Introduccion Tecnicas Analisis Multivariable
332 páginas
Fundamentos de Probabilidad y Apicaciones, Con R, Minitab y Excel
100% (1)
Fundamentos de Probabilidad y Apicaciones, Con R, Minitab y Excel
371 páginas
Estadística Pucp
100% (1)
Estadística Pucp
219 páginas
Libro Muestreo INE2
100% (2)
Libro Muestreo INE2
384 páginas
Inferencia Estadistica
100% (8)
Inferencia Estadistica
313 páginas
EstadisiticaDescriptivaMultivariada PDF
100% (2)
EstadisiticaDescriptivaMultivariada PDF
266 páginas
Introducción al Método Estadístico
Aún no hay calificaciones
Introducción al Método Estadístico
100 páginas
Tecnicas Estadisticas-Hojadecalculo
100% (1)
Tecnicas Estadisticas-Hojadecalculo
418 páginas
Análisis de Datos de Encuesta
Aún no hay calificaciones
Análisis de Datos de Encuesta
333 páginas
Analisis Multivariante Aplicado Con R Joaquin Aldas Ezequiel Uriel 2a Edicion 1 1
100% (1)
Analisis Multivariante Aplicado Con R Joaquin Aldas Ezequiel Uriel 2a Edicion 1 1
682 páginas
Métodos Matemáticos para Estadística - I. O. de Castilla y J. G. Vargas
100% (1)
Métodos Matemáticos para Estadística - I. O. de Castilla y J. G. Vargas
534 páginas
Analisis Multivariado
91% (11)
Analisis Multivariado
1321 páginas
Manual de Inferencia Estadistica
100% (6)
Manual de Inferencia Estadistica
235 páginas
Inferencia Estad¡stica Teor¡a y Problemas, 2a Edici N - Espejo Et Al. (2016)
100% (1)
Inferencia Estad¡stica Teor¡a y Problemas, 2a Edici N - Espejo Et Al. (2016)
290 páginas
Analisis de Datos Con R. Aplicacion Inve PDF
Aún no hay calificaciones
Analisis de Datos Con R. Aplicacion Inve PDF
44 páginas
Análisis de Regresión Logística
25% (4)
Análisis de Regresión Logística
9 páginas
?utf 8?b?vmojq 05 JQ 0 Ftierfie 1 Vrvnuukvpidiwmjagkdeplnbkzg ?
Aún no hay calificaciones
?utf 8?b?vmojq 05 JQ 0 Ftierfie 1 Vrvnuukvpidiwmjagkdeplnbkzg ?
254 páginas
Notas de Clase Muestreo2021
Aún no hay calificaciones
Notas de Clase Muestreo2021
174 páginas
Muestreo Estadistico de Poblaciones Finitas
100% (1)
Muestreo Estadistico de Poblaciones Finitas
11 páginas
Metodos Estadisticos
Aún no hay calificaciones
Metodos Estadisticos
243 páginas
Temario - Oposición - CDEE - Muestreo - INE (Actualizado 9 de Sept.)
Aún no hay calificaciones
Temario - Oposición - CDEE - Muestreo - INE (Actualizado 9 de Sept.)
129 páginas
Pérez Carballido Sofía
Aún no hay calificaciones
Pérez Carballido Sofía
87 páginas
Fundamentos de Inferencia Ruiz y Pliego
Aún no hay calificaciones
Fundamentos de Inferencia Ruiz y Pliego
351 páginas
Notas - Muestreo - Mario Pacheco
100% (1)
Notas - Muestreo - Mario Pacheco
26 páginas
Muestreo TC3 2013-2014
Aún no hay calificaciones
Muestreo TC3 2013-2014
118 páginas
Introducción al Muestreo Estadístico
Aún no hay calificaciones
Introducción al Muestreo Estadístico
14 páginas
Estadistica Inferencial
Aún no hay calificaciones
Estadistica Inferencial
111 páginas
Distribuciones Muestrales en Estadística
Aún no hay calificaciones
Distribuciones Muestrales en Estadística
21 páginas
Fundamentos de Inferencia Estadistica
100% (7)
Fundamentos de Inferencia Estadistica
350 páginas
Muestreos en Estadistica
Aún no hay calificaciones
Muestreos en Estadistica
319 páginas
Estrategias de Muestreo y R
Aún no hay calificaciones
Estrategias de Muestreo y R
27 páginas
Examen de Tecno Del Concreto
Aún no hay calificaciones
Examen de Tecno Del Concreto
12 páginas
Idrogo Vallejos Excel Del Video
Aún no hay calificaciones
Idrogo Vallejos Excel Del Video
15 páginas
Trabajo Dde Planeamiento Regional
Aún no hay calificaciones
Trabajo Dde Planeamiento Regional
2 páginas
Alcantarillado Final
Aún no hay calificaciones
Alcantarillado Final
78 páginas
Pluviograma Idrogo Vallejos
Aún no hay calificaciones
Pluviograma Idrogo Vallejos
5 páginas
Taller #5 - Impacto Final
Aún no hay calificaciones
Taller #5 - Impacto Final
6 páginas
Grupo #06 Planeamiento Regional
Aún no hay calificaciones
Grupo #06 Planeamiento Regional
3 páginas
Tendencias en La Industria de La Construcción
Aún no hay calificaciones
Tendencias en La Industria de La Construcción
40 páginas
Ejercicio 5
Aún no hay calificaciones
Ejercicio 5
6 páginas
Ejercicio 1
Aún no hay calificaciones
Ejercicio 1
2 páginas
Analisis Estructural 2 Ejercicios
Aún no hay calificaciones
Analisis Estructural 2 Ejercicios
44 páginas
Ejercicio 7
Aún no hay calificaciones
Ejercicio 7
12 páginas
Trabajo Escalonado Idrogo Vallejos
Aún no hay calificaciones
Trabajo Escalonado Idrogo Vallejos
44 páginas
Ejercicio 6
Aún no hay calificaciones
Ejercicio 6
4 páginas
Informe Fluidos 01
Aún no hay calificaciones
Informe Fluidos 01
34 páginas
Ejercico 2 Del Examen
Aún no hay calificaciones
Ejercico 2 Del Examen
2 páginas
Excel de Deflexiones
Aún no hay calificaciones
Excel de Deflexiones
8 páginas
Ejer Sanitarias
Aún no hay calificaciones
Ejer Sanitarias
5 páginas
Puente Slauerhoffbrug: Hidráulica y Pascal
Aún no hay calificaciones
Puente Slauerhoffbrug: Hidráulica y Pascal
13 páginas
Ejercicio 4
Aún no hay calificaciones
Ejercicio 4
4 páginas
Ejercicio 27 y 19
Aún no hay calificaciones
Ejercicio 27 y 19
23 páginas
Fallas Estructurales por Sismos
Aún no hay calificaciones
Fallas Estructurales por Sismos
68 páginas
Monografia Geologia
Aún no hay calificaciones
Monografia Geologia
6 páginas
Guevara Vasquez Einer Ivan-Examen
Aún no hay calificaciones
Guevara Vasquez Einer Ivan-Examen
4 páginas
Prueba de Hipótesis: Media, Varianza y Proporción
Aún no hay calificaciones
Prueba de Hipótesis: Media, Varianza y Proporción
22 páginas
Apuntes de Topografía I: Ejercicios y Exámenes
Aún no hay calificaciones
Apuntes de Topografía I: Ejercicios y Exámenes
20 páginas
Diseño y Tamaño de Muestra Muestreo Ing Civil Poemape Aracelli
Aún no hay calificaciones
Diseño y Tamaño de Muestra Muestreo Ing Civil Poemape Aracelli
62 páginas
Uso del Teodolito en Topografía
Aún no hay calificaciones
Uso del Teodolito en Topografía
27 páginas
Algebra Vectorial Producto Vectorial
Aún no hay calificaciones
Algebra Vectorial Producto Vectorial
7 páginas
Ejemplos y Tipos de Muestreo en Ingeniería
100% (1)
Ejemplos y Tipos de Muestreo en Ingeniería
76 páginas
Cálculo II
Aún no hay calificaciones
Cálculo II
166 páginas
Serie Ideas de Evangelismo Juvenil
Aún no hay calificaciones
Serie Ideas de Evangelismo Juvenil
8 páginas
Invertebrados Marinos: Diversidad y Clasificación
Aún no hay calificaciones
Invertebrados Marinos: Diversidad y Clasificación
100 páginas
IDFADA1 B2 Semana 1 Filosofíayreligión 2022
Aún no hay calificaciones
IDFADA1 B2 Semana 1 Filosofíayreligión 2022
3 páginas
2-Parentesco y Alimentos MV Famá
Aún no hay calificaciones
2-Parentesco y Alimentos MV Famá
59 páginas
IGD 2 Comu 1
Aún no hay calificaciones
IGD 2 Comu 1
4 páginas
PROGRAMACION ANUAL COMUNICACIÓN 4to-2021
Aún no hay calificaciones
PROGRAMACION ANUAL COMUNICACIÓN 4to-2021
16 páginas
¿Qué Comes?
100% (2)
¿Qué Comes?
245 páginas
Cuadernosdecine Un Impulso Colectivo Cine Espanol para Los Nuevos Tiempos Festival Internacional de Cinema D Autor de Barcelona 25 Abril 4 Mayo
Aún no hay calificaciones
Cuadernosdecine Un Impulso Colectivo Cine Espanol para Los Nuevos Tiempos Festival Internacional de Cinema D Autor de Barcelona 25 Abril 4 Mayo
24 páginas
Pensamiento y Lenguaje en Educación
Aún no hay calificaciones
Pensamiento y Lenguaje en Educación
4 páginas
Calles, Casas y Gente Del Centro Historico Tomo I
100% (2)
Calles, Casas y Gente Del Centro Historico Tomo I
272 páginas
Liderazgo en Gestión Escolar
Aún no hay calificaciones
Liderazgo en Gestión Escolar
145 páginas
Publicacion CECCDU-UTN - Costos en La Construccion Mes Enero 2024
Aún no hay calificaciones
Publicacion CECCDU-UTN - Costos en La Construccion Mes Enero 2024
1 página
Tema 8 - Conectores y Referentes
Aún no hay calificaciones
Tema 8 - Conectores y Referentes
18 páginas
Electrodiagnostico PDF
Aún no hay calificaciones
Electrodiagnostico PDF
8 páginas
Programa Recreativo Laboral INCRET
100% (2)
Programa Recreativo Laboral INCRET
5 páginas
Plus Deportivo Edicion 7 Año 1 Revista Digital Gratuita 8 Junio 2016
Aún no hay calificaciones
Plus Deportivo Edicion 7 Año 1 Revista Digital Gratuita 8 Junio 2016
22 páginas
S03.s2. Tarea
Aún no hay calificaciones
S03.s2. Tarea
4 páginas
Apostila Espanhol
Aún no hay calificaciones
Apostila Espanhol
23 páginas
EVALUACIÓN - MÓDULO 4 - Revisión Del Intento
Aún no hay calificaciones
EVALUACIÓN - MÓDULO 4 - Revisión Del Intento
10 páginas
MARTIN DANIEL RAUL C INSSSEP S AMPARO No 122-2025-3-C
Aún no hay calificaciones
MARTIN DANIEL RAUL C INSSSEP S AMPARO No 122-2025-3-C
6 páginas
1.5 Propiedades Integral
Aún no hay calificaciones
1.5 Propiedades Integral
15 páginas
Piel Involutiva
100% (1)
Piel Involutiva
8 páginas
Ejemplo de revisión de literatura
Aún no hay calificaciones
Ejemplo de revisión de literatura
4 páginas
Yacimientos de Moronita en Morón
Aún no hay calificaciones
Yacimientos de Moronita en Morón
20 páginas
Practica Push-Pull
Aún no hay calificaciones
Practica Push-Pull
9 páginas
Uso y abuso del collarín cervical
Aún no hay calificaciones
Uso y abuso del collarín cervical
5 páginas
1a - PROBLEMAS DE APLICACI N-Separables
100% (5)
1a - PROBLEMAS DE APLICACI N-Separables
4 páginas
Actividad Malala
Aún no hay calificaciones
Actividad Malala
2 páginas
Ensayo - Carrera Judicial
100% (2)
Ensayo - Carrera Judicial
12 páginas

Notas de Técnicas de Muestreo: Luis Valdivieso Serrano

Cargado por

Notas de Técnicas de Muestreo: Luis Valdivieso Serrano

Cargado por

NOTAS DE

@Ponti�icia Universidad Católica del Perú

Notas de Técnicas de Muestreo

Diseño y diagramación: Elit León Atauqui

Primera edición digital: diciembre de 2020

Dr. Luis Valdivieso

2. Muestreo aleatorio simple 21

3. Muestreo aleatorio estratificado 63

4. Muestreo por conglomerados 93

5. Una introducción al muestreo complejo 145

5.4.6. El método Bootstrap . . . . . . . . . . . . . . . . . . . . . . . . . . . 174

A. Sugerencias o respuestas a los ejercicios pares 209

1.1. Enfoques basados en el diseño y el modelo

Estadı́sticamente, (1.2) es un buen estimador de µN . Como podemos ver, su valor es-

El enfoque hasta aquı́ comentado se denomina enfoque basado en el diseño. Un lector

1.2. Estimadores puntuales y por intervalos

Con el fin de despejar p en esta expresión, podemos considerar la probabilidad equivalente

1.3. Distribuciones importantes asociadas al muestreo

1.3.1. La distribución binomial

X = Número de éxitos en los n experimentos independientes de Bernoulli,

entonces diremos que X es una v.a. con distribución binomial de parámetros n y p, y la

Proposición 1.1. Si X ∼ B(n, p), entonces:

a) La función de probabilidad de X viene dada por

c) De manera similar, se cumple que

= np((n − 1)p + 1) = n(n − 1)p2 + np.

1.3.2. La distribución multinomial

Xi = número de veces en que ocurre la categorı́a Ci , i = 1, 2, . . . , k,

entonces se dice que el vector aleatorio (X1 , X2 , . . . , Xk ) tiene distribución multinomial de

Proposición 1.2. Si (X1 , X2 , . . . , Xk ) ∼ M ul(n; p1 , p2 , . . . , pk ), entonces:

a) La función de probabilidad (conjunta) de este vector viene dada por

c) Cov(Xi , Xj ) = −npi pj , ∀i = j ∈ {1, 2, . . . , k}

Demostración: a) La probabilidad de que en las primeras x1 repeticiones ocurra C1 , en las

npi (1 − pi ) + npj (1 − pj ) + 2Cov(Xi , Xj ).

Un despeje directo en esta ecuación nos lleva a que Cov(Xi , Xj ) = −npi pj . 

1.3.3. La distribución hipergeométrica

Proposición 1.3. Si X ∼ H(N, M, n), entonces:

a) La función de probabilidad de X viene dada por

donde se conviene que Cab = 0, si a > b

Demostración: a) Supongamos, sin pérdida de generalidad, que N − M < n < M (analice

los N de la población, ocurre si y sólo si en la muestra x elementos poseen la caracterı́stica

1.3.4. La distribución hipergeométrica multivariada

Xi = número de elementos de la clase Ci seleccionados en la muestra, i = 1, 2, . . . , k,

entonces se dice que el vector aleatorio (X1 , X2 , . . . , Xk ) tiene distribución hipergeométri-

Proposición 1.4. Si (X1 , X2 , . . . , Xk ) ∼ Hmul(n; M1 , M2 , . . . , Mk ), entonces:

a) La función de probabilidad (conjunta) de este vector viene dada por

CxM1 1 CxM2 2 . . . CxMkk

donde algunas de las combinatorias Cab = 0 arriba son nulas si a > b

d) Si la muestra fuera tomada con reemplazamiento,

(δi , δj , δ0 ) ∼ Hmul(n; 1, 1, N − 2).

ya que marginalmente δj ∼ H(N, 1, n). En general, se cumplirá que

(δ1 , δ2 , . . . , δN ) ∼ HM ul(n; 1, 1, . . . , 1).

1.4. Esperanza, varianza y covarianza condicional

En relación con la covarianza, podrı́amos usar el resultado anterior y escribir

E (Cov(X, Y | Z)) = E (E(XY | Z) − E(X | Z)E(Y | Z))

= E(XY ) − E (E(X | Z)E(Y | Z))

a) ¿Define tal procedimiento un estimador insesgado de la proporción buscada?

b) Obtenga la varianza del estimador propuesto.

Por tanto, la varianza pedida viene dada por

En el caso que se conociera la distribución en el almacén, esta varianza podrı́a evaluarse y

1.5. Selección de muestras al azar con y sin reempla-

En un muestreo sin reemplazamiento, el procedimiento anterior no es tan directo, pues la

i1 = mı́n{i ∈ P /F̂ (i) ≥ u1 }.

Una vez seleccionado el k-ésimo elemento, ik , el siguiente a incluir será

m = sample(x, size, replace, prob),

m es un vector cuyas componentes corresponden a los elementos seleccionados en P =

3. a) Sea X una variable aleatoria con distribución binomial de parámetros N y p, y supon-

6. Dos encuestadoras han seleccionado al azar y sin reemplazamiento muestras de tamaños

8. Suponga que 4 cápsulas de un medicamento genérico fueron mezcladas con 20 de marca

Cx61 Cx62 Cx63 Cx64

e.1) ¿Cuántos encuestados, ex-integrantes del partido C, se esperan tengan interés en el

e.3) Si se propone como estimador de la proporción de interés en el Ejecutivo a la corres-

e.4) ¿Cuál es la varianza del estimador propuesto en e.3)?

i ) Se toma una muestra al azar y sin reemplazamiento de 15 unidades. Si ningún artı́culo

ii ) Si el número total de unidades defectuosas (en ambas muestras) es mayor que 3, se

iii) Finalmente, si se rechaza el lote, se inspeccionan el 100 % de sus unidades y el fabricante

Si los lotes recibidos tienen un 5 % de unidades defectuosas y el costo de inspección de una

c) Cov(Xi , Xj ) = −npi pj , ∀i = j ∈ {1, 2, . . . , k}

Un despeje directo en esta ecuación nos lleva a que Cov(Xi , Xj ) = −npi pj .