100% encontró este documento útil (2 votos)
2K vistas255 páginas

Notas de Técnicas de Muestreo: Luis Valdivieso Serrano

Este documento presenta notas sobre técnicas de muestreo. Explica que el autor, Luis Valdivieso Serrano del Departamento Académico de Ciencias de la Pontificia Universidad Católica del Perú, ha escrito este texto como material de apoyo para estudiantes de maestría en estadística. El texto introduce conceptos básicos de muestreo probabilístico y técnicas como muestreo aleatorio simple, estratificado y por conglomerados, con ejemplos de su implementación en R.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
100% encontró este documento útil (2 votos)
2K vistas255 páginas

Notas de Técnicas de Muestreo: Luis Valdivieso Serrano

Este documento presenta notas sobre técnicas de muestreo. Explica que el autor, Luis Valdivieso Serrano del Departamento Académico de Ciencias de la Pontificia Universidad Católica del Perú, ha escrito este texto como material de apoyo para estudiantes de maestría en estadística. El texto introduce conceptos básicos de muestreo probabilístico y técnicas como muestreo aleatorio simple, estratificado y por conglomerados, con ejemplos de su implementación en R.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

NOTAS DE

TÉCNICAS
DE MUESTREO
Luis Valdivieso Serrano

Departamento
Académico de Ciencias
NOTAS DE TÉCNICAS
DE MUESTREO
Luis Valdivieso Serrano

Departamento
Académico de Ciencias
Autor
Luis Valdivieso Serrano

@Ponti�icia Universidad Católica del Perú


Departamento Académico de Ciencias
Sección Matemáticas
Av. Universitaria 1801, San Miguel
Teléfono: 6262000
Correo electrónico: publicacionesdac@[Link]

Notas de Técnicas de Muestreo


Lima, Departamento Académico de Ciencias -
Sección Matemática, 2021

Diseño y diagramación: Elit León Atauqui


Calle Santa Francisca Romana 395, Lima
Teléfono: 6571260
[Link]@[Link]

Primera edición digital: diciembre de 2020


Segunda edición digital: octubre de 2021
[Link]
publicaciones/publicaciones-del-departamento/?q=0

ISBN: 978-612-47757-2-7
Hecho el Depósito Legal en la Biblioteca Nacional del Perú: 2021-11437

Derechos reservados, prohibida la reproducción de este libro por cualquier medio, total
o parcialmente, sin permiso expreso de los editores.
Presentación

Este texto, que fue inicialmente redactado como material de apoyo para los estudiantes
de la maestrı́a en Estadı́stica de la Pontificia Universidad Católica del Perú, ofrece una
introducción al estudio de las principales técnicas de muestreo probabilı́stico.
Si bien en la literatura existen varios textos clásicos sobre muestreo como el de Cochran
(1977), Mendenhall et al. (2007) y Lohr (2000) y más avanzados como el de Tillé (2006)
y Lumley (2010), falta todavı́a, a mi humilde opinión, un texto de nivel intermedio que
integre estos enfoques y que a su vez incluya más aplicaciones a datos reales de dominio p
úblico. Este texto, en su segunda edición corregida y aumentada, pretende cubrir tal vacı́o
presentando no solo las técnicas de muestreo probabilı́stico clásicas, sino también tópicos de
muestreo complejo y una implementación computacional que actúe transversalmente a lo
largo de los diferentes temas del curso. Para ello usaremos principalmente los paquetes survey
y sampling escritos en el software libre R. Información sobre estos se puede consultar,
respectivamente, en los siguientes enlaces:

[Link]

[Link]

o en los textos de Lumley (2010) y Tillé (2006). Otra excelente referencia en el espı́ritu de
estas notas, y que incluye al paquete PracTools de R, es Valliant et al. (2013).
El texto está dividido en cinco capı́tulos. En el primer capı́tulo introducimos algunos
conceptos básicos de estadı́stica y ponemos énfasis en la diferencia que existe entre los en-
foques basados en el modelo y en el diseño. En el segundo capı́tulo presentamos la teorı́a
del muestreo aleatorio simple (MAS) e introducimos aquı́ no solo los conceptos teóricos per-
tinentes, sino también su implementación computacional y aplicación a datos reales. En el
tercer capı́tulo definimos el muestreo aleatorio estratificado como el agregado de un MAS
aplicado a subconjuntos relativamente homogéneos de la población, a los cuales denomina-
remos estratos. En el capı́tulo cuatro abordamos el muestreo por conglomerados, el cual es
quizás el esquema clásico más utilizado para grandes poblaciones. A diferencia del diseño
anterior, este esquema resulta ser más eficiente cuando los subconjuntos de la población (que
denominaremos conglomerados) muestran una marcada heterogeneidad en su interior pero
gran similitud entre ellos. Un tema central y unificador en este capı́tulo será el estudio de
los estimadores de Horvitz-Thompson para totales en diseños de conglomerados de una o
más etapas con probabilidades de selección no siempre constantes. De este se derivan casi
todos los esquemas anteriores, como el de conglomerados de una etapa y su caso particular
el muestreo sistemático. En el último capı́tulo nos dedicamos al estudio de muestras com-
plejas. Estas se originan cuando debido a la configuración y al tamaño de la población en
estudio se hace necesario restringir o combinar dos o más técnicas, ya sea que cada selección
se haga con igual probabilidad o no. Aquı́ nos interesará no solo obtener estimaciones pun-
tuales de los parámetros de interés, al expandir apropiadamente la muestra a la población,
sino fundamentalmente estimar la variabilidad de las estimaciones. Para ello discutiremos
diversas técnicas como la linealización y el remuestreo y nos apoyaremos, al igual que en los
capı́tulos anteriores, en los paquetes survey y sampling de R. Este capı́tulo brindará también
una introducción al análisis estadı́stico bajo muestras complejas. Como ilustración, veremos
aquı́ el análisis de datos categóricos, el de regresión y los contrastes de hipótesis para una,
dos o más poblaciones. El capı́tulo incluye algunos diseños muestrales y sus correspondiente
análisis para las bases de datos introducidas en el curso.
El texto se complementa con diversos ejercicios propuestos y algunas sugerencias o solu-
ciones a estos en un anexo final. Tales ejercicios son de nivel teórico y práctico y se usan, en
muchos de ellos, bases de datos de dominio público tanto locales como foráneas.

Dr. Luis Valdivieso


Índice general

1. Introducción 1
1.1. Enfoques basados en el diseño y el modelo . . . . . . . . . . . . . . . . . . . 1
1.2. Estimadores puntuales y por intervalos . . . . . . . . . . . . . . . . . . . . . 3
1.3. Distribuciones importantes asociadas al muestreo . . . . . . . . . . . . . . . 5
1.3.1. La distribución binomial . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3.2. La distribución multinomial . . . . . . . . . . . . . . . . . . . . . . . 6
1.3.3. La distribución hipergeométrica . . . . . . . . . . . . . . . . . . . . . 8
1.3.4. La distribución hipergeométrica multivariada . . . . . . . . . . . . . . 9
1.4. Esperanza, varianza y covarianza condicional . . . . . . . . . . . . . . . . . . 11
1.5. Selección de muestras al azar con y sin reemplazamiento . . . . . . . . . . . 13
1.6. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

2. Muestreo aleatorio simple 21


2.1. Muestreo con y sin reemplazamiento . . . . . . . . . . . . . . . . . . . . . . 21
2.2. Tamaños de muestra y errores de estimación . . . . . . . . . . . . . . . . . . 29
2.2.1. Tamaños de muestra para la estimación de una media y una proporción 29
2.2.2. Estimaciones previas . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.3. Aspectos computacionales y el paquete survey . . . . . . . . . . . . . . . . . 35
2.3.1. La base de datos api . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.3.2. La evaluación censal de estudiantes 2019 . . . . . . . . . . . . . . . . 39
2.3.3. El censo nacional de población penitenciaria 2016 . . . . . . . . . . . 42
2.3.4. La población peruana con DNI 2018 . . . . . . . . . . . . . . . . . . 46
2.4. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

3. Muestreo aleatorio estratificado 63


3.1. Introduccción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
3.2. Teorı́a del muestreo aleatorio estratificado . . . . . . . . . . . . . . . . . . . 63
3.3. Pesos de muestreo y efectos de diseño . . . . . . . . . . . . . . . . . . . . . . 65
3.4. Tamaños de muestra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
3.5. Dominios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

3
3.6. Uso del paquete survey . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
3.6.1. MAE con la base de datos api . . . . . . . . . . . . . . . . . . . . . . 75
3.6.2. MAE con la evaluación censal de estudiantes 2019 . . . . . . . . . . . 78
3.6.3. MAE para la población penitenciaria 2016 . . . . . . . . . . . . . . . 80
3.7. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

4. Muestreo por conglomerados 93


4.1. Teorı́a del muestreo por conglomerados . . . . . . . . . . . . . . . . . . . . . 94
4.2. Muestreo por conglomerados de una etapa . . . . . . . . . . . . . . . . . . . 95
4.3. El estimador de razón . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
4.4. Estimación de una proporción . . . . . . . . . . . . . . . . . . . . . . . . . . 99
4.5. Muestreo por conglomerado bietápico . . . . . . . . . . . . . . . . . . . . . . 101
4.6. La correlación intraclase y el efecto de diseño . . . . . . . . . . . . . . . . . . 103
4.7. Muestreo sistemático . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
4.8. Tamaños de muestra para diseños multietápicos . . . . . . . . . . . . . . . . 110
4.9. El estimador de Horvitz-Thompson . . . . . . . . . . . . . . . . . . . . . . . 112
4.10. Muestreo ppt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
4.11. Muestreo secuencial ppt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
4.12. Muestreo sin reemplazamiento con probabilidades desiguales . . . . . . . . . 123
4.12.1. El esquema de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . 124
4.12.2. El esquema sistemático ordenado . . . . . . . . . . . . . . . . . . . . 124
4.12.3. El esquema de Sampford . . . . . . . . . . . . . . . . . . . . . . . . . 125
4.12.4. Esquemas de división . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
4.13. Muestreo por conglomerados para la población api . . . . . . . . . . . . . . . 127
4.14. Diseño por conglomerados ppt para la población penal . . . . . . . . . . . . 130
4.15. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134

5. Una introducción al muestreo complejo 145


5.1. Pesos de muestreo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
5.1.1. Ajuste de pesos por no respuesta . . . . . . . . . . . . . . . . . . . . 148
5.1.2. Ajuste de pesos por elegibilidad desconocida . . . . . . . . . . . . . . 150
5.2. Estimadores no lineales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
5.3. Efectos de diseño y consideraciones prácticas para obtener tamaños de muestra156
5.4. Estimación de la varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159
5.4.1. El método de linealización . . . . . . . . . . . . . . . . . . . . . . . . 160
5.4.2. El estimador de razón y regresión . . . . . . . . . . . . . . . . . . . . 160
5.4.3. Métodos de remuestreo . . . . . . . . . . . . . . . . . . . . . . . . . . 162
5.4.4. El muestreo por mitades balanceado . . . . . . . . . . . . . . . . . . 163
5.4.5. El método Jackknife . . . . . . . . . . . . . . . . . . . . . . . . . . . 171
0

5.4.6. El método Bootstrap . . . . . . . . . . . . . . . . . . . . . . . . . . . 174


5.5. Una introducción al análisis estadı́stico con muestras complejas . . . . . . . . 176
5.5.1. Análisis de datos categóricos con muestras complejas . . . . . . . . . 177
5.5.2. Análisis de regresión . . . . . . . . . . . . . . . . . . . . . . . . . . . 182
5.5.3. Contrastes de medias para una, dos o más poblaciones. . . . . . . . . 197
5.6. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200

A. Sugerencias o respuestas a los ejercicios pares 209

Bibliografı́a 243
Capı́tulo 1

Introducción

1.1. Enfoques basados en el diseño y el modelo


Supongamos que un banco busca estimar el ahorro medio que las familias de un distrito
planifican para un mes. Sea y la variable (estadı́stica) que asigna a cada familia del distrito
este monto de ahorro en soles. Naturalmente, si aquı́ se hace un censo en el que se pregunte
y averigue (con fortuna) sobre los ahorros de las N familias del distrito, uno obtendrá N
números y1 , y2 , . . . , yN y el ahorro medio de interés será:
N
1 
µN = yi .
N i=1
Desafortunadamente, el banco no puede hacer un censo, y por ello planifica realizar un
muestreo probabilı́stico seleccionando al azar, y por simplicidad con reemplazamiento, una
por una a las familias del padrón de la municipalidad hasta un número n < N . Note que
bajo este esquema toda familia tiene la misma probabilidad de ser escogida. Al término del
estudio, el banco obtendrá la muestra
Y1 , Y2 , . . . , Yn , (1.1)
donde Yi denota el valor (aleatorio) que podrı́a tomar la variable estadı́stica y en la i-
ésima selección de la muestra. Realizadas las observaciones, el ahorro medio mensual de
las familias del distrito podrá estimarse mediante la media aritmética de estos valores. Note
aquı́ que la aleatoriedad es introducida por el esquema de selección en el diseño de la muestra.
Ası́, podrı́amos escribir indistintamente la variable aleatoria correspondiente a la estimación
anterior como
n N
1 1
Ȳ = Yi o Ȳ = yi δ i , (1.2)
n i=1 n i=1
siendo δi una variable aleatoria con distribución binomial de parámetros n y probabilidad
1
N
que denota el número de veces que la i-ésima familia del distrito es seleccionada en la
muestra.

1
2 CAPÍTULO 1. INTRODUCCIÓN

Estadı́sticamente, (1.2) es un buen estimador de µN . Como podemos ver, su valor es-


perado o media es precisamente el parámetro que buscamos; es decir, Ȳ es un estimador
insesgado de µN :
N N N
1 1 n 1 
E(Ȳ ) = yi E(δi ) = yi = yi = µN
n i=1 n i=1 N N i=1

El enfoque hasta aquı́ comentado se denomina enfoque basado en el diseño. Un lector


perspicaz podrı́a preguntarse por qué este difiere del esquema clásico de inferencia en el
que uno simplemente asume una distribución o “superpoblación” para el ahorro Y de las
familias del distrito, digamos normal con media µ y varianza σ 2 y, por tanto, estima µ (que
es la cantidad que el banco quiere) al tomarse una muestra aleatoria Y1 , Y2 , . . . , Yn de Y y
considerarse el estimador n
1
Ȳ = Yi .
n i=1
La respuesta a esta interrogante no es tan directa. El enfoque clásico comentado, que se basa
en el modelo normal, difiere del que se basa en el diseño en el sentido que los parámetros
poblacionales µ y µN son por naturaleza distintos, a menos que la población sea infinita y el
modelo esté bien especificado. En efecto, uno puede integrar ambos enfoques pensando que
si la población fuese hipotéticamente grande (N → ∞), entonces la distribución empı́rica de
los números y1 , y2 , . . . , yN (piense por simplicidad en el polı́gono de frecuencias relativas del
histograma de estos datos) deberı́a converger (si el modelo es correcto) hacia la curva normal.
Luego podrı́amos pensar en la colección dada por (1.1) como una muestra aleatoria de la
variable aleatoria Y . En la realidad, las poblaciones son finitas; por ello si el interés radica
en estudiar la variable y, uno podrı́a asumir que esta población es a su vez una muestra
representativa de la superpoblación.
Observe que en un modelo basado en el diseño, a diferencia que en el de su par basado
en el modelo, la distribución de Y es irrelevante, a menos que, como precisamos, uno tenga
interés y tenga sentido analizar cuestiones asintóticas. Desde un punto de vista práctico, el
enfoque basado en el diseño nos será más útil para estudiar poblaciones finitas; mientras
que el enfoque basado en el modelo lo será para el estudio de poblaciones infinitas o muy
grandes.
Resumiendo, en un enfoque basado en el diseño, la aleatoriedad es introducida por el
esquema de selección de las unidades en la muestra, y la población finita de tamaño N sobre
la que se mide una o más caracterı́sticas, como y, es fija e invariable. Por otro lado, en un
enfoque basado en el modelo, la aleatoriedad es introducida por el modelo de distribución
que se asigne a la variable de interés. Ası́, ella define una superpoblación con un número
muy grande o infinito de posibles valores para esta variable, y los valores que ella toma
en la población finita de tamaño N conforman tan solo un subconjunto que se espera sea
representativo de esta superpoblación.
1.2. ESTIMADORES PUNTUALES Y POR INTERVALOS 3

1.2. Estimadores puntuales y por intervalos


Al margen del enfoque o diseño muestral utilizado, existen tres caracterı́sticas primor-
diales que uno debe tomar en cuenta en todo estudio inferencial. Estas son: el tamaño de la
muestra que se utilizará, el nivel de confianza y el error de estimación. Todos estos conceptos
están ı́ntimamente ligados a la teorı́a de la estimación puntual y por intervalos, puntos que
revisamos brevemente antes de presentar los principales tipos de muestreo probabilı́stico.
Sea X una variable aleatoria (v.a.) cuya distribución depende de un parámetro pobla-
cional desconocido θ. Dada una muestra aleatoria (m.a.) de tamaño n de X; vale decir, una
colección X1 , X2 , . . . , Xn de n v.a. independientes y con la misma distribución que X, es
de interés obtener un estimador θ̂n = g(X1 , X2 , . . . , Xn ) de θ. Por definición, este estimador
puede ser cualquier estadı́stica (función de la m.a.), pero es claro que nos interesarán esti-
madores buenos en el sentido, que de observarse la muestra, podamos garantizar que el valor
observado g(x1 , x2 , . . . , xn ) de θ̂n , al que llamaremos una estimación, se ubique cerca a θ.
Dado que no conocemos θ, esta cercanı́a debe evaluarse por métodos probabilı́sticos. En ge-
neral, un buen estimador, θ̂n de θ, debe verificar en lo posible las siguientes tres propiedades
básicas:
θ̂n debe ser un estimador insesgado; i.e, E(θ̂n ) = θ

θ̂n debe ser eficiente; i.e, debe tener varianza pequeña, por lo usual mı́nima bajo una
clase de estimadores insesgados
P
θ̂n debe ser consistente; i.e, θ̂n → θ, conforme n → ∞
Si bien el error estándar de estimación de θ̂n , definido como la desviación estándar de θ̂n ,
podrı́a resumir la calidad del estimador, la estimación puntual no nos brinda información
de cuán cerca o lejos se pueda encontrar la estimación de θ̂n de θ. Por tal motivo, surge la
llamada estimación por intervalos.
Un intervalo de confianza (IC) al 100(1 − α) % para un parámetro poblacional θ de una
v.a. X es un intervalo con estadı́sticas L1 y L2 en sus extremos (IC = [L1 , L2 ]), tal que
P (L1 ≤ θ ≤ L2 ) = 1 − α.
Una técnica para obtener un IC es utilizar alguna variable pivote de distribución conocida
que dependa de la m.a. y de solo θ como valor desconocido. Por ejemplo, si deseamos estimar
la media de una v.a. X ∼ N (µ, σ 2 ) con varianza conocida, podrı́amos utilizar como variable
pivote a
X̄ − µ
Z= √ ∼ N (0, 1).
σ/ n
Tomando luego dos valors de esta v.a., cuyas áreas en las colas sean iguales a α2 (¿por qué?),
obtendremos el siguiente intervalo de confianza al 100(1 − α) % para µ:
σ σ
IC = [X̄ − z1− α2 √ , X̄ + z1− α2 √ ] .
n n
4 CAPÍTULO 1. INTRODUCCIÓN

Cabe destacar que, gracias al teorema del lı́mite central (TLC), este IC es aún válido para
la media de cualquier distribución, siempre que n sea lo suficientemente grande y se tenga,
de no conocerse σ, una estimación consistente de esta desviación estándar.
Otro parámetro recurrente en diversas aplicaciones lo constituye la proporción p de ele-
mentos en la población que comparten cierta caracterı́stica. A fin de obtener un intervalo de
confianza aproximado al 100(1 − α) % para p, tomemos al azar n elementos de la población
fı́sica y consideremos las v.a. Xi definidas como 1 si es que en la i-ésima selección se en-
cuentra un elemento con la caracterı́stica buscada y como 0 en caso contrario. Note que los
elementos de esta muestra solo podrán garantizarse distintos si es que la muestra se toma sin
reemplazamiento. Esto ocasiona que las variables X1 , X2 , . . . , Xn no sean más independien-
tes; sin embargo, si el tamaño N de la población es grande o infinito, se podrı́a garantizar
una casi independencia (veremos un tratamiento más formal en el capı́tulo 2). En la prácti-
ca, si N es grande, estas variables se consideran independientes, por lo que la distribución

de X = ni=1 Xi , que representa al número de elementos en la muestra que comparten la
caracterı́stica buscada, puede asumirse que tiene aproximadamente una distribución bino-
mial de parámetros n y p. Más aún, si n es grande, podremos utilizar la aproximación de la
distribución binomial por la normal y usar:
X − np p̄ − p
Z= = ∼ N (0, 1),
np(1 − p) p(1−p)
n
X
con p̄ = n
,
como variable pivote para la construcción del IC para p. En efecto, tomando
simétricamente valores −z1− α2 y z1− α2 en la tabla normal estándar, podemos afirmar que
p̄ − p
P (−z1− α2 ≤  ≤ z1− α2 ) = 1 − α.
p(1−p)
n

Con el fin de despejar p en esta expresión, podemos considerar la probabilidad equivalente


p̄ − p 2 2
P (|  | ≤ z1− α) = 1 − α
p(1−p) 2

n
o
2 2
z1− α z1− α
P (p2 (1 + 2
) − p(2p̄ + 2
) + p̄2 ≤ 0) = 1 − α.
n n
Esta probabilidad puede escribirse como
P ((p − p1 )(p − p2 ) ≤ 0) = 1 − α,
donde p1 y p2 constituyen las raı́ces de la ecuación cuadrática asociada a la inecuación
anterior, las cuales vienen explı́citamente dadas por
 
2
z1− 2
z1− 2
z1− 2
z1− 4
z1−
α α α α z1− α α
2p̄ + n
2
− (2p̄ + n
2
)2 − 4p̄2 (1 + n
2
) p̄ + 2n
2
− √ 2
n
p̄(1 − p̄) + n2
2

p1 = 2
z1−
= 2
z1−
α α
2(1 + n
2
) 1+ n
2
1.3. DISTRIBUCIONES IMPORTANTES ASOCIADAS AL MUESTREO 5

y
 
2
z1− 2
z1− 2
z1− 2
z1− 4
z1−
α α α α z1− α α
2p̄ + n
2
+ (2p̄ + n
2
)2 − 4p̄2 (1 + n
2
) p̄ + 2n
2
+ √ 2
n
p̄(1 − p̄) + n2
2

p2 = 2
z1−
= 2
z1−
.
α α
2(1 + n
2
) 1+ n
2

Del análisis de los signos de la inecuación al interior de la probabilidad anterior se sigue que

P (p1 ≤ p ≤ p2 ) = 1 − α

y, por tanto, [p1 , p2 ] es un intervalo de confianza al 100(1−α) % para p . Este se conoce como
2
z1− α
el intervalo de Wilson. Si, por otro lado, para simplificar despreciamos aquı́ al término n 2 ,
por ser este pequeño cuando n es grande, obtendremos para p el IC = [p1 , p2 ] al 100(1− α) %
siguiente:  
p̄(1 − p̄) p̄(1 − p̄)
IC = [p̄ − z1− α2 , p̄ + z1− α2 ].
n n
Este se conoce como el intervalo de Wald para p.

1.3. Distribuciones importantes asociadas al muestreo


Aparte de la muy conocida distribución normal, en el curso requeriremos las formas tanto
univariadas como multivariadas de las distribuciones binomial e hipergeométrica. Estas las
asociaremos luego al contexto de los muestreos con y sin reemplazamiento, respectivamente.

1.3.1. La distribución binomial


Consideremos un experimento aleatorio sencillo, llamado de Bernoulli, que tiene solo dos
posibles resultados: E (de éxito) y F (de fracaso). Sea p = P (E) la probabilidad de que
ocurra un éxito. Si repetimos este experimento n veces de manera independiente y definimos
la variable aleatoria

X = Número de éxitos en los n experimentos independientes de Bernoulli,

entonces diremos que X es una v.a. con distribución binomial de parámetros n y p, y la


denotaremos por X ∼ B(n, p).

Proposición 1.1. Si X ∼ B(n, p), entonces:

a) La función de probabilidad de X viene dada por



Cxn px (1 − p)n−x si x = 0, 1, 2, ..., n
PX (x) = P (X = x) =
0 en otro caso
6 CAPÍTULO 1. INTRODUCCIÓN

b) E(X) = np

c) V (X) = np(1 − p)

Demostración: a) Note que el conjunto de posibles valores que X pueda tomar (rango de
X) es RX = {0, 1, 2, · · · , n}, ya que puede ocurrir que nunca se presente el éxito, en cuyo
caso X valdrá 0; ocurra una sola vez, en cuyo caso X valdrá 1, y ası́ sucesivamente hasta
el caso extremo en que el éxito siempre esté presente, en cuyo caso X será n. Ahora bien,
que el éxito se presente en x oportunidades especı́ficas y que el fracaso ocurra en los (n − x)
experimentos restantes tiene la siguiente probabilidad:

x términos (n − x) términos
     
(p.p. · · · .p) (1 − p)(1 − p) · · · (1 − p) = px (1 − p)n−x .

Dado que en total hay Cxn casos como este (piense en el número total de x posiciones que
se podrı́an escoger de las n para que en ellas ocurra el éxito), se tiene que P (X = x) =
Cxn px (1 − p)n−x , siendo x un valor cualesquiera de RX = {0, 1, 2, · · · , n}.
b) Haciendo en la sumatoria de abajo el cambio de variable k = x − 1, se tiene que
n
 n

E(X) = xCxn px (1 − p)n−x = n n−1 x
Cx−1 p (1 − p)n−x
x=0 x=1

n−1

= np Ckn−1 pk (1 − p)n−1−k = np(p + 1 − p)n−1 = np.
k=0

c) De manera similar, se cumple que


n
 n−1

E(X 2 ) = x2 Cxn px (1 − p)n−x = np (k + 1)Ckn−1 pk (1 − p)n−1−k
x=0 k=0

= np((n − 1)p + 1) = n(n − 1)p2 + np.


Por tanto, V (X) = E(X 2 ) − E(X)2 = n2 p2 − np2 + np − n2 p2 = np(1 − p). 

1.3.2. La distribución multinomial


Esta es la extensión multivariada de la distribución anterior. Para describirla, conside-
remos un experimento aleatorio cuyos resultados pueden caer en cualquiera de k categorı́as
excluyentes y exhaustivas C1 , C2 , . . . , Ck , con probabilidades respectivas p1 , p2 , . . . , pk que

satisfacen ki=1 pi = 1. Si este experimento se repite de manera independiente n veces y se
definen las variables aleatorias

Xi = número de veces en que ocurre la categorı́a Ci , i = 1, 2, . . . , k,


1.3. DISTRIBUCIONES IMPORTANTES ASOCIADAS AL MUESTREO 7

entonces se dice que el vector aleatorio (X1 , X2 , . . . , Xk ) tiene distribución multinomial de


parámetros n, p1 , p2 , . . . , pk y se le denota por (X1 , X2 , . . . , Xk ) ∼ M ul(n; p1 , p2 , . . . , pk ).
Detallamos seguidamente algunas de las propiedades de esta distribución.

Proposición 1.2. Si (X1 , X2 , . . . , Xk ) ∼ M ul(n; p1 , p2 , . . . , pk ), entonces:

a) La función de probabilidad (conjunta) de este vector viene dada por



n!
px1 px2 . . . pxk k si (x1 , x2 , . . . , xk ) ∈ R
x1 !x2 !...xk ! 1 2
P (X1 = x1 , X2 = x2 , . . . , Xk = xk ) =
0 en caso contrario
k
donde R = {(n1 , n2 , . . . , nk ) ∈ {0, 1, . . . , n}k / i=1 ni = n} denota rango del vector

b) Xi ∼ B(n, p), ∀i = 1, 2, . . . , k

c) Cov(Xi , Xj ) = −npi pj , ∀i = j ∈ {1, 2, . . . , k}

Demostración: a) La probabilidad de que en las primeras x1 repeticiones ocurra C1 , en las


siguientes x2 repeticiones ocurra C2 y ası́ sucesivamente hasta que en las últimas xk re-
peticiones ocurra Ck es por la independencia px1 1 px2 2 . . . pxk k . Sin embargo, estas ocurrencias
podrı́an darse de otras formas en términos del orden de ocurrencia de cada categorı́a. Todas
las ordenaciones posibles de los n experimentos en donde x1 serán de tipo C1 , y ası́ sucesi-
vamente hasta xk del tipo Ck , vienen dadas por x1 !x2n!!...xk ! . Por tanto, la probabilidad pedida
viene dada por la fórmula en a).
b) Basta notar que los experimentos que generan la multinomial podrı́an redefinirse como
experimentos de Bernoulli. En efecto, si llamamos éxito a que ocurra la categorı́a Ci y fracaso
a que ocurra cualquier otra categorı́a, el número de éxitos en las n repeticiones independientes
tiene distribución binomial de parámetros n y pi . Ella será entonces la distribución marginal
de la v.a. Xi .
c) Basta notar que de juntar en una a las categorı́as Ci y Cj , con i = j, se tiene que

Xi + Xj ∼ B(n, pi + pj ).

Ası́,
n(pi + pj )(1 − pi − pj ) = V (Xi + Xj ) = V (Xi ) + V (Xj ) + 2Cov(Xi , Xj )

npi (1 − pi ) + npj (1 − pj ) + 2Cov(Xi , Xj ).

Un despeje directo en esta ecuación nos lleva a que Cov(Xi , Xj ) = −npi pj . 

Cabe comentar que las variables aleatorias δi definidas en (1.2), que denotan el número
de veces en que la i-ésima unidad de la población fı́sica de tamaño N es seleccionada en
una muestra al azar y con reemplazamiento de tamaño n, son todas v.a. con distribución
8 CAPÍTULO 1. INTRODUCCIÓN

B(n, N1 ). Más aún, si se tuviera interés en las frecuencias de selección de los elementos i = j
de la población, entonces no es difı́cil verificar que
1 1 2
(δi , δj , δ0 ) ∼ M ul(n; , , 1 − ),
N N N
donde δ0 denota la frecuencia de selecciones de otras unidades distintas a i y j. Note que
estas v.a. no son independientes, desde que, por ejemplo:
P (δi = x, δj = y, δ0 = n − x − y) 1 1
P (δj = y | δi = x) = = Cyn−x ( )y (1 − )n−y
P (δi = x) N −1 N −1
1 y 1
= Cyn (
) (1 − )n−y = P (δj = y), ∀x, y ∈ {0, 1, . . . , n} con x + y ≤ n.
N N
De manera general se cumple que
1 1 1
(δ1 , δ2 , . . . , δN ) ∼ M ul(n; , , . . . , ).
N N N

1.3.3. La distribución hipergeométrica


Considere una población de N elementos, M de los cuales son de tipo A, y supongamos
que se extrae al azar y sin reemplazamiento una muestra de n elementos de esta población.
Si definimos
X = Número de elementos de tipo A en la muestra,
entonces se dice que X es una v.a. con distribución hipergeométrica de parámetros N , M y
n y se le denota por X ∼ H(N, M, n).

Proposición 1.3. Si X ∼ H(N, M, n), entonces:

a) La función de probabilidad de X viene dada por


 M N −M
Cx Cn−x
N si x = 0, 1, 2, ..., n
PX (x) = P (X = x) = Cn
0 en otro caso,

donde se conviene que Cab = 0, si a > b

b) E(X) = n M
N

−n
c) V (X) = n M
N
(1 − M
N
)( N
N −1
)

Demostración: a) Supongamos, sin pérdida de generalidad, que N − M < n < M (analice


como ejercicio los otros casos) y consideremos un elemento cualesquiera x de su rango RX , el
cual por las condiciones dadas serı́a RX = {0, 1, 2, . . . , n}. Sea x un elemento cualquiera de
RX , entonces el evento (X = x) = {ω ∈ Ω / X(ω) = x}, donde Ω denota espacio muestral
conformado por todas las muestras o subconjuntos de n elementos que podrı́amos tomar de
1.3. DISTRIBUCIONES IMPORTANTES ASOCIADAS AL MUESTREO 9

los N de la población, ocurre si y sólo si en la muestra x elementos poseen la caracterı́stica


A y n − x no la poseen. Dado que cualquier subconjunto de tamaño n de la población tiene la
misma probabilidad de ser seleccionado en la muestra, podrı́amos aplicar la definición clásica
de probabilidad y escribir
n(X = x)
PX (x) = P (X = x) = .
n(Ω)
N −M
Por tanto, n(Ω) = CnN y por el principio de multiplicación n(X = x) = CxM Cn−x (pues, en
la muestra, primero debemos seleccionar x de los M elementos que tienen la caracterı́stica
C M C N −M
A y luego n − x de los N − M que tienen la caracterı́stica Ac ). Ası́, PX (x) = x C Nn−x .
n
b) Mostraremos solo b) y dejaremos como ejercicio c), el cual podrı́a obtenerse con un
procedimiento análogo. Como en la proposición anterior, asumiremos, sin pérdida de gene-
ralidad, que para n ≥ 2 (si n = 1 el resultado es directo) se cumple que N − M < n < M .
Dado x ∈ RX = {0, 1, 2, . . . , n}, el siguiente resultado directo de combinatorias nos será de
utilidad:
M! M (M − 1)! M −1
xCxM = x = = M Cx−1 , si x > 0.
(M − x)!x(x − 1)! (M − x)!(x − 1)!
Luego, al hacer en la sumatoria de abajo el cambio de variable k = x − 1, se tiene que
n N −M n M −1 N −M
C M Cn−x Cx−1 Cn−x
E(X) = x x N =M
x=0
Cn x=1
CnN

n−1
M M −1  CkM −1 Cn−1−k
N −M
M M −1 M
= C = N Cn−1 =n ,
CnN n−1 k=0 M −1
Cn−1 Cn N
donde la última suma en la ecuación anterior es 1, pues se está sumando allı́ la función de
probabilidad de una v.a. con distribución H(N − 1, M − 1, n − 1). 

1.3.4. La distribución hipergeométrica multivariada


Esta es la extensión multivariada de la distribución anterior. Aquı́, en lugar de estar la
población de tamaño N dividida en dos clases (A y Ac ), esta se particiona en k clases, a las
que denotaremos por C1 , C2 , . . . , Ck . Cada clase Ci posee Mi elementos, de tal manera que
N = M1 + M2 + . . . + Mk . Si seleccionamos ahora al azar y sin reemplazamiento n elementos
de esta población y definimos las variables aleatorias

Xi = número de elementos de la clase Ci seleccionados en la muestra, i = 1, 2, . . . , k,

entonces se dice que el vector aleatorio (X1 , X2 , . . . , Xk ) tiene distribución hipergeométri-


ca multivariada de parámetros n, M1 , M2 , . . . , Mk y se le denota por (X1 , X2 , . . . , Xk ) ∼
Hmul(n; M1 , M2 , . . . , Mk ).
10 CAPÍTULO 1. INTRODUCCIÓN

Proposición 1.4. Si (X1 , X2 , . . . , Xk ) ∼ Hmul(n; M1 , M2 , . . . , Mk ), entonces:

a) La función de probabilidad (conjunta) de este vector viene dada por

CxM1 1 CxM2 2 . . . CxMkk


P (X1 = x1 , X2 = x2 , . . . , Xk = xk ) = ,
CnN

donde algunas de las combinatorias Cab = 0 arriba son nulas si a > b

b) Xi ∼ H(N, Mi , n), ∀i = 1, 2, . . . , k
nMi Mj N −n
c) Cov(Xi , Xj ) = − N2
( N −1 ), ∀i = j ∈ {1, 2, . . . , k}

d) Si la muestra fuera tomada con reemplazamiento,

M1 M2 Mk
(X1 , X2 , . . . , Xk ) ∼ M ul(n; , ,..., )
N N N

Demostración: a) El espacio muestral asociado a esta selección está constituido por todos
los conjuntos de n elementos que se pueden formar con los N y, por tanto, tiene CnN ele-
mentos. El evento de interés tiene, por otro lado, en base al principio de multiplicación,
CxM1 1 CxM2 2 . . . CxMkk elementos. Ası́, por la definición clásica, la probabilidad pedida es el co-
ciente de estas cantidades.
b) Basta observar que de segmentarse la problación en solo dos clases: la clase Ai de Mi
elementos y la clase Aci de N − Mi elementos, entonces Xi ∼ H(N, Mi , n).
c) Como en el multinomial, si juntamos juntamos dos categorı́as Ai y Aj (con i = j) en una
sola, se tendrá que Xi + Xj ∼ H(N, Mi + Mj , n). Ası́,

M i + Mj M i + Mj N − n
n( )(1 − )( ) = V (Xi + Xj )
N N N −1

Mi Mi N − n Mj Mj N − n
= n( )(1 − )( ) + n( )(1 − )( ) + 2Cov(Xi , Xj ).
N N N −1 N N N −1
−n nM M
Un despeje directo en esta ecuación nos lleva a que Cov(Xi , Xj ) = − Ni2 j ( N N −1
).
d) Si se admitiera reemplazamiento, cada selección generarı́a un experimento con k posibles
resultados, siendo pi = M N
i
la probabilidad de que en el i-ésimo experimento se obtenga un
elemento de la categorı́a Ci . Además, dada la independencia de estos experimentos por el
reemplazo, el vector aleatorio (X1 , X2 , . . . , Xk ) que cuenta las veces que ocurren cada una de
estas k categorı́as en los n experimentos tendrá la distribución multinomial descrita. 

Por último, note que las v.a. δi discutidas en (1.2) tienen una naturaleza completamente
distinta si la muestra se toma sin reemplazamiento. En efecto, si esta fuera la situación y
se tuviera interés en la selección, por decir, de las unidades i = j de la población fı́sica,
1.4. ESPERANZA, VARIANZA Y COVARIANZA CONDICIONAL 11

entonces para la distribución conjunta del vector (δi , δj , δ0 ), que denota respectivamente a
las frecuencias de selección de las unidades i, j u otras en la muestra, se cumplirı́a que

(δi , δj , δ0 ) ∼ Hmul(n; 1, 1, N − 2).

Aprecie que las v.a. δi y δj de este vector están ahora restringidas a tomar solo dos valores
(0 o 1) y no son independientes desde que

P (δi = 1, δj = 1, δ0 = n − 2) n−1 n
P (δj = 1 | δi = 1) = = = = P (δj = 1),
P (δi = 1) N −1 N

ya que marginalmente δj ∼ H(N, 1, n). En general, se cumplirá que

(δ1 , δ2 , . . . , δN ) ∼ HM ul(n; 1, 1, . . . , 1).

1.4. Esperanza, varianza y covarianza condicional


Discutiremos seguidamente una propiedad recurrente en varias aplicaciones del curso.
Esta se refiere al cálculo indirecto de la media, varianza y covarianza mediante el condicio-
namiento de las variables de interés a un vector aleatorio Z.

Proposición 1.5. Si X, Y son dos v.a. con varianza finita y Z es un vector aleatorio,
entonces:
E(X) = E (E(X | Z))
y
Cov(X, Y ) = E (Cov(X, Y | Z)) + Cov (E(X | Z), E(Y | Z)) .
En particular,
V (X) = E (V (X | Z)) + V (E(X | Z)) .
Demostración: Para probar la primera afirmación asumamos, sin pérdida de generalidad, que
Z es un vector aleatorio discreto (que es el caso más recurrente en el muestreo). Entonces,
sumando sobre todo valor posible del vector aleatorio Z, se tiene que
  
E (E(X | Z)) = E(X | Z = z)P (Z = z) = xP (X = x | Z = z)P (Z = z)
z z x∈RX
    
= xP (X = x, Z = z) = x P (X = x, Z = z) = xP (X = x) = E(X).
z x∈RX x∈RX z x∈RX

En relación con la covarianza, podrı́amos usar el resultado anterior y escribir

E (Cov(X, Y | Z)) = E (E(XY | Z) − E(X | Z)E(Y | Z))

= E(XY ) − E (E(X | Z)E(Y | Z))


12 CAPÍTULO 1. INTRODUCCIÓN

Cov (E(X | Z), E(Y | Z)) = E (E(X | Z)E(Y | Z)) − E (E(X | Z)) E (E(Y | Z))
= E (E(X | Z)E(Y | Z)) − E(X)E(Y ).
Sumándose ambos términos, el resultado es E(XY ) − E(X)E(Y ), que no es sino la cova-
rianza entre X e Y . 
Ejemplo 1.1. Un almacén contiene 6 cajas con la siguiente distribución:

Caja (i) 1 2 3 4 5 6
Número de artı́culos (Ni ) 60 43 97 80 120 100
Número de defectos (Mi ) 5 4 6 5 15 10

Si para estimar la proporción de defectos en este almacén usted selecciona al azar una caja
y extrae aleatoriamente y sin reemplazamiento un 20 % de sus artı́culos,

a) ¿Define tal procedimiento un estimador insesgado de la proporción buscada?

b) Obtenga la varianza del estimador propuesto.

Solución: a) Denotemos por δi a la variable indicadora que nos dice si la caja i ha sido
(δi = 1) o no (δi = 0) seleccionada. Entonces, (δ1 , δ2 , δ3 , δ4 , δ5 , δ6 ) ∼ M ul(1; 16 , 16 , 16 , 16 , 16 , 16 ).

El estimador propuesto se puede escribir luego como p̂ = 6i=1 p̄i δi , donde p̄i = X ni
i
denota la
proporción muestral de defectos en la caja i; Xi ∼ H(Ni , Mi , ni ) denota el número de defectos
en la muestra de la caja i, y ni es el tamaño de muestra para la caja i, el cual es igual al 20 %
de Ni o a su entero superior, pensando como es racional que se desean minimizar costos.
Para el insesgamiento usaremos, tal como se ilustra seguidamente, la proposición 1.5:
6
 6
 6
E(Xi ) Mi 1
E(p̂) = E (E(p̂ | δ1 , δ2 , . . . , δ6 )) = E( δi ) = E(δi ) = pi ,
i=1
ni i=1
Ni 6 i=1
Mi
siendo pi = Ni
la proporción de defectos en la caja i. Dado que en general
6 6
1  Mi Mi
E(p̂) =  i=1
= 6 = p,
6 i=1 Ni i=1 Ni

p̂ no es un estimador insesgado de p.
Note que si conociéramos la distribución dada para este ejemplo (lo cual probablemente
no ocurra y por eso se hace el muestreo), se tendrı́a que E(p̂) = 0.0876, valor que difiere de
la verdadera proporción de defectos en el almacén que es de p = 0.09.
b) Por la proposición 1.5, V (p̂) = E (V (p̂ | δ1 , . . . , δ6 )) + V (E(p̂ | δ1 , . . . , δ6 )). Como las
muestras en cada caja se pueden asumir independientes, se tendrá que
6
 6
1 Mi Mi Ni − ni 2
V (p̂ | δ1 , . . . , δ6 ) = V (p̄i )δi2 = (1 − )( )δ ,
i=1 i=1
n i N i Ni Ni − 1 i
1.5. SELECCIÓN DE MUESTRAS AL AZAR CON Y SIN REEMPLAZAMIENTO 13

y ası́
6 6
1  1 Mi Mi Ni − ni 1  1 pi (1 − pi )(Ni − ni )
E (V (p̂ | δ1 , . . . , δ6 )) = (1 − )( )= .
6 i=1 ni Ni Ni Ni − 1 6 i=1 ni ni (Ni − 1)
6
Por otro lado, como E(p̂ | δ1 , . . . , δ6 ) = i=1 pi δi , se tiene que
6
 6 
 6 6 6 6
5  2 1 
V (E(p̂ | δ1 , . . . , δ6 )) = p2i V (δi ) + pi pj Cov(δi , δj ) = pi − pi pj .
i=1 i=1 j=1
36 i=1 36 i=1 j=1
i=j i=j

Por tanto, la varianza pedida viene dada por


6 6 6 6
1  1 pi (1 − pi )(Ni − ni ) 5  2 1 
V (p̂) = + pi − pi pj .
6 i=1 ni ni (Ni − 1) 36 i=1 36 i=1 j=1
j=i

En el caso que se conociera la distribución en el almacén, esta varianza podrı́a evaluarse y


vendrı́a dada por V (p̂) = 0.004711247. 

1.5. Selección de muestras al azar con y sin reempla-


zamiento
A lo largo del curso exploraremos diferentes librerı́as en R que nos permitirán no solo
tomar muestras complejas, sino también analizarlas. En esta sección veremos las dos formas
más básicas de seleccionar una muestra: las de tomarlas al azar con y sin reemplazamiento
y en las que todos los elementos tendrán la misma probabilidad de selección. En adelante, a
todo procedimiento de selección lo denominaremos un algoritmo de muestreo.
El algoritmo de muestreo con reemplazamiento es directo y se realiza utilizando la función
de distribución empı́rica asociada a la selección de los elementos de una población fı́sica
P = {1, 2, . . . , N }:
i
F̂ (i) = .
N
Aquı́ basta generar de manera independiente n números aleatorios de una distribución uni-
forme en el intervalo [0, 1], u1 , u2 , . . . , un y seleccionar las n unidades i1 , i2 , . . . , in en P
mediante
ik = mı́n{i ∈ P /F̂ (i) ≥ uk }, ∀k = 1, 2, . . . , n.

En un muestreo sin reemplazamiento, el procedimiento anterior no es tan directo, pues la


no restitución de los elementos previamente tomados modifica la función de distribución
empı́rica asociada a la selección de los elementos de la población fı́sica, la cual se va también
14 CAPÍTULO 1. INTRODUCCIÓN

modificando. Una manera de realizar esto es procediendo de forma secuencial; es decir, em-
pezando por generar independientemente n números aleatorios u1 , u2 , . . . , un en el intervalo
[0, 1] y obteniendo, como antes, el primer elemento de la muestra mediante

i1 = mı́n{i ∈ P /F̂ (i) ≥ u1 }.

Una vez seleccionado el k-ésimo elemento, ik , el siguiente a incluir será


o(i)
ik+1 = mı́n{i ∈ P \ {i1 , i2 , . . . , ik } / ≥ uk+1 }, ∀k = 1, 2, . . . , n − 1,
N −k
donde o(i) denota la posición ordinal que la unidad i ocupa en el conjunto P \ {i1 , i2 , . . . , ik }.
El proceso se repetirá luego hasta obtenerse in .
Otro algoritmo de muestreo sin reemplazamiento es el enumerativo. Este consiste en
etiquetar cada una de las CnN muestras posibles, seleccionar al azar un número aleatorio
u ∈ [0, 1] y escoger la muestra cuya etiqueta k dividida entre N sea la primera en superar a
u.
Como se aprecia, los procedimientos anteriores pueden resultar engorrosos, sobre todo si la
muestra es sin reemplazamiento. Afortunadamente, se dispone en R del comando sample,el
cual nos permite seleccionar muestras de manera directa. La sintaxis de este comando es

m = sample(x, size, replace, prob),

donde x denota un vector con los valores de alguna variable de interés que se evaluó en
cada elemento de la población; size es el tamaño de muestra; replace es TRUE o FALSE,
dependiendo si la muestra es con o sin reemplazamiento, respectivamente (argumento que
por defecto es sin reemplazamiento), y prob es un vector con las probabilidades de selección
para cada elemento en x (argumento opcional que por defecto asume que todos los elementos
en la población tienen la misma probabilidad de selección). Si los valores de la variable en x
no son de interés, sino que solo deseamos elegir n elementos de esta, el primer argumento de
esta función puede también ser N , que es el tamaño de la población. Si escribimos en R

[Link](12345)
(m = sample(80, 10))

## [1] 58 70 60 69 35 13 25 38 53 71

m es un vector cuyas componentes corresponden a los elementos seleccionados en P =


{1, 2, . . . , 80} mediante un muestreo al azar y sin reemplazamiento de tamaño 10. Cabe
aclarar que estamos fijando en la primera lı́nea de comandos una semilla aleatoria. Esta
será la misma semilla que usaremos, en lo posible, a lo largo del texto con el fin de garantizar
que nuestros resultados sean replicables por parte del lector. Por otro lado, los paréntesis en
la segunda lı́nea de comandos indican que este resultado se mostrará en pantalla.
1.6. EJERCICIOS 15

1.6. Ejercicios
1. Obtenga los intervalos de confianza de Wald y Wilson al 95 % para la proporción p de
defectos de los artı́culos de una lı́nea continua de producción, si al seleccionarse al azar 100
artı́culos de esta lı́nea se encontraron 4 artı́culos defectuosos.

2. Juan, Pepe, Rosa, Luis y Marı́a participan en un sorteo donde se han de repartir entre
ellos 4 vales de 50 soles cada uno.
a) Si Juan desea ganar algo, ¿qué le convendrı́a más: un sorteo con o sin reemplazamiento?
b) Si la selección se hace con reemplazamiento, ¿qué probabilidad hay de que Juan gane 1
vale y Rosa 2? ¿Es esta probabilidad la misma a que Juan gane los cuatro vales?
c) Bajo reemplazamiento, ¿con qué probabilidad solo Rosa y Luis ganarán vales?
d) Halle, en el caso de que el sorteo se haga con reemplazamiento, el monto que esperará ob-
tener Juan en el sorteo.

3. a) Sea X una variable aleatoria con distribución binomial de parámetros N y p, y supon-


gamos que la distribución condicional de una v.a. Y , dado que X = x, es hipergeométrica
con Y |X=x ∼ H(N, x, n). Demuestre que Y ∼ B(n, p).
b) Suponga que en un estudio sobre la prevalencia de una enfermedad (proporción p de
personas que la padecen) se piensa tomar una muestra al azar y con reemplazamiento de
tamaño 420. Un estadı́stico opina que esto es excesivo, pues conocer si las personas tienen
o no la enfermedad implicará aplicar una prueba cara y de logı́stica algo complicada. Dado
que ya se han enviado cartas a las personas seleccionadas, el estadı́stico suguiere tomar más
bien un muestreo al azar y sin reemplazamiento de tamaño 80 de la población inicialmente
contactada. Si se acepta la sugerencia del estadı́stico y si p es 0.1, ¿con qué probabilidad se
encontrará en la muestra más de 5 personas que padezcan la enfermedad?

4. La producción diaria de una fábrica, que es de 200 artı́culos, contiene 12 artı́culos con
un defecto de tipo A y 8 artı́culos con un defecto de tipo B. Si usted adquiere al azar y
sin reemplazamiento 20 de estos artı́culos y sabe que cada artı́culo bueno le reportará una
utilidad de 25 soles; mientras que cada artı́culo con defectos de tipo A y B le reportará una
pérdida de 5 y 10 soles, respectivamente,
a) ¿Con qué probabilidad obtendrá una utilidad de 400 soles al vender los 20 artı́culos?
b) Halle el valor esperado y la desviación estándar de la utilidad de venta de los 20 artı́culos.

5. En un experimento se colocan, uno a uno, 20 ratones en una caja con 8 puertas idénticas.
Dos de las puertas conducen a un premio; una a un castigo, y las otras son neutras. Sean
XP , XC y XN el número de estos ratones que eligen la puerta con premio, castigo y neutra,
respectivamente, en su primer intento.
a) ¿Cuál es la distribución conjunta de estas variables aleatorias?
b) Halle e interprete la correlación de Pearson entre XP y XN .
16 CAPÍTULO 1. INTRODUCCIÓN

6. Dos encuestadoras han seleccionado al azar y sin reemplazamiento muestras de tamaños


20 y 10 en una población de 50 personas. Halle la función de probabilidad, valor esperado y
varianza del número de personas que serán entrevistadas por ambas encuestadoras.

7. Un encuestador tiene asignado un área de trabajo de 100 viviendas, donde se sabe que el
10 % de estas presentan cierta caracterı́stica que solo podrá conocerse durante la entrevista.
El entrevistador visitará casa por casa y aplicará una encuesta más larga a las viviendas que
poseen la caracterı́stica. Suponga que el encuestador tiene una cuota de 5 viviendas con la
caracterı́stica de interés, luego de lo cual será reemplazado por otro encuestador.
a) Halle la función de probabilidad del número de entrevistas que realizará el entrevistador.
b) Suponga que el tiempo en minutos que emplea el entrevistador en realizar una encuesta
a una vivienda, sin y con la caracterı́stica de interés, es una v.a. con distribución normal
de media 8 minutos y desviación estándar de 2 minutos y media 15 minutos y desviación
estándar de 4 minutos, respectivamente. Halle el tiempo efectivo que se espera le tome al
entrevistador realizar todas sus encuestas.

8. Suponga que 4 cápsulas de un medicamento genérico fueron mezcladas con 20 de marca


y luego distribuidas al azar en 4 cajas de 6 cápsulas cada una. Una manera de pensar la
distribución de las cápsulas en las cajas es secuencialmente; esto es, eligiendo primero al
azar y sin reemplazamiento 6 cápsulas para colocarlas en una caja, que etiqueraremos 1;
seleccionando luego al azar y sin reemplazamiento otras 6 cápsulas de las 18 restantes para
colocarlas en una caja 2, y seleccionando finalmente al azar y sin reemplazamiento 6 de las
12 cápsulas restantes para colocarlas en una caja 3. Las cápsulas sobrantes conformarán la
caja 4.
a) Halle la función de probabilidad del número de cápsulas del medicamento genérico que
contendrá la caja etiquetada como 1.
b) Halle la probabilidad de que solamente la caja 3 contenga cápsulas del medicamento
genérico. ¿Es esta probabilidad la misma si se tratara de la caja 1?
c) Verifique que la probabilidad de que una caja contenga x cápsulas genéricas es siem-
pre la misma al margen de la etiqueta que tenga la caja. Ello puede hacerlo calculando
esta probabilidad para cada etiquetado y cada valor posible x. Como ayuda, puede usar
la función dhyper(x,M,N-M,n) de R que le permite hallar la probabilidad de que una v.a.
X ∼ H(N, M, n) tome el valor x.
d) Muestre que la función de probabilidad conjunta del número de cápsulas del medicamento
genérico que contendrá cada una de las 4 cajas (X1 , X2 , X3 , X4 ) viene dada por

Cx61 Cx62 Cx63 Cx64


PX1 X2 X3 X4 (x1 , x2 , x3 , x4 ) = .
C424

e) Halle la función de probabilidad del número de cajas que contendrá alguna cápsula del
medicamento genérico.
1.6. EJERCICIOS 17

9. Un peaje tiene 10 casetas de pago, 3 de las cuales son exclusivas para buses y camiones
y el resto se destina a solo autos. Suponga que el 20 % de los vehı́culos que pasan por este
peaje son buses o camiones y el resto autos, y que los vehı́culos tienen igual probabilidad de
escoger cualquier caseta que les corresponda. Si la administradora le informa que en un dı́a
pasaron por el peaje 800 vehı́culos, que en las 3 casetas para buses y camiones se registraron
56, 65 y 60 unidades, pero no le informa sobre la distribución del número de autos en las
demás casetas,
a) ¿Cuál será la distribución conjunta del número de autos que pasaron durante ese dı́a por
las casetas correspondientes?
b) ¿Que tán probable fué que se hayan obtenido estos resultados para las casetas de buses o
camiones?
c) ¿Cuántos autos se espera que hayan pasado por la caseta 4 (de autos) durante ese dı́a?
10. Sea (X1 , X2 , . . . , Xk ) ∼ HM ul(n; M1 , M2 , . . . , Mk ) y supongamos seleccionamos tres
componentes cualesquieras i, j y m de este vector. ¿Es cierto que el vector aleatorio
(Xi , Xj , Xm ) tiene también una distribución hipergeométrica multivariada?
11. Se ha creado una nueva agrupación polı́tica producto de la fusión de 3 partidos polı́ticos
A, B y C. En esta nueva agrupación participan 10 personas del partido A, 20 personas del
partido B y 15 personas del partido C. Para crear esta nueva agrupación cada miembro de
estos partidos aportó, respectivamente, 100, 500 y 300 u.m. Si usted selecciona al azar y sin
reemplazamiento a 10 personas de esta nueva agrupación para aplicarles una encuesta,
a) ¿Con qué probabilidad la mitad de los encuestados serán ex integrantes del partido C?
b) ¿Cuál es la probabilidad de que todas las personas encuestadas menos una hayan sido
integrantes del partido B?
c) ¿Cuál es el monto total de aporte que se esperará reporten las personas en la encuesta?
d) Si le informan, luego de tomarse la muestra, que solo 3 personas que pertenecieron al
partido A fueron encuestadas, ¿cuántas personas del otrora partido B se espera hayan sido
encuestadas?
e) Suponga que el 80 %, 50 % y 60 % de las personas de los otrora partidos A, B y C tenı́an
interés en formar parte del Ejecutivo.

e.1) ¿Cuántos encuestados, ex-integrantes del partido C, se esperan tengan interés en el


Ejecutivo?

e.2) En general, ¿cuántas de las personas seleccionados para la encuesta espera que tengan
interés en el Ejecutivo?

e.3) Si se propone como estimador de la proporción de interés en el Ejecutivo a la corres-


pondiente proporción muestral en la encuesta, ¿forma este un estimador insesgado?

e.4) ¿Cuál es la varianza del estimador propuesto en e.3)?


18 CAPÍTULO 1. INTRODUCCIÓN

12. Proponga, para el ejemplo 1.1, un estimador insesgado de la proporción buscada y calcule
su varianza.

13. En este ejercicio, tomado de Valdivieso (2017), una empresa recibe lotes de 500 artı́culos
de un fabricante y utiliza el siguiente plan de muestreo doble para la inspección de recibo:

i ) Se toma una muestra al azar y sin reemplazamiento de 15 unidades. Si ningún artı́culo


es defectuoso, se acepta el lote; si se encuentran 3 o más artı́culos defectuosos, se lo rechaza;
en cualquier otro caso se toma una segunda muestra de 13 unidades.

ii ) Si el número total de unidades defectuosas (en ambas muestras) es mayor que 3, se


rechaza el lote, en caso contrario se acepta.

iii) Finalmente, si se rechaza el lote, se inspeccionan el 100 % de sus unidades y el fabricante


debe cambiar las unidades defectuosas por buenas y pagar los costos de inspección.

Si los lotes recibidos tienen un 5 % de unidades defectuosas y el costo de inspección de una


unidad es de un sol, halle:

a) La probabilidad de rechazar el lote.

b) El gasto esperado por inspección de un lote por parte de la empresa y del fabricante.

14. Un congreso cuenta con la participación de N instituciones, siendo Mi el número de


participantes de la i-ésima institución. A fin de recabar información de los participantes
y sobre todo de sus instituciones, se ha diseñado una encuesta por muestreo en la que se
seleccionarán al azar a n personas, pero en la que solo se preguntará sobre la institución a
la primera persona que se encuentre de cada institución. Sea N e el número de instituciones
distintas que se encuentran en la muestra.
a) ¿Con qué probabilidad la muestra estará conformada por solo participantes de las tres
primeras instituciones?
b) Si solo la primera institución tiene n o más participantes, ¿con qué probabilidad N e = 1?
c) ¿Cuántas instituciones se esperará encuestar? SUG: Considere las v.a. indicadoras 1{Xi >0} ,
donde Xi denota el número de personas de la institución i que serán encuestadas.
d) Si la distribución de los participantes en el congreso fue la siguiente:

Institución (i) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Número de
participantes (Mi ) 17 8 3 4 6 9 12 14 1 2 1 4 2 10 2 5

y la muestra es de tamaño n = 16, obtenga las cantidades anteriormente pedidas y calcule


la probabilidad de que N e = 2.
1.6. EJERCICIOS 19

15. Con el fin de obtener una muestra al azar y sin reemplazamiento que corresponda exacta-
mente al 20 % de una población de tamaño N = 100, un alumno ha desarrollado el siguiente
algoritmo: simular 100 números aleatorios en el intervalo [0, 1] y tomar como muestra aque-
llas unidades i ∈ P = {1, 2, . . . , 100}, tales que sus correspondientes números aleatorios sean
menores o iguales a 0.2. ¿Es correcto este algoritmo de muestreo para los propósitos de este
muestreo? Justifique.
16. Un gran complejo turı́stico tiene 12 parques temáticos que se pueden visitar uno por dı́a.
Un turista solo tiene 4 dı́as de estadı́a, por lo cual elige al azar 4 de estos parques. Tiempo
después de comprar sus entradas se entera de que 3 de los parques cobran parqueo.
a) Halle la función de probabilidad del número de parqueos que tendrá que pagar el turista
y calcule su valor esperado.
b) Simule el número de parqueos que tendrá que pagar el turista durante su estadı́a.
c) Si se propone el siguiente algoritmo de muestreo:

m <- u <- runif(4)


for(i in 1:4){m[i] = min(which((1:12/12>u[i])==TRUE))}
sum([Link](m<=9))

¿Es este algoritmo de muestreo adecuado para lo que se pide en b)?


17. Si selecciona al azar 6 compañeros de su salón de clase basándose en la lista de alumnos
del salón,
a) ¿Con qué probabilidad usted saldrá elegido de tomarse la muestra sin reemplazamiento?
b) ¿Con qué probabilidad algunos de sus compañeros serán elegidos en más de una oportu-
nidad de tomarse la muestra con reemplazamiento?
Capı́tulo 2

Muestreo aleatorio simple

En un muestreo aleatorio simple (MAS) toda muestra de tamaño n tiene la misma proba-
bilidad de ser seleccionada, lo cual corresponde teóricamente a la noción de muestra aleatoria
dada en la sección anterior si la población es infinita. En la práctica las poblaciones son fi-
nitas, digamos con N elementos. Aquı́ veremos cómo tomar en cuenta este hecho y nos
interesará encontrar tamaños de muestra y errores de estimación para tres de los paráme-
tros más frecuentemente referidos en un estudio inferencial, la media poblacional µ, el total
poblacional τ y la proporción de elementos p de la población que comparten alguna carac-
terı́stica particular. Para ser más precisos enfatizaremos sobre todo el primero y último de
estos parámetros, pues el análisis para el total poblacional

τ = Nµ o τ = Np

es directamente deducible de los de µ y p.

2.1. Muestreo con y sin reemplazamiento


Existen dos esquemas de muestreo aleatorio simple importantes: el muestreo aleatorio
simple con reemplazamiento, que lo denotaremos en adelante por MASc, y el muestreo alea-
torio simple sin reemplazamiento, que lo denotaremos en adelante por MASs. En la sección
1.5 adelantamos ya varias de las caracterı́sticas de estos esquemas, ası́ como algunos de sus
algoritmos de muestreo; es decir, cómo realizar el muestreo en la práctica. En esta sección
nos enfocaremos más en el análisis de las unidades seleccionadas cuando en ellas se desee
estudiar una o más variables de interés.
Con base en un enfoque basado en el diseño, consideremos primero para ello una población
fı́sica P = {1, 2, . . . , N } de tamaño N a cuyos elementos los estamos identificando, por
simplicidad, con los números naturales positivos. A estos que pudieran ser sujetos, eventos,
materiales, escuelas, paı́ses, etc, los llamaremos unidades. Sobre estas unidades mediremos

21
22 CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE

una variable estadı́stica y para generar la población estadı́stica Py constituida por todos los
valores de y en P; es decir,
Py = {y1 , y2 , . . . , yN },
siendo yi el valor de y para la unidad i. Note que algunos de estos valores pueden repetirse,
lo cual no ocurre en P. Sea n < N el tamaño de muestra a seleccionarse.
En un esquema MASc, las unidades se seleccionan al azar una a una de la población,
con la peculiaridad de que estos son repuestos o reemplazados en cada etapa de selección.
Ası́, una unidad cualesquiera j ∈ P podrı́a ser elegida en más de una oportunidad. Por otro
lado, en el esquema MASs, las unidades seleccionadas no se reponen y, por tanto, una unidad
cualesquiera j ∈ P podrı́a ser elegida en a lo más una oportunidad. En este caso, seleccionar
las unidades una a una hasta completar la muestra equivale a seleccionar toda la muestra de
una sola vez. La ventaja del diseño MASc es que las variables aleatorias definidas en (1.1)
y asociadas a los valores de y en las unidades seleccionadas son independientes. En efecto,
esto se sigue desde que para cualquier par de selecciones j < k y cualquier par de elementos
yp , yq ∈ Py de la población estadı́stica:

P (Yj = yp , Yk = yq ) = P (Yk = yq | Yj = yp )P (Yj = yp ) = P (Yk = yq )P (Yj = yp ).

En un MASs, por otro lado, lo anterior no siempre se cumple, ya que, por ejemplo,
1 1
P (Y2 = yq | Y1 = yp ) = = = P (Y2 = yq )
N −1 N
en el que caso de que los elementos de la población estadı́stica sean todos distintos.
Si bien la falta de independencia en un MASs puede acarrear problemas técnicos, este es
en la práctica el esquema más utilizado pues garantiza siempre distintas selecciones en P.
Enfaticemos ahora el estudio y las propiedades de dos de los estimadores más recurrentes
en el muestreo, la media y la varianza muestrales
N N
1 1 
Ȳ = yi δ i y S2 = (yi − Ȳ )2 δi ,
n i=1 n − 1 i=1

donde recordemos que δi es una variable aleatoria que cuenta el número de veces que la
unidad i de P es seleccionada en la muestra.
Tanto en el MASc como en el MASs, estas estadı́sticas constituyen los estimadores na-
turales de la media poblacional
N
1 
µN = yi
N i=1
y varianza poblacional
N N
2 1  1 
σN = (yi − µN )2 o 2
σN −1 = (yi − µN )2 .
N i=1 N − 1 i=1
2.1. MUESTREO CON Y SIN REEMPLAZAMIENTO 23

En adelante, para una mejor comprensión, convendremos en denotar las variables aleatorias
con letras mayúsculas (a excepción de los δi ) y con letras minúsculas las no aleatorias.
Antes de analizar algunas propiedades de los estimadores Ȳ y S 2 , es útil recordar que el
vector aleatorio de frecuencias de conteo para cada unidad de la muestra (δ1 , δ2 , . . . , δN ) tiene
una distribución multinomial o hipergeométrica multivariada, dependiendo de si el esquema
es un MASc o un MASs, respectivamente. Más aún, por lo visto en (1.2), tanto la media
como la varianza muestral podrı́an escribirse alternativamente como
n
1
Ȳ = Yi
n i=1

y
n
1 
S2 = (Yi − Ȳ )2 ,
n − 1 i=1
donde Y1 , Y2 , . . . , Yn denotan los valores que secuencialmente la variable estadı́stica en estudio
y podrı́a tomar en cada selección de la muestra. La proposición siguiente nos brinda algunas
propiedades de estas últimas variables aleatorias.

Proposición 2.1.

a) En un MASc, las v.a. Y1 , Y2 , . . . , Yn son independientes e idénticamente distribuidas


2
con media E(Yi ) = µN y varianza V (Yi ) = σN .

b) En un MASs, las v.a. Y1 , Y2 , . . . , Yn son idénticamente distribuidas con media E(Yi ) =


2
µN , varianza V (Yi ) = σN y se cumple que Cov(Yi , Yj ) = − N1 σN 2
−1 , ∀i = j.

Demostración: Supongamos, sin pérdida de generalidad, que todos los elementos en Py son
distintos.
a) La independencia ya se analizó. Que las v.a. Y1 , Y2 , . . . , Yn tengan la misma distribución
2
de media µN y varianza σN es, por otro lado, consecuencia directa de que la distribución de
cualesquiera de estas variables, digamos Yi , viene definida por la función de probabilidad

1
N
si y = y1 , y2 , y3 , . . . , yN
PYi (y) = P (Yi = y) = (2.1)
0 en otro caso
b) Claramente, como la selección es secuencial, Y1 tiene la distribución (2.1). Más aún, con-
dicionando y trabajando inductivamente, se puede probar que la distribución de cualesquiera
de las variables Y1 , Y2 , . . . , Yn , digamos Yi , tiene la función de probabilidad dada en (2.1).
Como podemos ver, para cualquier j ∈ P:
N

P (Y2 = yj ) = P (Y2 = yj | Y1 = yi )P (Y1 = yi )
i=1
24 CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE

N
 N
 1 1
1 1
= P (Y2 = yj | Y1 = yi ) = = .
i=1
N i=1
N −1N N
i=j i=j

Otra manera de ver lo anterior y que nos servirá también para las otras afirmaciones es
notando que la distribución conjunta del vector (Y1 , Y2 , . . . , Yn ) viene dada por

P (Y1 = yj1 , Y2 = yj2 , . . . , Yn = yjn )

= P (Yn = yjn | Y1 = yj1 , . . . , Yn−1 = yj(n−1) ) . . . P (Y2 = yj2 | Y1 = yj1 )P (Y1 = yj1 )
1 1 1 1
= × × ... × × ,
N −n+1 N −n+2 N −1 N
cualesquiera sea k ∈ {1, 2 . . . , n} e yjk ∈ Py . De esta distribución conjunta se pueden hallar
distintas marginales, como la de la v.a. Yi , la cual se obtiene sumando la última función de
probabilidad conjunta sobre todos los valores de las demás variables. Estas sumas contienen
(N − 1)(N − 2) . . . (N − n + 1) términos, por lo cual su resultado nos dará N1 , que es preci-
samente la misma distribución que en el caso MASc. Por tal razón, las Yi tienen la misma
media y varianza anteriores. Podemos también, por otro lado, hallar la distribución conjunta
del vector (Yi , Yj ) con i = j. Esta viene dada por la suma de la distribución conjunta sobre
todos los valores de las demás n − 2 variables que no contengan los valores donde se evalúan
Yi e Yj . Estas sumas, como no es difı́cil ver, contienen (N − 2)(N − 3) . . . (N − n + 1)
términos, de aquı́ que se tenga que

(N − 2)(N − 3) . . . (N − n + 1) 1
P (Yi = yp , Yj = yq ) = = , ∀p = q ∈ P.
(N − n + 1)(N − n + 2) . . . (N − 1)N N (N − 1)

Consecuentemente,
N 
 N
Cov(Yi , Yj ) = E((Yi − µN )(Yj − µN )) = (yp − µN )(yq − µN )P (Yi = yp , Yj = yq )
p=1 q=1

 N
N  N N
1 1
= (yp − µN )(yq − µN ) = (yp − µN )( (yq − µN ) − (yp − µN ))
p=1 q=1
N (N − 1) N (N − 1) p=1 q=1
q=p

N N
= 1
N (N −1)
(( p=1 (yp − µN ))2 − p=1 (yp − µN )2 ) = − N1 σN
2
−1 . 

Ejemplo 2.1. Considere la población de sujetos P = {1, 2, 3, 4, 5, 6, 7} y su población es-


tadı́stica Py = {12, 32, 18, 37, 22, 18, 28} asociada a la edad y de ellos en años. Suponga que
se toma un MAS con n = 3. Halle la distribución muestral de la media y varianza para esta
muestra y verifique que estos son estimadores insesgados. Realice esto para los dos esquemas
de muestreo estudiados.
2.1. MUESTREO CON Y SIN REEMPLAZAMIENTO 25

Solución: La media y varianza poblacionales de y vienen dadas por µ7 = 23.9, σ62 = 78.1 y
σ72 = 67. En un MASc tenemos, de tomarse en cuenta el orden, un total de 73 = 343 muestras
posibles; mientras que en un MASs tenemos un total de C37 = 35. Nosotros desarrollaremos
aquı́ el caso de un MASs dejando el otro esquema como ejercicio para el lector. Como ayuda
utilizaremos el paquete combinat de R. Dado que en este problema precisamos obtener la
distribución muestral de la media y varianza muestrales, apelaremos al uso del comando
combn y obtendremos para cada posible muestra tanto su media, varianza y probabilidad de
selección. El código respectivo se muestra seguidamente y los resultados se resumen en los
cuadros 2.1, 2.2 y 2.3.

library(combinat)
options(digits=3)
ypop = c(12, 32, 18, 37, 22, 18, 28)
samplesMASs = t([Link](combn(ypop,3)))
ybar = apply(samplesMASs,1,mean)
s2 = apply(samplesMASs,1,var)
probs = rep(1/length(ybar), length(ybar))
bsamplesMASs = cbind(samplesMASs,ybar,s2,probs)
pp1 = aggregate(bsamplesMASs[,6],by = list(bsamplesMASs[,4]),sum)
colnames(pp1) = c("Media muestral","Probabilidad")
pp2 = aggregate(bsamplesMASs[,6],by = list(bsamplesMASs[,5]),sum)
colnames(pp2) = c("Varianza muestral","Probabilidad")

Cabe comentar que si la muestra fuese con reemplazamiento, podrı́amos encontrar los ı́ndices
de todas las posibles muestras con el comando [Link](rep(list(1:7),3)).
Según las tablas mostradas, los valores esperados de la media y varianza muestrales vendrán
dados, respectivamente, por

c(sum(pp1[,1]*pp1[,2]),sum(pp2[,1]*pp2[,2]))

## [1] 23.9 78.1

mientras que la varianza de la media muestral es

sum(((pp1[,1] - sum(pp1[,1]*pp1[,2]))^2)*pp1[,2])

## [1] 14.9

Esto nos indica que la media muestral Ȳ es efectivamente un estimador insesgado de µ7 ;


mientras que la varianza muestral S 2 es un estimador insesgado de σ62 .

26 CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE

Muestra Mediam Varm Probs Muestra Mediam Varm Probs


1 12 32 18 20.7 105.3 0.0286 19 32 18 28 26 52 0.0286
2 12 32 37 27 175 0.0286 20 32 37 22 30.3 58.3 0.0286
3 12 32 22 22 100 0.0286 21 32 37 18 29 97 0.0286
4 12 32 18 20.7 105.3 0.0286 22 32 37 28 32.3 20.3 0.0286
5 12 32 28 24 112 0.0286 23 32 22 18 24 52 0.0286
6 12 18 37 22.3 170.3 0.0286 24 32 22 28 27.3 25.3 0.0286
7 12 18 22 17.3 25.3 0.0286 25 32 18 28 26 52 0.0286
8 12 18 18 16 12 0.0286 26 18 37 22 25.7 100.3 0.0286
9 12 18 28 19.3 65.3 0.0286 27 18 37 18 24.3 120.3 0.0286
10 12 37 22 23.7 158.3 0.0286 28 18 37 28 27.7 90.3 0.0286
11 12 37 18 22.3 170.3 0.0286 29 18 22 18 19.3 5.3 0.0286
12 12 37 28 25.7 160.3 0.0286 30 18 22 28 22.7 25.3 0.0286
13 12 22 18 17.3 25.3 0.0286 31 18 18 28 21.3 33.3 0.0286
14 12 22 28 20.7 65.3 0.0286 32 37 22 18 25.7 100.3 0.0286
15 12 18 28 19.3 65.3 0.0286 33 37 22 28 29 57 0.0286
16 32 18 37 29 97 0.0286 34 37 18 28 27.7 90.3 0.0286
17 32 18 22 24 52 0.0286 35 22 18 28 22.7 25.3 0.0286
18 32 18 18 22.7 65.3 0.0286

Cuadro 2.1: Probabilidades, medias y varianzas de todas las posibles muestras en un MASs
para el ejemplo 2.1

Varianza muestral Probabilidad


Media muestral Probabilidad
1 5.333 0.029
1 16.000 0.029
2 12.000 0.029
2 17.333 0.057
3 20.333 0.029
3 19.333 0.086
4 25.333 0.143
4 20.667 0.086
5 33.333 0.029
5 21.333 0.029
6 52.000 0.114
6 22.000 0.029
7 57.000 0.029
7 22.333 0.057
8 58.333 0.029
8 22.667 0.086
9 65.333 0.114
9 23.667 0.029
10 90.333 0.057
10 24.000 0.086
11 97.000 0.057
11 24.333 0.029
12 100.000 0.029
12 25.667 0.086
13 100.333 0.057
13 26.000 0.057
14 105.333 0.057
14 27.000 0.029
15 112.000 0.029
15 27.333 0.029
16 120.333 0.029
16 27.667 0.057
17 158.333 0.029
17 29.000 0.086
18 160.333 0.029
18 30.333 0.029
19 170.333 0.057
19 32.333 0.029
20 175.000 0.029
Cuadro 2.2: Distribución de la media mues-
Cuadro 2.3: Distribución de la varianza
tral para el ejemplo 2.1
muestral para el ejemplo 2.1
2.1. MUESTREO CON Y SIN REEMPLAZAMIENTO 27

Como el ejemplo anterior lo sugiere, tenemos las siguientes propiedades en un MAS.

Proposición 2.2. La media muestral Ȳ es un estimador insesgado de la media poblacional


µN y se tiene que
2
σN
a) V (Ȳ ) = n
en un MASc
2
n σN −1
b) V (Ȳ ) = (1 − N
) n en un MASs

La demostración de la proposición anterior es directa y puede deducirse de la demostra-


ción del siguiente resultado de suma importancia.

Proposición 2.3.

a) La media muestral es el MELI (mejor estimador lineal e insesgado) de la media pobla-


cional.

2 2
b) La varianza muestral es un estimador insesgado de σN para un MASc y de σN −1 para
un MASs.

Demostración: Puesto que la demostración de esta proposición es directa en el caso MASc,


la dejaremos como ejercicio. Nosotros centraremos nuestra atención al caso MASs.
a) Sea µ̂N un estimador lineal arbitrario de la media poblacional; es decir, un estimador de

la forma µ̂N = ni=1 ci Yi , donde las constantes ci que la definen son arbitrarias. Para que
este sea un estimador insesgado se debe satisfacer
n
 n
 n

µN = E(µ̂N ) = E( c i Yi ) = ci E(Yi ) = µN ci ;
i=1 i=1 i=1

es decir, las constantes ci deben sumar 1. Por otro lado, la varianza de este estimador lineal
viene dado por
n
 n 
 n
V (µ̂N ) = c2i V (Yi ) + ci cj Cov(Yi , Yj )
i=1 i=1 j=1
j=i

o más explı́citamente, de lo visto en la proposición 2.1, por


n
 n n n n  n n
2 1 2  N −1 2  2 1 2  
V (µ̂N ) = σN c2i − σN −1 ci cj = σN −1 ci − σN −1 ( ci cj − c2i )
i=1
N i=1 j=1
N i=1
N i=1 j=1 i=1
j=i

n
 n n
2 1 
= σN −1 ( c2i − ci cj ). (∗)
i=1
N i=1 j=1
28 CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE

Por tanto, el MELI de µN se obtendrá al hallar las constantes ci que resuelvan el siguiente
problema de optimización:
n
 n n
1 
mı́n
 c2i − ci cj .
s.a n
i=1 ci =1
i=1
N i=1 j=1

Dada la convexidad de la función objetivo, bastará considerar las condiciones de primer orden
del lagrangiano de esta función, el cual viene dado por
n
 n n n
1  
l= c2i − ci cj + λ(1 − ci ).
i=1
N i=1 j=1 i=1

De las derivadas parciales con respecto a ck se obtiene que


n
∂l 2 
0= = 2ck − ci − λ,
∂ck N i=1

de donde ck = N1 + λ2 . De la condición de insesgamiento, el multiplicador de Lagrange óptimo


resulta ser λ = n2 (1 − Nn ), el cual al reemplazarlo en la expresión previa nos da

1 1 n 1
ck = + (1 − ) = .
N n N n

Consecuentemente, el MELI de µN es Ȳ . Más aún, la varianza de este estimador es por (∗)

2
n σN
) −1 .
V (Ȳ ) = (1 −
N n
1
n 1
n
b) Puesto que S 2 = n−1 2
i=1 (Yi − Ȳ ) = n−1 (
2 2
i=1 Yi − nȲ ), se tiene que en un MASs

n
1 
E(S 2 ) = ( E(Yi2 ) − nE(Ȳ 2 ))
n − 1 i=1

n
1 
= ( (V (Yi ) + E(Yi )2 ) − n(V (Ȳ ) + E(Ȳ )2 ))
n − 1 i=1

n
1  2 n σ2
= ( (σN + µ2N ) − n((1 − ) N −1 + µ2N ))
n − 1 i=1 N n

1 N −1 2 n σ2
= (n( σN −1 + µ2N ) − n((1 − ) N −1 + µ2N )) = σN
2
−1 . 
n−1 N N n
2.2. TAMAÑOS DE MUESTRA Y ERRORES DE ESTIMACIÓN 29

2.2. Tamaños de muestra y errores de estimación


2.2.1. Tamaños de muestra para la estimación de una media y una
proporción
Los intervalos de confianza del capı́tulo anterior se basaron en el clásico teorema del lı́mite
central, el cual asume una muestra aleatoria de la variable en estudio. Desafortunadamente,
en un MASs, que es a la larga el esquema de muestreo más utilizado, esta suposición no
es correcta debido a la no independencia entre las componentes de las variables dadas en
la proposición 2.1. Para subsanar este problema tenemos aquı́ dos caminos que dependerán
de la naturaleza del tamaño de la muestra. Cuando esta es fija y el tamaño de la población
N → ∞, el esquema MASs converge en un MASc. Por otro lado, si n → ∞, deberı́amos
2
también consentir que N → ∞. Denotemos por µN y σN −1 a la media y varianza de las
correspondientes superpoblaciones. Hajek (1960) propuso el siguiente teorema del lı́mite
central: Si Nn → τ ∈]0, 1[ y máx1≤i≤N N Yi(Y−µ−µ N
)2
→ 0 conforme n → ∞ y N → ∞ o
i=1 i N
Yi −µN
N máx1≤i≤N N 2
es acotado en el lı́mite cuando N → ∞, entonces
i=1 (Yi −µN )

Ȳ − µN D
Z= n σ√
→ N (0, 1),
1− N n N −1

conforme n y N − n tiendan a infinito.


Este teorema del lı́mite central nos permite entonces construir, utilizando como variable
pivote la v.a. Z, un intervalo de confianza aproximado al 100(1 − α) % para la media po-
blacional µ. Este, al suprimirse el subı́ndice N − 1 en la varianza, toma para un tamaño de
muestra y población suficientemente grandes la forma
 
σ n σ n
IC = [Ȳ −z1− α2 √ 1− , Ȳ +z1− α2 √ 1 − ] = [Ȳ −z1− α2 SE(Ȳ ) , Ȳ +z1− α2 SE(Ȳ ) ],
n N n N

donde a SE(Ȳ ), que es la raı́z de la varianza asintótica de Ȳ , se le denomina el error estándar


de estimación de Ȳ . Observe que este IC para µ difiere del clásico para poblaciones infinitas

solo por el factor 1 − Nn . Note además que si N → ∞, este factor tiende a 1 y, por tanto,
uno obtiene el clásico IC para µ.
De manera similar, es posible realizar un estudio inferencial para poblaciones finitas con
una proporción poblacional p, ya que este es un caso particular de media cuando la variable
Y es dicotómica. En este caso, la variable pivote Z normal toma la forma
p̄ − p
Z=  ,
n N p(1−p)
1− N n(N −1)

2 N p(1−p)
con p̄ igual a la proporción muestral, desde que σN −1 = N −1
. Ası́, si tomamos simétrica-
30 CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE

mente valores −z1− α2 y z1− α2 en la tabla normal estándar, podemos escribir:


p̄ − p
P (−z1− α2 ≤   ≤ z1− α2 ) = 1 − α.
n N p(1−p)
1− N n(N −1)

A fin de despejar p en esta expresión, podemos considerar la probabilidad equivalente


p̄ − p
P (|   |2 ≤ z1−
2
α) = 1 − α
n N p(1−p) 2
1− N n(N −1)

o
P (p2 (1 + a) − p(2p̄ + a) + p̄2 ≤ 0) = 1 − α,
2 N −n
donde a = z1− α
n(N −1)
. Esta probabilidad puede escribirse como
2

P ((p − p1 )(p − p2 ) ≤ 0) = 1 − α,

siendo p1 y p2 las raı́ces de la ecuación asociada a la inecuación cuadrática anterior. Conse-


cuentemente, [p1 , p2 ] constituye un IC tipo Wilson al 100(1 − α) % para p. Si ahora en el IC
2
z1− α
anterior despreciamos el término n 2 , por ser este pequeño cuando n es grande, obtendremos
el IC = [p1 , p2 ] al 100(1 − α) % para p tipo Wald siguiente:
   
p̄(1 − p̄) N − n p̄(1 − p̄) N − n
IC = [p̄ − z1− 2α , p̄ + z1− 2
α ].
n N −1 n N −1
Si bien en el texto utilizaremos por simplicidad este último IC, hay que tener la precaución
de que si la verdadera proporción es extrema (cercana a 0 o 1), este IC tipo Wald no presenta
en general una adecuada cobertura. En tales situaciones, una opción más recomendable serı́a
usar el IC tipo Wilson. Tal problema de cobertura puede ilustrarse a través del siguiente
estudio de simulación, donde hemos graficado la proporción de cuántos de los 1000 IC,
generados a través de 1000 MASs de tamaño 30 de una población de tamaño 400 contienen
al verdadero parámetro p.

IC<-function(x,alpha,n,N,tipo){ # tipo = 1: Wald, tipo 2 = Wilson


pbar = x/n
z= qnorm(1-alpha/2)
a = (z^2)*(N-n)/(n*(N-1))
aux = a
if(tipo==1) aux = 0
e = 4*a*pbar + aux^2 - 4*a*pbar^2
L1 = (2*pbar + aux - sqrt(e))/(2*(1+aux))
L2 = (2*pbar + aux + sqrt(e))/(2*(1+aux))
c(L1,L2)}
2.2. TAMAÑOS DE MUESTRA Y ERRORES DE ESTIMACIÓN 31

# Estudio de simulación:
cover <- function(n,N,p,alpha,tipo) {
nsim = 1000
count = 0
for (i in 1:nsim) {
x = rhyper(1,N*p,N*(1-p),n)
if(tipo==1){ci = IC(x,alpha,n,N,1)}
else {ci = IC(x,alpha,n,N,2)}
if(p >= ci[1] & p <= ci[2]) {count = count + 1}
}
cover = count/nsim
cover}
p = seq(0.005,0.995,by=0.01)
np = length(p)
cc1 = 0
cc2 = 0
N = 400
n = 30
for(j in 1:np){cc1[j] = cover(n,N,p[j],0.05,1)}
for(j in 1:np){cc2[j] = cover(n,N,p[j],0.05,2)}

Establecidas las fórmulas de los IC aproximados al 100(1 − α) % para cualquier media y


proporción poblacional, nos interesará ahora hallar el tamaño de muestra n que uno deberı́a
considerar para poder garantizar a un nivel de confianza del 100(1 − α) % un error máximo
de estimación e, donde por error de estimación entenderemos la diferencia en valor absoluto
|θ̂n − θ| entre el parámetro y su estimador. Esto se obtiene directamente de los IC obtenidos.
En efecto, si queremos estimar la media µ, su IC correspondiente al 100(1 − α) % puede
reescribirse como 
σ n
P (|Ȳ − µ| ≤ z1− α2 √ 1 − ) = 1 − α.
n N
Luego, según lo convenido, se debe tener que

σ n
e = z1− 2
α √ 1− ,
n N
de donde despejando obtenemos la siguiente fórmula para el tamaño de muestra:
2 2
z1− ασ N
2
n= 2 2 2
.
z1− ασ + e N
2

Note que si N → ∞:
(z1− α2 σ)2
n= .
e2
32 CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE

Cobertura para diferentes valores de p

1.0
0.8
Proporción

0.6
0.4

IC de Wald
IC de Wilson
0.2

0.0 0.2 0.4 0.6 0.8 1.0

Figura 2.1: Simulación de la cobertura de los IC de Wald y Wilson al 95 % sobre una


proporción

De manera similar, podemos deducir la siguiente fórmula del tamaño de muestra n para
la estimación de p con un error máximo de estimación de e y un nivel de confianza del
100(1 − α) %:
2
(z1− α p̄(1 − p̄))N
2
n= 2 ,
z1− α p̄(1 − p̄) + e2 (N − 1)
2

y si N → ∞:
2
z1− α p̄(1 − p̄)
2
n= .
e2
Cabe agregar que la consideración de tamaños de muestra sobre la base de los errores máxi-
mos de estimación prefijados, también llamados errores absolutos e, no es universal. En la
literatura es también común encontrar la consideración del coeficiente de variación o de los
errores relativos. Recordemos que el coeficiente de variación poblacional (CV) de una varia-
ble estadı́stica y se define como el cociente entre la desviación estándar y la media de esta
variable, siendo este cociente usualmente expresado en porcentajes. La adimensionalidad de
este indicador facilita claramente la determinación de valores objetivos sin que interese la
escala en que uno mida la variable. Una regla práctica (que se debe de tomar con precaución)
nos dice que un estimador no es confiable si su CV estimado supera 30 %; contrariamente,
estimadores con un CV del 10 % o menos se suelen catalogar como confiables. Otra cantidad
citada en el cálculo del tamaño de muestra es el error relativo, el cual se define como
er = z1− α2 CV (θ̂),
2.2. TAMAÑOS DE MUESTRA Y ERRORES DE ESTIMACIÓN 33

siendo θ̂ el estimador de interés para θ. Para su interpretación, basta notar que si θ̂ es un es-
timador insesgado y la muestra es suficientemente grande, tendremos que aproximadamente,
con una confianza del 100(1 − α) %:

P (|θ̂ − θ| ≤ z1− α2 V (θ̂)) = 1 − α

o

θ̂ − θ V (θ̂) θ̂ − θ θ̂ − θ
P (| | ≤ z1− α2 ) = P (| | ≤ z1− α2 CV (θ̂)) = P (| | ≤ er ) = 1 − α.
θ E(θ̂) θ θ

Ası́, todas las fórmulas dadas en esta sección sobre n se satisfacen si, en lugar de especificarse
e, uno especifica un error relativo er o un coeficiente de variación CV0 para el estimador de
interés a través de la siguiente relación:

e = θer = θz1− α2 CV0 .

2.2.2. Estimaciones previas


Un aspecto problemático en las fórmulas desarrolladas lo constituyen tanto σ como p̄,
ya que el primero es en general un parámetro poblacional no conocido y el otro no puede
calcularse sin la muestra. En la práctica se tienen las siguientes alternativas para solucionar
este problema:

Estimar estas cantidades mediante un muestreo piloto (es decir, con una réplica previa,
pero en escala menor del muestreo final).

Estimar estas por cantidades similares de otros estudios semejantes.

Estimar σ por σ̂ = Rango


6
, donde Rango denota el ancho del intervalo que estimamos
contiene a todos los posibles valores de la variable Y . Esto se justifica por la desigual-
dad de Chebyshev, la cual, recordemos, nos dice que la probabilidad de que Y se
encuentre en el intervalo [µ − 3σ, µ + 3σ], siendo µ la media de Y , es muy cercana a 1
(concretamente de al menos 0.89).

Tomar p̄ = 12 . Esta es una regla conservadora que simplemente asigna el valor de p̄,
que maximiza el tamaño de muestra. Ası́, uno podrá siempre garantizar, al margen del
verdadero p̄, un error de estimación de a lo más e.

Ejemplo 2.2. La facultad de Ingenierı́a de una universidad cuenta con 1200 alumnos y
está interesada en realizar una encuesta con el fin de determinar, entre otros, el número
de alumnos que tienen una PC en casa. El coordinador de la facultad desea estimar este
34 CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE

total con un error máximo no mayor a los 30 alumnos y una confianza del 95 % ¿A cuántos
alumnos de la facultad se les deberı́a aplicar la encuesta?
Solución: Se desea estimar τ = número de alumnos de la facultad que poseen una PC en
casa con un margen de error no mayor a los 30 alumnos y un nivel de confianza del 95 %.
Dado que la población de alumnos en la facultad es finita (N = 1200) y τ = N p, donde
p denota la proporción de alumnos de la facultad que poseen una PC en casa, el problema
30
equivale a estimar p con un margen de error no mayor a e = 1200 = 0.025 y un nivel de
confianza del 95 %. Dado que p̄ se desconoce, tomaremos la regla conservadora p̄ = 12 . Con
ello, el tamaño de muestra requerido será de

z02.975 × 0.52 × 1200


n= = 674.0536  675 alumnos.
z02.975 × 0.52 + 0.0252 × 1199

Cabe observar que de no haberse tomado en cuenta el tamaño de la población (N → ∞),


uno hubiese obtenido, bajo el mismo error de estimación de 0.025, un tamaño de muestra
de n = 1537 alumnos, lo cual ciertamente no tiene sentido. 

Observaciones

Dado que los tamaños de muestra se han basado en el estudio de un solo parámetro,
es lógico preguntarse qué pasarı́a si en una investigación existen varios parámetros
o variables de interés. En tal caso se sugiere ubicar, según los objetivos del estudio,
cuáles son los parámetros de relevancia. Hecho esto, uno puede obtener tantos tamaños
de muestra como parámetros de interés tenga y tomar el mayor valor de estos. Tal
estrategia garantiza que en todos los casos relevantes uno obtenga a lo más los errores
de estimación pre establecidos.

Los tamaños de muestra calculados deben siempre aproximarse por exceso a un núme-
ro entero; de lo contrario, no satisfacerı́amos el requerimiento del máximo error pre-
establecido. Por otro lado, es importante en la práctica inflar estos tamaños por no
respuesta. La información de tasas de no respuesta en estudios previos, pilotos o simi-
lares es en muchas situaciones fácil de obtener.

Hemos priorizado en el curso el muestreo bajo el contexto que nos interesa estimar
ciertos parámetros poblacionales. Sin embargo, en algunas aplicaciones el estudio es
comparativo o correlacional y más que estimar puntualmente parámetros con una pre-
cisión determinada nos podrı́a interesar, por ejemplo, poder detectar ciertas diferencias
entre las medias o proporciones de las poblaciones a comparar o estimar el efecto de
ciertas variables en un análisis de regresión. Estos análisis estadı́sticos se introducirán
en el capı́tulo 5.
2.3. ASPECTOS COMPUTACIONALES Y EL PAQUETE SURVEY 35

2.3. Aspectos computacionales y el paquete survey


Existen en la literatura diferentes softwares estadı́sticos que pueden utilizarse para ana-
lizar muestras complejas. Información sobre estos puede encontrarse, por ejemplo, en

[Link]

Nosotros usaremos, aparte del siempre útil Excel y de ciertas rutinas de R, los paquetes
survey y sampling de R. Del segundo nos ocuparemos en los capı́tulos posteriores. En cuanto
al primero, este tiene esencialmente dos propósitos principales:

Enlazar la data al diseño de metadata (pesos, probabilidades de selección, unidades


primarias, identificadores de estratos, etc.) con el fin de poder realizar los ajustes
que sean necesarios al diseño de manera confiable y automática. Esto se hace con las
funciones svydesign y svrepdesign que crean objetos que contienen no solo la base
de datos, sino también la información del diseño. Ası́, por ejemplo, uno podrı́a extraer
un subconjunto de la data y preservar su diseño aplicado a este subconjunto.

Proveer de estimaciones válidas, con sus errores estándar de estimación estimados,


para diferentes estadı́sticos y procedimientos, de tal manera que se respete el diseño
de muestreo probabilı́stico empleado.

El primer paso para realizar un análisis con el paquete survey consiste en crear un objeto
diseño apropiado que contenga la data y la metada necesarias. Esto se hace con la función
svydesign o svrepdesign en caso de que se den pesos de replicación. Las funciones de
análisis usualmente toman como argumento el objeto diseño y una fórmula modelo que
especifica las variables que se usarán. Los nombres de las funciones de análisis para los
objetos creados con svydesign y svrepdesign comienzan con svy y svr, respectivamente.
Seguidamente brindaremos una introducción al uso del paquete survey y de paso presen-
taremos algunas bases reales de datos censales que utilizaremos a lo largo del curso.

2.3.1. La base de datos api


Nuestro primer ejemplo del uso del paquete survey será con el análisis de un MAS para
la población contenida en la base de datos api. Una descripción de esta base junto y la
información de las 37 variables en ella consideradas puede encontrarse en

[Link]

Cabe comentar, como resumen, que el estado de California exige anualmente una evaluación
de sus escuelas públicas. En tal sentido, el departamento de educación de este estado registra
anualmente el ı́ndice api (de academic performance index), que mide cuán bien va una escuela
36 CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE

en términos de rendimiento. El archivo api contiene este ı́ndice e información demográfica


de todas las 6194 escuelas públicas de California con al menos 100 alumnos por escuela.
Para acceder a la base de datos y al uso del paquete survey (que debe instalarse con
antelación) escribamos

library(survey)
data(api)
head(apipop,4)

## cds stype name sname snum


## 1 01611190130229 H Alameda High Alameda High 1
## 2 01611190132878 H Encinal High Encinal High 2
## 3 01611196000004 M Chipman Middle Chipman Middle 3
## 4 01611196090005 E Lum (Donald D.) Lum (Donald D.) Elementary 4
## dname dnum cname cnum flag pcttest api00 api99 target
## 1 Alameda City Unified 6 Alameda 1 NA 96 731 693 5
## 2 Alameda City Unified 6 Alameda 1 NA 99 622 589 11
## 3 Alameda City Unified 6 Alameda 1 NA 99 622 572 11
## 4 Alameda City Unified 6 Alameda 1 NA 99 774 732 3
## growth [Link] [Link] both awards meals ell [Link] mobility acs.k3
## 1 38 Yes Yes Yes Yes 14 16 <NA> 9 NA
## 2 33 Yes No No No 20 18 <NA> 13 NA
## 3 50 Yes Yes Yes Yes 55 25 <NA> 20 NA
## 4 42 Yes Yes Yes Yes 35 26 <NA> 21 20
## acs.46 [Link] [Link] [Link] hsg [Link] [Link] [Link] [Link]
## 1 NA 25 91 6 16 22 38 18 3.45
## 2 NA 27 84 11 20 29 31 9 3.06
## 3 26 27 86 11 31 30 20 8 2.82
## 4 30 NA 96 3 22 29 31 15 3.32
## full emer enroll [Link]
## 1 85 16 1278 1090
## 2 90 10 1113 840
## 3 80 12 546 472
## 4 96 4 330 272

Aquı́ mostramos los cuatro primeros registros de la base de datos api (que está en
apipop). Consideremos ahora un MASs de escuelas públicas de tamaño 100, donde hemos
fijado la semilla aleatoria anteriormente comentada para que usted pueda replicar los mismos
resultados aquı́ obtenidos.
2.3. ASPECTOS COMPUTACIONALES Y EL PAQUETE SURVEY 37

[Link](12345)
N = dim(apipop)[1]
n = 100
index1 = sample(N,n)
sample1 = apipop[index1,]

Por razones que comentaremos luego, será también interesante agregar a esta base dos
nuevas variables: fpc y pp. La primera es el tamaño de la población (6194); y la otra, la
probabilidad de selección de cada elemento en la población pp = Nn . Ello se hace con

aux = [Link](fpc = rep(N,100), pp = rep(n/N,100))


sample1 = cbind(sample1,aux)

Definamos ahora el siguiente objeto diseño apropiado que contenga la data y metada
necesarias:

diseMASs = svydesign(ids = ~1,fpc = ~fpc,data = sample1)

El argumento ids es para indicar las variables de conglomeración, las cuales en nuestro
caso no existen y es por ello que colocamos ids=~[Link] argumento fpc (de factor de correc-
ción para poblaciones finitas) indica el tamaño de la población, con lo cual implı́citamente
asumimos que se deben aplicar las formulaciones de corrección para poblaciones finitas y que
se está realizando un muestreo sin reemplazamiento. La notación ∼ indica que la variable
fpc está ya definida en la muestra sample1. Si el argumento fpc se omite, entonces deben
indicarse las probabilidades de selección o los pesos de muestreo, en cuyo caso se estarı́a
asumiendo implı́citamente un muestreo con reemplazamiento. Tanto ids como fpc, aparte
de los valores por defecto, conforman la metadata del diseño.
Otro diseño que podrı́a aplicarse en este mismo ejemplo es un MASc, para lo cual de-
berı́amos tomar formalmente la muestra aleatoria con reemplazamiento mediante

[Link](12345)
sample2 = apipop[sample(N,100, replace=TRUE),]
sample2 = cbind(sample2,aux)

El objeto diseño correspondiente serı́a

diseMASc = svydesign(ids = ~1,probs = ~pp,data = sample2)

De pedirse información, obtendrı́amos


38 CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE

diseMASc

## Independent Sampling design (with replacement)


## svydesign(ids = ~1, probs = ~pp, data = sample2)

Supongamos ahora que estamos interesados en estimar ciertos parámetros poblacionales,


como, por ejemplo, el número total de alumnos matriculados, la proporción por tipo de
escuelas y las medias y diferencia de medias del api entre 1999 y 2000. Bajo el diseño MASs,
esto se puede hacer mediante

svytotal(~enroll,diseMASs)

## total SE
## enroll NA NA

svymean(~stype, diseMASs)

## mean SE
## stypeE 0.68 0.05
## stypeH 0.20 0.04
## stypeM 0.12 0.03

means1 = svymean(~api00+api99,diseMASs)
means1

## mean SE
## api00 652 12.6
## api99 628 12.9

svycontrast(means1,c(api00=1,api99=-1))

## contrast SE
## contrast 24.5 2.96

El hecho de que en el primer resultado se obtenga NA se debe a que la muestra contiene


algún o algunos casos perdidos. Esto puede corregirse eliminando tales mediante

svytotal(~enroll,diseMASs,[Link]=T)

## total SE
## enroll 4115727 291390
2.3. ASPECTOS COMPUTACIONALES Y EL PAQUETE SURVEY 39

Con un MASc, lo anterior se convierte en

svytotal(~enroll,diseMASc,[Link]=T)

## total SE
## enroll 3979335 303578

Tenemos también

svymean(~stype, diseMASc)

## mean SE
## stypeE 0.70 0.05
## stypeH 0.11 0.03
## stypeM 0.19 0.04

(means1 = svymean(~api00+api99,diseMASc))

## mean SE
## api00 678 11.6
## api99 648 12.1

svycontrast(means1,c(api00=1,api99=-1))

## contrast SE
## contrast 30.4 2.84

Una justificación formal del último resultado, se puede encontrar en los ejercicios 20 y 28
de este capı́tulo.

2.3.2. La evaluación censal de estudiantes 2019


La unidad de medición de la calidad de los aprendizajes (UMC) del Ministerio de Edu-
cación, publicó el 2020 los resultados de la última evaluación censal de estudiantes (ECE)
2019. La página web correspondiente contiene información variada, entre la que destacan
las bases de datos en formato SPSS no solo de la ECE 2019 sino también la de años ante-
riores. Nosotros consideraremos inicialmente a la población objetivo de los rendimientos en
el segundo grado de secundaria de la Dirección Regional de Amazonas (en adelante DRE
Amazonas). Más adelante trabajaremos con una población mayor. Vale reiterar que estos
datos son censales, aunque en el caso del segundo grado se incluyen solo a aquellas escuelas
con más de 5 alumnos. No estamos tampoco incluyendo los factores de ajuste o ponderación
40 CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE

por casos pérdidos, que se incluyen para replicar los resultados dados por la UMC. Las va-
riables de interés para esta base de datos serán los puntajes de evaluación en las áreas de
Lectura, Matemáticas y Ciencia y Tecnologı́a (todas en una escala Rasch normalizada a 500
puntos). Para el Ministerio, los niveles de logro son de particular interés. Estos se obtienen
al categorizar los puntajes anteriores en cuatro niveles: previo al inicio, en inicio, en proceso
y satisfactorio.
Luego de instalar el paquete foreign, podremos operacionalizar la base de datos nacional
mediante

library(foreign)
ece19 = [Link]([Link](), [Link]=TRUE)
#[Link]() permite buscar en su hardware el archivo ECE_2S_2019_WEB.sav
setwd("~/Documents/TextoMuestreo2020") # fija el directorio de trabajo (DT)
save(ece19,file='[Link]') # graba el archivo [Link] en su DT

Se muestran abajo, los primeros tres registros de la base de la DRE Amazonas

setwd("~/Documents/TextoMuestreo2020")
load("[Link]")
# Filtrando la base de datos para Cajamarca
ece19Am = ece19[ece19$Departamento==levels(ece19$Departamento)[1],]
#save(ece19Am,file='[Link]')
head(ece19Am,3)

## ID_IE ID_Seccion cor_est cod_DRE nom_dre cod_UGEL


## 44817 21273 01 01 0100 Amazonas 010002
## 44818 21273 01 02 0100 Amazonas 010002
## 44819 21273 01 03 0100 Amazonas 010002
## nom_ugel codgeo Departamento
## 44817 Bagua 010201 AMAZONAS
## 44818 Bagua 010201 AMAZONAS
## 44819 Bagua 010201 AMAZONAS
## Provincia Distrito
## 44817 BAGUA BAGUA
## 44818 BAGUA BAGUA
## 44819 BAGUA BAGUA
## gestion2 area sexo M500_L grupo_L M500_M grupo_M M500_CT
## 44817 Estatal Urbana Hombre 639 En proceso 620 En proceso 542
## 44818 Estatal Urbana Hombre 634 En proceso 647 En proceso 602
## 44819 Estatal Urbana Hombre 616 En proceso 563 En inicio 620
2.3. ASPECTOS COMPUTACIONALES Y EL PAQUETE SURVEY 41

## grupo_CT aj_lectura aj_matematica aj_ct ISE


## 44817 En proceso 1.03 1.03 1.07 -0.849
## 44818 En proceso 1.03 1.03 1.07 0.826
## 44819 En proceso 1.03 1.03 1.07 0.928

Note que, a diferencia de la base de datos api, las unidades en esta base son alumnos y
no colegios.
Supongamos ahora que nuestro interés sea estimar el rendimiento medio de los alumnos
tanto en Lectura (L), Matemáticas (M) y Ciencia y Tecnologı́a (CT), con un margen de error
no mayor a 5 puntos y un nivel de confianza del 95 %. Para encontrar el tamaño de muestra
requeriremos de estimaciones de la varianza de estos puntajes, las cuales las podrı́amos
obtener de la ECE 2018 o a través de un estudio piloto. Si optamos por un piloto de 30
alumnos, la selección correspondiente, ası́ como la estimación de las varianzas requeridas, se
hará como sigue.

[Link](12345)
N = dim(ece19Am)[1]
index1 = sample(N,30)
mp19Am = ece19Am[index1,]
dismp = svydesign(id=~1,fpc=rep(N,30),data=mp19Am)
sigmae2_L = coef(svyvar(~M500_L,dismp,[Link]=T))
sigmae2_M = coef(svyvar(~M500_M,dismp,[Link]=T))
sigmae2_CT = coef(svyvar(~M500_CT,dismp,[Link]=T))

Dado que tenemos tres variables, optaremos, como comentamos, por seleccionar el mayor
tamaño de muestra bajo estas utilizando un redondeo por exceso.

d = 25*N/(qnorm(0.975)^2)
n1 = N*sigmae2_L/(d + sigmae2_L)
n2 = N*sigmae2_M/(d + sigmae2_M)
n3 = N*sigmae2_CT/(d + sigmae2_CT)
(n = ceiling(max(n1,n2,n3)))

## [1] 1662

La toma de muestra, definición del diseño y estimaciones de los rendimientos y propor-


ciones de logro se muestran a continuación:
42 CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE

[Link](12345)
index = sample(N,n)
m19Am = ece19Am[index,]
disem = svydesign(id=~1,fpc=rep(N,n),data=m19Am)
svymean(~M500_L,disem,[Link]=T)

## mean SE
## M500_L 536 1.62

svymean(~M500_M,disem,[Link]=T)

## mean SE
## M500_M 533 2.29

svymean(~M500_CT,disem,[Link]=T)

## mean SE
## M500_CT 469 2.59

meanp_L = svymean(~grupo_L,disem,[Link]=T)
meanp_M = svymean(~grupo_M,disem,[Link]=T)
meanp_CT = svymean(~grupo_CT,disem,[Link]=T)

pr = rbind(meanp_L,meanp_M,meanp_CT)
colnames(pr) = c("Previo al inicio","Inicio","En proceso","Satisfactorio")
pr

## Previo al inicio Inicio En proceso Satisfactorio


## meanp_L 0.331 0.403 0.187 0.0790
## meanp_M 0.448 0.294 0.145 0.1133
## meanp_CT 0.209 0.410 0.313 0.0675

2.3.3. El censo nacional de población penitenciaria 2016


El censo nacional de población penitenciaria 2016, realizado por primera vez en el paı́s
por el Instituto Nacional de Estadı́stica e Informática (INEI), generó información estadı́stica
cuantitativa y cualitativa actualizada sobre la problemática penitenciaria en el Perú. La base
de datos de este censo es de libre disponibilidad y se puede encontrar en la siguiente página
web del INEI:
[Link]
2.3. ASPECTOS COMPUTACIONALES Y EL PAQUETE SURVEY 43

La versión de esta base de datos, que utilizaremos a lo largo del texto, se encuentra en el
archivo [Link]. Ella está en formato SPSS y contiene todos los 76 180 registros de personas
privadas de libertad en el paı́s consignadas en el censo y la gran mayorı́a de preguntas de la
encuesta, la cual también se encuentra disponible en la página web del INEI. Para utilizar
la base de datos en R, debemos instalar el paquete foreign y luego invocar los comandos

library(foreign)
#cp16b <- [Link]([Link](), [Link]=TRUE)
cp16b <- [Link]("[Link]", [Link]=TRUE)
cp16 = [Link](cp16b)
cp16_labels <- attr(cp16b, "[Link]")
cp16_cat <- attr(cp16b, "[Link]")
save(cp16,file='[Link]')

La base de datos a utilizar es cp16; mientras que los archivos cp16_labels y cp16_cat
contienen información de, respectivamente, las etiquetas y categorı́as de las variables selec-
cionadas. Como se aprecia, la base de datos cp16 ha sido también grabada para uso futuro
en el formato de R. Esta base tiene, como seguidamente se aprecia, 189 variables, de las
cuales mostramos las primeras 18.

head(cp16[,1:18])

## ID PDEP PPROV PDIS PCP


## 1 3 CAJAMARCA
CAJAMARCA CAJAMARCA CAJAMARCA
## 2 19 CAJAMARCA
CAJAMARCA CAJAMARCA CAJAMARCA
## 3 24 CAJAMARCA
CAJAMARCA CAJAMARCA CAJAMARCA
## 4 26 CAJAMARCA
CAJAMARCA CAJAMARCA CAJAMARCA
## 5 39 CAJAMARCA
CAJAMARCA CAJAMARCA CAJAMARCA
## 6 40 CAJAMARCA
CAJAMARCA CAJAMARCA CAJAMARCA
## OFICINA_R EST_PENIT PABELLON GENERO E_CIVIL
## 1 Oficina Regional Norte Chiclayo Cajamarca 4 Mujer Casado(a)
## 2 Oficina Regional Norte Chiclayo Cajamarca NA Mujer Viudo(a)
## 3 Oficina Regional Norte Chiclayo Cajamarca NA Hombre Casado(a)
## 4 Oficina Regional Norte Chiclayo Cajamarca NA Hombre Viudo(a)
## 5 Oficina Regional Norte Chiclayo Cajamarca 3 Hombre Casado(a)
## 6 Oficina Regional Norte Chiclayo Cajamarca 7 Hombre Conviviente
## RELIGION EDAD NACIONALIDAD PAIS_NAC DEP_NAC DEP_URES
## 1 Católica 39 PERUANO PERU LIMA LIMA
## 2 Mormón 49 PERUANO PERU LIMA LIMA
## 3 Ninguna 25 PERUANO ESTADOS UNIDOS NA NA
44 CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE

## 4 Otra 26 PERUANO PERU CUSCO LIMA


## 5 Evangélica 49 PERUANO PERU CAJAMARCA CAJAMARCA
## 6 Ninguna 40 PERUANO PERU LA LIBERTAD CAJAMARCA
## CP_URES DEL_GENERICO_CD
## 1 CIUDAD DE DIOS DELITOS CONTRA EL PATRIMONIO
## 2 BARRIO OBRERO INDUST DELITOS CONTRA EL PATRIMONIO
## 3 DELITOS CONTRA EL PATRIMONIO
## 4 VILLA EL SALVADOR DELITOS CONTRA EL PATRIMONIO
## 5 LA COLPA DELITOS CONTRA LA ADMINISTRACION PUBLICA
## 6 CAJAMARCA DELITOS CONTRA EL PATRIMONIO

La distribución de frecuencias del número de internos, condición de género (CG) y ca-


pacidad de los establecimientos penitenciarios en cada oficina regional y departamento se
muestran en el cuadro 2.4.
Como una primera aproximación al análisis de la base de datos consideraremos un MASs,
cuyo objetivo será estimar cualquier proporción poblacional con un margen de error no mayor
a 0.03 y una confianza del 95 %. Para ello, el tamaño de muestra requerido estará dado por

1.962 × 0.5 × (1 − 0.5) × 76 180


n= = 1052.383
1.962 × 0.5 × (1 − 0.5) + 0.032 × 76 179

que redondeando nos da un valor de 1053 internos. Si bien usaremos este número, cabe
comentar que ello es si asumimos que todos responderán a la encuesta. En encuestas similares
para la región se han encontrado tasas de no respuesta de entre el 21 y 22 %. Una práctica
que comentamos es la de inflar este número ante la posibilidad de no respuesta. Ello nos
sugerirı́a encuestar a 1285 internos. Para efectos de este ejercicio tomaremos solo 1053, ya
que en nuestro caso es posible acceder a toda la información. Tomada la muestra, estimemos
la edad promedio de los internos, la proporción de internos sentenciados y la proporción de
estos que tienen un abogado. Los códigos siguientes nos permitarán hacer todo ello.

[Link](12345)
load('[Link]')
N = dim(cp16)[1]
index = sample(N,1053)
sample = cp16[index,]
diseMASs = svydesign(id=~1,fpc=rep(N,1053),data = sample)
svymean(~EDAD, diseMASs,[Link]=T)

## mean SE
## EDAD 35.8 0.35
2.3. ASPECTOS COMPUTACIONALES Y EL PAQUETE SURVEY 45

OFICINA REGIONAL DEPARTAMENTO [Link] NUMERO DE INTERNOS CG Capacidad


Norte Chiclayo CAJAMARCA Cajamarca 1389 Mix 888
Chota 131 H 65
Jaen 377 Mix 50
San Ignacio 79 H 150
LA LIBERTAD Pacasmayo 11 M 72
Trujillo 4471 H 1518
Mujeres de Trujillo 283 M 160
LAMBAYEQUE Chiclayo 3163 Mix 1143
PIURA Piura 3098 H 1370
Sullana 94 M 50
TUMBES Tumbes 860 Mix 384
Lima ANCASH Huaraz 1014 Mix 350
Chimbote 2321 Mix 920
CALLAO Callao 3201 H 572
Base Naval Callao 7 H 8
ICA Chincha 1331 H 1152
Ica 3943 Mix 1464
LIMA Cañete 1982 H 768
Huaral 3164 H 823
Huacho 1738 Mix 644
Ancon 2289 H 1620
Modelo Ancon II 1462 Mix 2200
Anexo Mujeres Chorrillos 309 M 288
Mujeres de Chorrillos 810 M 450
Virgen de Fatima 339 M 548
Virgen de la Merced 13 H 42
Lurigancho 9602 H 3204
Miguel Castro Castro 4359 H 1142
Barbadillo 1 H 1
Sur Arequipa AREQUIPA Arequipa 1971 H 667
Mujeres de Arequipa 151 M 67
Camana 262 H 78
TACNA Tacna 830 H 222
Mujeres de Tacna 110 M 40
Challapalca 162 H 214
Centro Huancayo AYACUCHO Ayacucho 2438 Mix 644
Huanta 101 H 42
HUANCAVELICA Huancavelica 200 H 60
JUNIN Chanchamayo 572 Mix 120
Huancayo 1972 H 680
Mujeres de Concepción 31 M 105
Jauja 104 M 85
Satipo 164 H 50
Tarma 84 H 48
Oroya 114 Mix 64
Oriente Huanuco (Pucallpa) HUANUCO Huanuco 2554 Mix 1074
PASCO Cerro Pasco 195 Mix 96
UCAYALI Pucallpa 2053 Mix 788
Sur Oriente Cusco APURIMAC Abancay 256 Mix 90
Andahuaylas 354 Mix 248
CUSCO Cusco 2288 H 800
Mujeres del cusco 137 M 62
Quillabamba 347 Mix 80
MADRE DE DIOS Pto. Maldonado 712 H 590
Nor Oriente San Martı́n AMAZONAS Chachapoyas 629 Mix 288
Bagua Grande 230 Mix 60
LORETO Yurimaguas 157 Mix 286
Iquitos 1025 H 600
Mujeres de Iquitos 64 M 78
SAN MARTIN Juanjui 686 Mix 654
Moyobamba 588 Mix 544
Sananguillo 548 H 636
Tarapoto 463 H 180
Altiplano Puno PUNO Lampa 136 M 44
Puno 582 H 778
Juliaca 1069 Mix 420

Cuadro 2.4: Distribución de frecuencias del número de internos, condición de género (CG)
y capacidad de los establecimientos penitenciarios en cada oficina regional y departamento
del Perú
46 CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE

svymean(~SITUACION_JURIDICA,diseMASs,[Link]=T)

## mean SE
## SITUACION_JURIDICAProcesado 0.222 0.01
## SITUACION_JURIDICASentenciado 0.778 0.01

svymean(~ABOGADO,diseMASs,[Link]=T)

## mean SE
## ABOGADOSı́ 0.53 0.02
## ABOGADONo 0.47 0.02

Otro análisis de interés podrı́a ser determinar si existe relación entre si el interno consumı́a
drogas o no y el tipo de delito que ha cometido. Antes de analizar ello será conveniente
recodificar la tipicidad del delito a los delitos más comunes, creando la variable DGEN.
Como la prueba indica y se visualiza en la figura 2.2 de barras agrupadas, no encontramos
evidencia de una asociación entre el consumo de drogas y la tipificación del delito.

DGEN = cp16$DEL_GENERICO_CD
levels(DGEN)[c(1,2,3,4,5,7,8,9,10,11,14,16,17,18,19)] = "OTROS"
DGEN = DGEN[index]
DGEN = factor(DGEN,levels(DGEN)[c(2,3,4,5,1)])
[Link](DGEN,sample$DROGAS)

##
## Pearson's Chi-squared test
##
## data: DGEN and sample$DROGAS
## X-squared = 3, df = 4, p-value = 0.6

tab = table(sample$DROGAS,DGEN)

2.3.4. La población peruana con DNI 2018


Este último ejemplo considera a la población peruana que se encuentra en el Registro
Nacional de Identificación y Estado Civil (RENIEC) al 31 de diciembre de 2018 y que,
por tanto, cuenta con su documento nacional de identidad (DNI), el cual otorga derecho
a sufragio a partir de los 18 años. La información pública del RENIEC incluye el lugar de
residencia, edad, sexo y condición de extranjerı́a de la persona. Esta base de datos puede
2.3. ASPECTOS COMPUTACIONALES Y EL PAQUETE SURVEY 47

Consumo de drogas por tipo de delito


No

300
250
200
150
100
50
0

Contra el Contra la Contra la Contra la


patrimonio libertad seg. pública vida y salud Otros

Tipos de delito

Figura 2.2: Frecuencias de consumo de drogas por tipo de delito

obtenerse en formato Excel o SPSS desde la página web de esta institución. Una mirada a
la base de datos

library(foreign)
reniec18 = [Link]("BD_Pob_Identificada_2018_Spss.sav")
reniec18 = [Link](lapply(reniec18, trimws))
head(reniec18,3)

## RESIDENCIA UBIGEO_RENIEC UBIGEO_INEI Continente_R CONTI0 Pais_R PAIS_0


## 1 Nacional 010101 010101 América Perú
## 2 Nacional 010101 010101 América Perú
## 3 Nacional 010101 010101 América Perú
## DEPARTAMENTO PROVINCIA DISTRITO SEXO EDAD CANTIDAD
## 1 Amazonas Chachapoyas Chachapoyas Hombre 0 336
## 2 Amazonas Chachapoyas Chachapoyas Hombre 1 366
## 3 Amazonas Chachapoyas Chachapoyas Hombre 2 361

revela que la última variable, CANTIDAD, contiene la frecuencia de casos que comparten las
demás variables. Como ilustración, en 2018 se tenı́an 336 varones registrados en el distrito
48 CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE

de Chachapoyas, provincia de Chachapoyas y departamento de Amazonas, que no cumplı́an


aún el año de edad. Esta variable, por tanto, es una variable de ponderación para toda la
base de datos, con lo cual ella contendrá a nivel nacional una cantidad de registros igual a

Cantidad = [Link](paste(reniec18$CANTIDAD))
(N = sum(Cantidad))

## [1] 34894246

En este ejemplo estaremos interesados en estimar cualquier proporción de interés con


un margen de error no mayor a 0.02 y una confianza del 95 % mediante un MASs. Esto
podrı́a ser útil, por ejemplo, para una encuesta de opinión pública, solo que para acceder
a la vivienda especı́fica del entrevistado se deberı́a conocer la dirección u otra información
pertinente. Si tomamos la regla conservadora de p̄ = 0.5, entonces el tamaño de muestra
requerido será de

(n = qnorm(0.975)^2*0.5^2*N/(qnorm(0.975)^2*0.5^2 + 0.02^2*(N-1)))

## [1] 2401

Para tomar esta muestra requeriremos expandir antes la base de datos de individuos por
la variable CANTIDAD. Esto puede hacerse con el siguiente comando en R, en el cual
generaremos la base de datos expandida [Link]:

reniec18x = reniec18[rep(1:nrow(reniec18),Cantidad),]
reniec18x = cbind(id=1:N,reniec18x)
save(reniec18x,file='[Link]')

Si tomamos el MASs planificado, obtendremos la siguiente base de datos muestral:

load('[Link]')
[Link](12345)
indexp = sample(N,2401)
sampleDNI = reniec18x[indexp,]
sampleDNI[1:7,c(1,8:12)]

## id PAIS_0 DEPARTAMENTO PROVINCIA DISTRITO


## 267934.451 25155398 Lima Huaral Huaral
## 326175.16 30559446 Puno Moho Moho
## 280492.53 26553905 Loreto Datem del Mara~nón Andoas
## 331922.32 30920649 San Martı́n Mariscal Cáceres Pajarillo
2.3. ASPECTOS COMPUTACIONALES Y EL PAQUETE SURVEY 49

## 240810.4190 15928559 Lima Lima Comas


## 125997.100 5805418 Cajamarca San Ignacio Namballe
## 216292.2041 11343959 La Libertad Trujillo Trujillo
## SEXO
## 267934.451 Mujer
## 326175.16 Mujer
## 280492.53 Mujer
## 331922.32 Hombre
## 240810.4190 Hombre
## 125997.100 Hombre
## 216292.2041 Mujer

Si bien considerar aquı́ un MASs es teóricamente posible y ha sido en este y en los


anteriores ejemplos bastante simple, este no es ciertamente un diseño recomendable para
poblaciones tan grandes como las aquı́ consideradas. En nuestros ejemplos contamos en to-
dos los casos con una base de datos poblacional, situación que raramente se presenta en la
práctica. En la realidad, frecuentemente el marco muestral está desactualizado, pobremen-
te definido o es inexistente y, por otro lado, la muestra aleatoria simple resulta estar tan
geográficamente dispersa que los costos y la logı́stica resultan inmanejables. En esta mues-
tra, por ejemplo, apreciemos el lugar de residencia de las 6 primeras personas seleccionadas.
Si la encuesta objetivo es de opinión y se puede tener incluso la dirección de las personas
a encuestar, demandarı́a un arduo y costoso trabajo tratar de ubicarlas por la lejanı́a entre
ellas y el aparato logı́stico que se tendrı́a que implementar para garantizar la supervisión y
calidad del trabajo de campo. En los capı́tulos siguientes exploraremos diseños mucho más
apropiados para los fines buscados.
Para terminar, obtengamos la estimación de la proporción de mujeres y de personas con
derecho a votar (con 18 o más años de edad) en esta población.

diseDNI = svydesign(ids=~1,fpc=rep(N,nrow(sampleDNI)),data=sampleDNI)
Edad=[Link](paste(sampleDNI$EDAD))
diseDNI = update(diseDNI,Edad)
svymean(~Edad>=18,diseDNI)

## mean SE
## Edad >= 18FALSE 0.309 0.01
## Edad >= 18TRUE 0.691 0.01
50 CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE

2.4. Ejercicios
1. Considere una población conformada por 6 personas, a las que se les ha medido el nivel de
hemoglobina en gramos por decilitro, y en las que se ha encontrado las siguientes mediciones

13.9, 11.5, 16.7, 14.4, 14.6, 15.1.

Mediante un MASc y un MASs de tamaño n = 3,


a) Halle la probabilidad de que la media del nivel de hemoglobina de las 3 personas seleccio-
nadas supere los 14 gramos por decilitro.
b) Suponga que para estimar el nivel promedio de hemoglobina en estas personas se propone
la mediana de los valores observados en la muestra. ¿Serı́a este un estimador insesgado?
¿Tiene este una menor varianza que la media muestral?
c) Usando los números aleatorios 0.018, 0.310 y 0.549, tome las muestras requeridas y estime
la media del nivel de hemoglobina de las 6 personas.

2. Una manera de estimar el tamaño N de una población consiste en usar métodos de captura-
recaptura. Estos empiezan seleccionándose al azar m elementos de la población para que sean
marcados y luego repuestos a la población. Seguidamente se tienen dos estrategias. El método
directo consiste en seleccionar al azar y sin reemplazamiento una muestra de n elementos de
la población para registrar el número de elementos marcados X que se encuentren en ella. El
segundo método, llamado muestreo inverso, consiste en seleccionar secuencialmente al azar
y con reemplazamiento (podrı́a también analizar el caso sin reemplazamiento) elementos
de la población hasta ubicar r elementos marcados. Con ello se tienen los siguientes dos
estimadores de N :
nm mY
N̂1 = y N̂2 = ,
X r
donde Y denota el número de intentos hasta obtener la cuota de r elementos marcados.
a) Usando una expansión de Taylor adecuada, muestre que aproximadamente se cumple que
−m)(N −n) 2 −m)(N −n)
E(N̂1 ) = N + 2N (N
nm(N −1)
y V (N̂1 ) = N (N
nm(N −1)
.
b) Como se aprecia en a), N̂1 es no solo un estimador sesgado de N , sino que presenta
una gran varianza si la muestra correspondiente contiene muy pocos elementos marcados.
Muestre que, contrariamente, N̂2 es un estimador insesgado de N y que tiene una varianza
igual a
N (N − m)
V (N̂2 ) = .
r
Pruebe además que
m2 Y (Y − r)
V̂ (N̂2 ) =
r2 (r + 1)
es un estimador insesgado de la varianza última. ¿Qué desventaja cree que pudiera tener
este método con respecto al muestreo directo?
2.4. EJERCICIOS 51

c) Suponga que para estimar el número de personas N que pertenecen a un gran consorcio se
han seleccionado al azar a 20 de sus trabajadores, a quienes se les ha registrado y colocado
un sello en su DNI. Tiempo después, la Dirección de Recursos Humanos tomó un MASs de
100 trabajadores, y encontro que 4 de ellos tenı́an el sello en el DNI. Por su parte, usted
optó más bien por seleccionar secuencialmente al azar y con reemplazamiento trabajadores
del consorcio hasta ubicar a 5 con el sello en el DNI, y realizó un total de 127 registros.
Obtenga las estimaciones correspondientes de N y de las varianzas de estos estimadores.
Comente.

3. Demuestre que en un MASc la media muestral es el MELI de la media poblacional y que


2
la varianza muestral es una estimador insesgado de σN .

4. Considere una población finita de tamaño N en la que se desea estudiar una variable
estadı́stica y, la cual toma un valor muy pequeño para el primer elemento del marco muestral
y1 y un valor muy grande para el último elemento del marco muestral yN . Con el propósito
de estimar la media de y para esta población, µ, se ha propuesto, sobre la base de un MASs
de tamaño n, el estimador


 Ȳ + c si y1 pertence a la muestra e yN no pertence a la muestra
Ȳc = Ȳ − c si y1 no pertence a la muestra e yN pertence a la muestra

 Ȳ en otro caso,

donde c es una constante positiva.


a) ¿Es Ȳc un estimador insesgado de µ?
b) Halle la varianza de Ȳc .
c) ¿Existen valores de c que hagan que Ȳc , tenga menor varianza que Ȳ ? ¿Contradice esto a
que Ȳ sea el MELI de µ?

5. Suponga que desea estimar, con un error no mayor al 3 % y una confianza del 95 %, la
prevalencia de una rara enfermedad al interior de una pequeña comunidad de 500 habitantes.
Se espera que la proporción de personas de la comunidad que tengan la enfermedad sea
pequeña, lo cual se ha evidenciado en una muestra piloto realizada a 30 de sus habitantes
en la que se encontró que solo 2 de ellos tenı́an la enfermedad.
a) Halle el tamaño de muestra apropiado para este estudio.
b) Puesto que la proporción a estimar es extrema, utilice más bien un IC de Wilson para
obtener el tamaño de muestra. Comente la diferencia encontrada con a) e indique cuál de
los dos tamaños de muestra utilizarı́a para el estudio. Justifique.

6. Muestre que en un MASc de tamaño n, sobre una población de tamaño N , el número


total de muestras distintas que se podrı́an tomar es

CnN +n−1 .
52 CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE

7. En una empresa de 3200 empleados se realizaron dos encuestas independientes por MASs
de tamaños 100 y 64 a fin de medir, entre otras cosas, el tiempo diario que le toma a un
empleado llegar de su casa a la empresa. Las divisiones de la empresa, que realizaron estas
encuestas, no supieron que la otra lo habı́a realizado y al enterarse han decidido unir sus
bases de datos.
a) ¿Conforma la media de las 164 observaciones del tiempo de interés un estimador insesgado
del tiempo medio de transporte de un empleado a la empresa?
b) Si se define como estimador de la varianza de los tiempos de transporte a

100S12 + 64S22
S2 = ,
164
donde S12 y S2 son las varianzas muestrales de estos tiempos en las encuestas con 100 y 64
empleados, respectivamente, ¿es este un estimador insesgado?
c) Obtenga el error estándar de estimación estimado del estimador en a), si en las muestras
de tamaños 100 y 64, se obtuvieron desviaciones estándar muestrales para los tiempos de
transporte de 8.625 y 10.162 minutos, respectivamente.
8. Una ciudad cuenta con 720 fábricas, de las cuales 10, 20 y 8 pertenecen, respectivamente, a
los consorcios A, B y C. El Ministerio de Trabajo desea hacer un estudio de salud ocupacional
en las fábricas de la ciudad. Dado que muchos de los indicadores a estudiar son proporciones,
el Ministerio desea tomar un MASs de tamaño n de tal manera que pueda estimar cualquier
proporción con un margen de error no mayor a 0.1 y un nivel de confianza del 95 %.
a) ¿Cuál deberı́a ser el tamaño de muestra a tomarse?
b) ¿Con qué probabilidad se seleccionará en la muestra, del tamaño tomado en a), a alguna
de las fábricas del consorcio B?
c) Suponga que tomada la muestra en a), y dadas las caracterı́sticas especiales de los 3
consorcios en mención, el Ministerio ordena que, de ser seleccionada cualquier fábrica de
algunos de los consorcios, se seleccione igualmente a todas las fábricas del consorcio elegido.
¿Cuál serı́a el tamaño de muestra final que esperarı́a obtener a través de este procedimiento?
9. En cierta área de una ciudad, que contiene 14 848 residencias, se desea estimar el número
promedio de personas µ por residencia. Si en un MASs de tamaño 30 se obtuvieron las
siguientes cantidades de personas por residencia:

5, 6, 3, 3, 2, 3, 3, 3, 4, 4, 3, 2, 7, 4, 3, 5, 4, 4, 3, 3, 4, 3, 3, 1, 2, 4, 3, 4, 2, 4.

a) Estime µ y su intervalo de confianza al 95 %.


b) Estime e interprete el coeficiente de variación del número de personas por residencia.
c) Suponga que se desea estimar el número medio anterior con el doble de precisión que la
brindada por la muestra anterior. ¿Cuál deberı́a ser el tamaño de muestra para lograr esta
precisión?
2.4. EJERCICIOS 53

10. Su distrito, que cuenta con N viviendas, participará en una encuesta por MASs de
tamaño n. Suponga que existe una probabilidad constante q de que una vivienda del distrito
no responda la encuesta. Para prevenir la no respuesta, el supervisor ha decidido, de ser
necesario, seleccionar al azar y sin reemplazamiento durante un segundo dı́a un número
igual al número de viviendas sin respuesta del primer dı́a de entre las viviendas aún no
seleccionadas.
a) ¿Con qué probabilidad será encuestada su vivienda el primer dı́a?
b) Si en el primer dı́a su vivienda no es seleccionada y no hubo respuestas en M viviendas,
¿con qué probabilidad será seleccionada su vivienda el segundo dı́a?
c) Si sus padres residen en otra vivienda de su distrito, ¿qué probabilidad existe de que su
vivienda y la de sus padres sean seleccionadas?
d) ¿Con qué probabilidad no será posible completar el tamaño de muestra que ha sido
planificado para la encuesta?
e) Obtenga d) si q = 0.06 y n = 100.
11. Para realizar una encuesta de opinión a una población de 150 000 habitantes en la que
se encuentran usted y un amigo suyo, se ha diseñado un MASs de tamaño 100.
a) ¿Con qué probabilidad integrará usted la muestra?
b) Si 5 muestras como las anteriores son secuencialmente tomadas de esta población a través
de un MASs, ¿qué probabilidad existe de que ni a usted ni a su amigo se les pida su opinión?
Asuma que los encuestadores de estas muestras no toman en cuenta el registro de si una
persona fue o no seleccionada en otra de las muestras.
c) ¿Con qué probabilidad le pedirán en b) dos veces su opinión?
12. En este capı́tulo vimos que S 2 es un estimador insesgado de la varianza poblacional σN
2

2
en un MASc y de σN −1 en un MASs, pero ¿qué hay de su varianza?
a) Muestre que
n n  N N
1 1
S2 = (Yi − Yj )2 = (yi − yj )2 δi δj .
2n(n − 1) i=1 j=1 2n(n − 1) i=1 j=1

b) Muestre, usando la fórmula anterior, que S 2 es efectivamente un estimador insesgado.


c) Cho y Cho (2008) han derivado fórmulas para la varianza de S 2 , tanto en un esquema
MASc como en un MASs. Estas vienen dadas respectivamente por
1 n−3 4
VM ASc (S 2 ) = (µ4 − ( )σ ) y
n n−1 N
N 2 n − 3n − 3N 2 + 6N − 3 4
VM ASs (S 2 ) = C((N n − N − n − 1)µ4 − ( )σN ),
N −1
(N −n) 
donde: C = n(n−1)(NN−1)(N −2)(N −3)
y µ4 = N1 N 4
i=1 (yi − µN ) es el cuarto momento centrado
poblacional. Muestre que
VM ASs (S 2 ) → VM ASc (S 2 ), conforme N → ∞.
54 CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE

13. Replique el estudio ECE 2019 de la subsección 2.3.2 para la DRE de Lima Metropolitana,
pero use, en esta ocasión, los datos de la ECE 2018 para obtener el tamaño de muestra
adecuado para el estudio. Además, dado que esta base de datos incluye un indicador de
nivel socioeconómico ISE, indique mediante un MASs si es que se puede hablar o no de una
asociación significativa entre el nivel socioeconómico y los niveles de logro en matemáticas.
Use un nivel de significación de α = 0.05.

14. Una población cuenta con un total de N personas y es de interés realizar en ella un MASc
de tamaño n = 5.
a) Halle la función de probabilidad y el valor esperado de la variable aleatoria X que denota
el número de personas distintas que contendrá la muestra.
b) Suponga que extraı́da la muestra anterior es de interés estimar el total τ de una variable
y, para lo cual usted multiplicará por una constante C la suma de todos los valores de y en
la muestra que correspondan solo a personas distintas. ¿Cuál serı́a el valor de C que haga
de este un estimador insesgado del total?
c) Halle la varianza del estimador construido en b).
d) Utilice los números aleatorios

0.327, 0.894, 0.031, 0.289 y 0.643,

para seleccionar su muestra con reemplazamiento de una población de 15 personas y reporte


el número de personas distintas obtenidas.

15. En un paı́s se ha diseñado una encuesta con el fin de estimar, mediante un MASs, su
tasa de desempleo, el cual se cree que cree está en alrededor el 10 % de la PEA (población
económicamente activa). En este paı́s, la PEA se define como la población de ciudadanos de
14 años o más de edad y constituye, según el último censo, el 65 % de la población, la cual
fue calculada en 2.3 millones de habitantes. Si se quiere estimar la tasa de desempleo con un
error no mayor al 1 % y un nivel de confianza del 95 %,
a) ¿Cuál serı́a el tamaño de muestra a tomar?
b) El costo por cada encuesta se ha estimado en 3 unidades monetarias (u.m.), pero se tiene
un presupuesto de tan solo 15 000 u.m. Si se tomará en la muestra la mayor cantidad de
personas que pudieran costearse con este presupuesto, ¿cuál serı́a el margen de error que
deberı́a de reportar en este estudio?
c) Suponga que otro interés de la encuesta, es estimar el monto total mensual de ingresos
que las personas no desempleadas de la PEA destinan a su consumo. Indique cómo podrı́a
estimar este total y su correspondiente error estándar de estimación, ejemplificando esto si
en la muestra tomada se encontró una proporción muestral de desocupados del 12.5 % de
la PEA, teniendo ellos un gasto promedio de consumos de 4500 u.m. con una desviación
estándar de 1230 u.m. Sugerencia: De una mirada al siguiente ejercicio.
2.4. EJERCICIOS 55

16. En una zona rural de 3000 viviendas se tomó un MASs de tamaño 100. Un interés
del estudio es estimar el consumo total mensual de agua de los hogares que cuentan con
servicio de agua y desagüe, τd . El problema es que antes de tomarse la muestra no es posible
identificar si una vivienda de la zona tiene o no estos servicios.
a) En general, dada una población estadı́stica Py = {y1 , y2 , . . . , yN } y un MASs de ella de
tamaño n, muestre que para cierto subconjunto de esta población (dominio d) el estimador
N n
N N
τ̂d = yi γi δi o τ̂d = Yi γ i ,
n i=1 n i=1

donde Yi es el valor de y para la i-ésima unidad seleccionada en la muestra y γi es una variable


indicadora (no aleatoria) que vale, respectivamente, 1 o 0 si la i-ésima unidad pertenece o
no al dominio d, es un estimador insesgado del total τd de y para el dominio.
b) Sea la variable y ∗ que vale y para los elementos del dominio d y 0 en caso contrario, y sea
2
σ∗d la varianza de Py∗ . Si σd2 es la varianza de y para los elementos del dominio, muestre que

2 1
σ∗d = ((Nd − 1)σd2 + qd Nd µ2d )  pd (σd2 + qd µ2d ),
N −1
donde: Nd es el tamaño del dominio d; µd es la media de y en el dominio d; pd es la proporción
de unidades en la población que pertenecen al dominio d, y qd = 1 − pd .
c) Halle la varianza de τ̂d .
d) Muestre que si se desea estimar τd con un error de estimación no mayor a e y una confianza
del 100(1 − α) %, el tamaño de muestra apropiado viene dado por

((Nd − 1)σd2 + qd Nd µ2d )z1−


2
αN
2
pd (σd2 + qd µ2d )z1−
2
αN
2
n= 2
 2
.
((Nd − 1)σd2 + qd Nd µ2d )z1−
2 2
α N + e (N − 1) pd (σd2 + qd Nd µ2d )z1−
2
αN + e
2
2 2

e) Muestre que el tamaño en d), en caso de que se desee obtener un coeficiente de variación
de a lo más CV0 para el total estimado, se puede aproximar por

CVd2 + qd
n= CVd2 +qd
,
N
+ pd CV02

donde
σd2
CVd2 =
µ2d
denota el cuadrado del coeficiente de variación de y en el dominio d.
f) Halle el tamaño de muestra necesario para una encuesta futura que desea estimar τd con
un margen de error no mayor al millón de litros y una confianza del 95 %. Suponga que en
la encuesta actual se encontró que 60 hogares contaban con servicios de agua y desagüe y
que en promedio ellos consumieron en el mes 5100 litros con una desviación estándar de 380
litros ¿Qué estimación de τd dio la actual encuesta?
56 CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE

17. Consideremos la siguiente base de datos, que llamaremos Province91, tomada del texto de
Lehtonen y Pahkinen (2004). Esta contiene información censal de las 32 municipalidades de
una de las 14 provincias (Finlandia central) en las que se dividı́a Finlandia a finales de 1991.
En esta se registran para cada municipalidad una variable de estratificación (Stratum con
1 = Urbano y 2 = Rural), de conglomeración (Cluster formado al juntar 4 municipalidades
geográficamente vecinas), de población (POP91), de fuerza laboral o población económica-
mente activa (LAB), del número de personas desempleadas (UE91) y del número de hogares
sobre la base del censo de 1985 (HOU85). La base de datos es la siguiente:

Stratum Cluster Id Municipality POP91 LAB91 UE91 HOU85


1 1 1 Jyväskylä 67200 33786 4123 26881
1 2 2 Jämsä 12907 6016 666 4663
1 2 3 Jämsänkoski 8118 3818 528 3019
1 2 4 Keuruu 12707 5919 760 4896
1 3 5 Saarijärvi 10774 4930 721 3730
1 5 6 Suolahti 6159 3022 457 2389
1 3 7 Äänekoski 11595 5823 767 4264
2 5 8 Hankasalmi 6080 2594 391 2179
2 6 9 Joutsa 4594 2069 194 1823
2 7 10 Jyväskmlk 29349 13727 1623 9230
2 4 11 Kannonkoski 1919 821 153 726
2 4 12 Karstula 5594 2521 341 1868
2 8 13 Kinnula 2324 927 129 675
2 8 14 Kivijärvi 1972 819 128 634
2 3 15 Konginkangas 1636 675 142 556
2 5 16 Konnevesi 3453 1557 201 1215
2 1 17 Korpilahti 5181 2144 239 1793
2 2 18 Kuhmoinen 3357 1448 187 1463
2 4 19 Kyyjärvi 1977 831 94 672
2 5 20 Laukaa 16042 7218 874 4952
2 6 21 Leivonmäki 1370 573 61 545
2 6 22 Luhanka 1153 522 54 435
2 7 23 Multia 2375 1059 119 925
2 1 24 Muurame 6830 3024 296 1853
2 7 25 Petäjävesi 3800 1737 262 1352
2 8 26 Pihtipudas 5654 2543 331 1946
2 4 27 Pylkönmäki 1266 545 98 473
2 3 28 Sumiainen 1426 617 79 485
2 1 29 Säynätsalo 3628 1615 166 1226
2 6 30 Toivakka 2499 1084 127 834
2 7 31 Uurainen 3004 1330 219 932
2 8 32 Viitasaari 8641 4011 568 3119

Usando la librerı́a survey de R, realice tanto un MASc como un MASc de tamaño n = 8


para estimar la población total de la provincia y el porcentaje o tasa de desempleo en esta.
Reporte en ambos casos los errores estándar de estimación. Compare sus estimaciones con
las obtenidas en el texto de Lehtonen y Pahkinen (2004).
2.4. EJERCICIOS 57

18. Usando la base de datos api, obtenga el tamaño de muestra que se requerirı́a para estimar
el ı́ndice api del 2000 de tal manera que se tenga para este un CV del 3 % con una confianza
del 95 %. Tomada la muestra, estime también el total de matriculados y la proporción de
colegios por tipo de escuela. Compare, finalmente, los verdaderos valores (que en un estudio
real se desconocen) con las estimaciones encontradas.
19. Mediante un MASs piloto de tamaño n1 se ha calculado que el tamaño final de muestra
a tomarse para estimar la media de una variable y con un máximo error de estimación de
e y una confianza del 100(1 − α) % es n. Un colega sugiere que en vez de seleccionarse las
n observaciones bastarı́a tomarse un MASs de tamaño n − n1 de la población que no ha
sido muestreada, pues argumenta que la muestra piloto ya recabó información de y y que
juntando esta con la última completarı́a el tamaño n requerido. ¿Estarı́a usted de acuerdo
con su colega? Justifique.
20. Suponga que para un MASs de tamaño n sobre una población de tamaño N se tiene
interés en estudiar dos variables estadı́sticas: x e y.
a) Muestre que la covarianza entre las medias muestrales de estas variables viene dada por
n σxy
Cov(X̄, Ȳ ) = (1 − ) ,
N n

donde σxy = N 1−1 N i=1 (xi − µx )(yi − µy ) es la covarianza poblacional entre x e y y µx y µy
son las medias poblacionales de x e y, respectivamente.
b) Proponga algún estimador insesgado para esta covarianza.
21. La Internet Movie Database (IMDb) es una base de datos en lı́nea que almacena infor-
mación relacionada con pelı́culas, personal de equipo de producción (incluidos directores y
productores), actores, series de televisión, programas de televisión, videojuegos, actores de
doblaje y, más recientemente, personajes ficticios que aparecen en los medios de entreteni-
miento visual. Recibe más de 100 millones de usuarios únicos al mes y cuenta con una versión
móvil. Una de sus secciones, “The IMDb Top 250”, es destinada a ser un listado de las 250
pelı́culas con mejor calificación, el cual se basa en calificaciones de los usuarios registrados
del sitio web. En esta sección, cada pelı́cula aparece con una estrella y un ranking de a lo
más 10 puntos. Debajo de este ranking uno puede acceder a las calificaciones otorgadas por
los usuarios en forma de un histograma. La intención de este miniproyecto es estimar, con
un margen de error de a lo más 0.035 puntos y un nivel de confianza del 95 %, la desvia-
ción estándar media (como medida de controversia) de los rankings asignados a estas 250
pelı́culas.
a) Halle el tamaño de muestra necesario para este estudio.
b) Tome la muestra respectiva y reporte la estimación pedida y con su intervalo de confianza
o error estándar de estimación estimado.
c) Según sus resultados, ¿podrı́a decir que El club de la pelea (1999) es una pelı́cula de
calificación controversial?
58 CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE

22. En esta actividad sugerida por Gnanadesikan (1997) se tiene la siguiente figura que
contiene 100 rectángulos. El objetivo es estimar el área total de todos los rectángulos tomando
una muestra de 20 rectángulos, donde se asume que cada cuadradito de la grilla tiene un
área de una unidad.

a) Tome un MASs de 20 rectángulos y obtenga un intervalo de confianza al 98 % para estimar


el área total.
b) Replique a) pero con un MASc.
c) Compare el intervalo que ha obtenido con el de sus compañeros e indique el porcentaje
de estos que contienen la verdadera área que es de 3079 unidades.
2.4. EJERCICIOS 59

23. Luego de realizarse un MASs de tamaño n en una población de tamaño N , se encontró que
por error el marco muestral contenı́a 2 unidades que se repetı́an, respectivamente, 3 y 7 veces.
a) Halle la probabilidad de selección de cada una de las unidades en la población.
b) Halle la función de probabilidad del número de unidades que deberán descartarse en la
encuesta.
24. El sector salud está interesado en saber cuál es la estatura promedio de los habitantes
de una región particular que cuenta con 700 habitantes. De los datos de los registros de las
clı́nicas de salud de la región, se realizó un MASs con 35 registros de esta población y se
obtuvo la siguiente tabla:

Obs. Estatura Sexo Obs. Estatura Sexo Obs. Estatura Sexo


(mts) (mts) (mts)
1 1.65 Hombre 13 1.75 Hombre 25 1.53 Mujer
2 1.80 Hombre 14 1.68 Hombre 26 1.65 Mujer
3 1.84 Hombre 15 1.78 Hombre 27 1.70 Mujer
4 1.83 Hombre 16 1.80 Hombre 28 1.70 Mujer
5 1.73 Hombre 17 1.73 Hombre 29 1.58 Mujer
6 1.83 Hombre 18 1.83 Hombre 30 1.75 Mujer
7 1.80 Hombre 19 1.85 Hombre 31 1.70 Mujer
8 1.85 Hombre 20 1.65 Hombre 32 1.73 Mujer
9 1.80 Hombre 21 1.78 Hombre 33 1.73 Mujer
10 1.78 Hombre 22 1.75 Hombre 34 1.57 Mujer
11 1.85 Hombre 23 1.75 Hombre 35 1.70 Mujer
12 1.80 Hombre 24 1.88 Hombre

a) Estime la media y varianza de las estaturas en esta población, ası́ como la proporción de
mujeres en esta. Puede hacerlo manualmente o con R.
b) ¿Cuál es el error máximo de estimación que se está asumiendo en la estimación de la
estatura media para un nivel de confianza del 95 %?
c) Si se hubiese tenido interés en estimar la estatura media de esta población con un margen
de error (o error máximo de estimación) de un centı́metro a un nivel de confianza del 95 %,
¿hubiese sido suficiente el tamaño de muestra tomado en el estudio?
d) Si en un estudio futuro se desea estimar la estatura media de esta población de tal manera
que se tenga un CV no mayor al 0.5 %, ¿cuál serı́a el tamaño de muestra? ¿Es aquı́ necesario
fijar el nivel de confianza?
60 CAPÍTULO 2. MUESTREO ALEATORIO SIMPLE

25. En una investigación que pretende estudiar caracteriśticas de los colegios y la relación
entre la propensión al consumo de alcohol por parte de adolescentes varones del quinto grado
de secundaria y variables como el control parental, la regulación emocional y la madurez
social, se desea tomar un MASs de colegios con alumnos varones de la Unidad de Gestión
Local (UGEL) 03 de la dirección regional educativa de Lima Metropolitana. Puesto que la
propensión se medirá a nivel de colegios mediante una proporción, es de interés estimar esta
proporción con un margen de error no mayor a 0.06 y un nivel de confianza del 95 %. Usando
en lo posible el paquete survey de R,
a) Halle el tamaño de muestra requerido para este estudio. Para su marco muestral puede
usar la siguiente página web del Ministerio de Educación:

[Link] ,

la cual contiene información de todos los colegios del paı́s basada en el último censo nacional
escolar
b) Tome la muestra anterior y estime, en base a ella, el número total de alumnos varones
de quinto año de educación secundaria matriculados en la UGEL 03 y la la proporción de
colegios de gestión privada con alumnos varones de quinto año de educación secundariade
en la UGEL 03. En ambos casos obtenga el correspondiente error de estimación estimado.

26. En el conteo rápido de votos realizado a 1600 urnas seleccionadas al azar de una gran po-
blación se obtuvo que 812 votaron por el candidato opositor, 480 lo hicieron por el candidato
de gobierno, 50 votaron en blanco y el resto fueron votos inválidos. Al 95 % de confianza,
a) ¿Cuál es el el máximo error de estimación que se comete en esta encuesta al estimar la
proporción de ciudadanos que votan por el candidato opositor?
b) Mediante un intervalo de confianza, ¿podrı́a afirmar que el candidato opositor ganará las
elecciones? Para esto se requiere el 50 % de votos válidos más uno.

27. Suponga que es de su interés estimar el tiempo medio que una persona se tardarı́a en
llegar desde el campus de la PUCP al centro comercial Real Plaza Salaverry en auto. Una
manera directa de medir este tiempo es a través del aplicativo Google Maps, el cual se
puede descargar gratuitamente en cualquier PC, laptop o celular. Este aplicativo calcula,
por medio del GPS, el tiempo que una persona se demorarı́a en llegar de un lugar a otro
bajo distintos medios de transporte. Estos tiempos, sin embargo, cambian según el horario,
en especial si el medio es un auto, debido a congestiones en el tráfico, accidentes u otros. El
aplicativo también brinda varias rutas alternativas, de las cuales usted deberá tomar la de
menor tiempo. En este problema se le pide estimar el tiempo medio anterior y su intervalo
de confianza al 95 % mediante un MASs de tal manera que su error de estimación sea de a
lo más de un minuto. Para su procedimiento de selección (ignorando aspectos estacionales)
divida una semana completa de 7 dı́as en 336 perı́odos de media hora cada uno. Tome luego al
azar y sin reemplazamiento el número de perı́odos adecuados y en cada perı́odo seleccionado
2.4. EJERCICIOS 61

registre en cualquier momento de ese perı́odo la medición del tiempo en minutos dada por el
aplicativo. Reporte, finalmente, la estimación del tiempo medio y del intervalo de confianza
y compruebe si el error máximo predeterminado es el especificado.
28. En la subsección 2.3.1 obtuvimos el error estándar de estimación para la diferencia de
medias del ı́ndice de rendimiento api para 1999 y el 2000.
a) Tome en esta base de datos un MASs de tamaño n = 500 y estime con la librerı́a survey
la diferencia de medias del ı́ndice api para estos años.
b) Obtenga, con la librerı́a survey, un intervalo de confianza al 95 % para la diferencia
anterior.
c) Con la misma muestra tomada en a) obtenga el intervalo de confianza b), pero ahora sin
usar el paquete survey.
Capı́tulo 3

Muestreo aleatorio estratificado

3.1. Introduccción
Cuando la variable de interés asume en promedio distintos valores sobre diferentes sub-
conjuntos de la población, uno podrı́a obtener estimaciones mucho más precisas de tomar
en cuenta esta segmentación. En una muestra estratificada, la población se particiona en H
subconjuntos o estratos que tienen la propiedad de ser heterogéneos entre sı́ pero homogéneos
al interior. La idea aquı́ es extraer una muestra independiente en cada estrato (usualmente
mediante un MASs) y, posteriormente, reunir esta información para obtener estimaciones
globales de la población.
Entre las razones para optar por un muestreo aleatorio estratificado podemos citar las
siguientes:

Queremos protegernos contra la posibilidad de obtener un mala muestra, en el sentido


de que algún estrato no esté o esté pobremente representado.

Es probable que queramos datos de precisión conocida sobre cada estrato.

La muestra estratificada podrı́a administrarse más convenientemente, a un costo menor,


reduciendo el tamaño de muestra en los estratos más caros e incrementando este tamaño
en lo más baratos.

El muestreo estratificado dará, si se hace correctamente, estimaciones más precisas


para toda la población.

3.2. Teorı́a del muestreo aleatorio estratificado


Supongamos que una población de N unidades está particionada en H estratos, donde
cada estrato h posee Nh unidades (N1 + N2 + . . . + NH = N ). En el muestreo aleatorio

63
64 CAPÍTULO 3. MUESTREO ALEATORIO ESTRATIFICADO

estratificado, que simplemente lo llamaremos MAE, seleccionaremos en forma independiente


muestras aleatorias simples de tamaño nh para cada estrato h (especı́ficamente mediante un
MASs 1 ). Ası́, tendremos que
n = n1 + n2 + . . . + nH
representará el tamaño de muestra en la población y se obtendrán los siguientes parámetros
y estimadores puntuales de interés, donde yhi denotará el valor de la variable estadı́stica de
interés y en la i-ésima unidad del estrato h y δhi denotará, como antes, la variable aleatoria
dicotómica que vale 1 si la i-ésima unidad del estrato h es seleccionada en la muestra de
tamaño nh o 0 en caso contrario.

Denominación Parámetro poblacional Estimador puntual


 h  h
Media en el estrato h µh = N1h N i=1 yhi Ȳh = n1h N i=1 yhi δhi
 
Varianza en el estrato h σh = Nh −1 N
2 1 h
(yhi − µh )2 Sh = nh −1 N
2 1 h
(yhi − Ȳh )2 δhi
H Nh i=1 H Nhi=1
Media global µ = h=1 N µh Ȳ = h=1 N Ȳh

Observe que la tabla anterior incluye indirectamente el caso de la proporción, de tomarse y


como una variable dicotómica.
Veamos ahora las propiedades de los estimadores puntuales en el lado derecho de la tabla.
Para ello recordemos que en cada estrato se ha tomado un MASs y, por tanto, Ȳh y Sh2 son
estimadores insesgados de µh y σh2 , respectivamente. Más aún, se tiene que
H
 H

Nh Nh
E(Ȳ ) = E(Ȳh ) = µh = µ
h=1
N h=1
N

y, por tanto, Ȳ es también un estimador insesgado de µ. La varianza de este estimador


está dada por
H H
Nh Nh nh σh2
V (Ȳ ) = ( )2 V (Ȳh ) = ( )2 (1 − ) .
h=1
N h=1
N Nh n h
Por tanto, un estimador insesgado natural de esta varianza se obtiene al reemplazar la
varianza poblacional en el estrato h por su varianza muestral Sh2 , dando ası́ lugar al estimador
insesgado
H H
Nh Nh nh Sh2
V̂ (Ȳ ) = ( )2 V (Ȳh ) = ( )2 (1 − ) (3.1)
h=1
N h=1
N Nh n h
y al error estándar de estimación de Ȳ estimado:

  H
 2
ˆ Ȳ ) = V̂ (Ȳ ) =  ( Nh )2 (1 − nh ) Sh .
SE(
h=1
N Nh n h
1
Podrı́amos tomar también un MASc, que es más simple, pero poco utilizado en la práctica. Los resulta-
dos aquı́ desarrollados se pueden también aplicar a este último esquema con las modificaciones mı́nimas
derivadas de no incluir el factor de corrección para poblaciones finitas.
3.3. PESOS DE MUESTREO Y EFECTOS DE DISEÑO 65

Por el TLC es posible deducir que un intervalo de confianza aproximado al 100(1 − α) %


para µ, cuando los tamaños de muestra en cada estrato o la cantidad de estratos es grande,
viene dado por
ˆ Ȳ ), Ȳ + z1− α SE(
[Ȳ − z1− α SE( ˆ Ȳ )]
2 2

Esta aproximación puede no ser adecuada si los tamaños de muestra en los estratos son
pequeños, en cuyo caso se recomienda el uso de una aproximación t dada por
ˆ Ȳ ), Ȳ + t1− α (d)SE(
[Ȳ − t1− α2 (d)SE( ˆ Ȳ )],
2

donde los grados de libertad pueden obtenerse de la aproximación de Satterthwaite (1946)


por 
( H ch Sh2 )2
d = H h=11 2 2
,
h=1 nh −1 (ch Sh )

siendo ch = Nh (Nnhh−nh ) .
En el caso de la estimación de una proporción basta considerar en el desarrollo anterior
a una variable dicotómica y, ası́ el error estándar de estimación estimado para la proporción
global estimada
 H
Nh
p̄ = p̄h ,
h=1
N
donde p̄h es la proporción muestral en el estrato h, se reduce a

 H
 Nh nh p̄h (1 − p̄h )
ˆ
SE(p̄) =  ( )2 (1 − ) .
h=1
N Nh n h − 1

3.3. Pesos de muestreo y efectos de diseño


En todo el desarrollo anterior hemos utilizado como notación las variables δhi . Estas
determinan la aleatoriedad de los estimadores y son variables indicadoras de si un elemento
en la población es o no seleccionado en la muestra del estrato h. Ası́, la probabilidad de elegir
la unidad i en el estrato h viene dada, por ser este un MASs, por
nh
P (δhi = 1) = .
Nh
Otra manera equivalente de representar una muestra para el estrato h, prescindiendo de las
variables δhi , es, como expresamos en el MAS, mediante una colección de variables aleatorias
Yh1 , Yh2 , . . . , Yhnh que denotan los valores de la variable estadı́stica y que se obtendrán secuen-
cialmente en cada selección del estrato h. Si adoptamos esta notación, podrı́amos reescribir
la media muestral de un MAE como
H
 H nh
Nh Nh 1 
Ȳ = Ȳh = ( Yhi )
h=1
N h=1
N nh i=1
66 CAPÍTULO 3. MUESTREO ALEATORIO ESTRATIFICADO

o como
H nh
1 
Ȳ = ωhi Yhi ,
N h=1 i=1
donde ωhi es un peso o factor de expansión dado por
Nh 1
ωhi = = .
nh P (δhi = 1)

Este se puede interpretar como el número de unidades en la población del estrato h que
es representada por cada miembro de la muestra. Si, por ejemplo, la población tiene 2000
sujetos y ella está estratificada por sexo con 1200 hombres y 800 mujeres, entonces en un
MAE de 200 hombres y 200 mujeres, cada hombre de la muestra tiene un peso de 6 y cada
mujer un peso de 4. En otras palabras, cada hombre se representa a sı́ mismo y a 5 más que
no están en la muestra; mientras que cada mujer se representa a sı́ misma y a 3 más que no
están en la muestra. Luego, como cada unidad de la muestra se puede pensar que representa
a cierta cantidad de elementos de la población, la muestra completa puede pensarse que
representa a toda la población. De aquı́ el nombre alternativo para los ωhi de factores de
expansión.
Otro elemento importante a lo largo del texto lo constituirá el efecto de diseño. El efecto
de un diseño al estimar un parámetro θ mediante un estimador θ̂ se define como el parámetro
def f , que resulta del cociente entre la varianza de θ̂ bajo el diseño en estudio (c) y la
varianza de θ̂ bajo un MASs, ambos con un mismo tamaño de muestra. El diseño MASs en
el denominador es tomado aquı́ como un diseño de referencia o benchmark. Formalmente se
expresa ası́:
Vc (θ̂)
def f (θ̂) = .
VM ASs (θ̂)
Un diseño, por tanto, será más eficiente mientras su def f sea cada cada vez menor que
1. Ello, en la práctica, como más adelante veremos en el muestreo complejo, es difı́cil de
alcanzar. El efecto de diseño de un MASc en la estimación de la media es, por ejemplo:
2
VM ASc (Ȳ ) σN /n N −1
def f (Ȳ ) = = n 2
= .
VM ASs (Ȳ ) (1 − N )σN −1 /n N −n

Ası́, un MASc resulta ser más ineficiente que un MASs al estimar la media; aunque para
tamaños de población N suficientemente grandes, tal pérdida de eficiencia es mı́nima. Note
en este caso que el efecto de diseño se obtiene de forma directa, lo cual en general no es cierto,
pues tal dependerá de algunos parámetros poblacionales, los cuales requieren estimarse. El
problema con la estimación del def f es que para hacerlo solo contamos con la data del
diseño utilizado y no con la data bajo el MASs. En tal sentido, se debe ver cómo estimar
VM ASs (θ̂) con la data proveniente del diseño complejo. Una manera de hacer esto en el MAE
se muestra en el ejercicio 3.7.4.
3.3. PESOS DE MUESTREO Y EFECTOS DE DISEÑO 67

En R, y particularmente en el paquete survey, el cálculo de las estimaciones de los


efectos de diseño se encuentra disponible de solicitarse la opción deff= T. En el caso de
estimarse la media bajo un MAE, este nos provee de la estimación

ˆ f = V̂M AE (Ȳ ) ,
def
V̂M ASs (Ȳ )

donde V̂M AE (Ȳ ) se calcula mediante (3.1) y V̂M ASs (Ȳ ) por
n σ̂ 2
V̂M ASs (Ȳ ) = (1 − ) ,
N n
siendo σ̂ 2 una estimación de la varianza de la población de la variable de interés y bajo un
MAE. Esta, obtenida a través del objeto diseño diseMAE (definido por svydesign), no es
la misma a la dada por la del ejercicio 3.7.4, ya que utiliza, como lo veremos en el capı́tulo
5, los pesos de muestreo del diseño (sea este un MAE o no) y una función de probabilidad
empı́rica ponderada derivada de tales pesos.
En un MAE, los efectos de diseño tienden por lo general a ser menores que 1 e indican la
mayor eficiencia de un MAE con respecto a un MASs, sobre todo si la variable de estratifica-
ción logra bien separar a los estratos en grupos relativamente homogéneos. Una ilustración
del cálculo de estos efectos y de sus estimaciones se presenta en el siguiente ejemplo.

Ejemplo 3.1. Considere una población de N = 8 domicilios, donde son conocidas las varia-
bles renta familiar en unidades monetarias y estrato socioeconómico (A = alto o B = bajo).
Los valores de estas variables se resumen en la siguiente tabla:
Unidad 1 2 3 4 5 6 7 8
Renta 13 17 6 5 10 12 19 6
Estrato B A B B B A A B
A fin de estimar la renta media familiar, se decide efectuar un MAE con 2 observaciones
por estrato. Obtenga el efecto de diseño de este MAE y estı́melo en caso se desconozcan los
valores de toda la población.
Solución: Calculemos primero el efecto de diseño a través del código siguiente:

N = 8
n = 4
Nh = c(3,5)
nh = c(2,2)
Renta = c(13,17,6,5,10,12,19,6)
NSE = c("B","A","B","B","B","A","A","B")
RR = [Link](Renta,NSE)
Vmae = sum((Nh/N)^2*(1-nh/Nh)*by(Renta,NSE,var)/nh)
68 CAPÍTULO 3. MUESTREO ALEATORIO ESTRATIFICADO

Vmas = (1-n/N)*var(Renta)/n
(deff = Vmae/Vmas)

## [1] 0.482

El MAE es, en este caso, mucho más eficiente que un MASs con un efecto de diseño
marcadamente menor que 1, lo cual se preveı́a dadas las marcadas diferencias de rentas
entre ambos estratos socioeconómicos. Tal efecto, sin embargo, se ha podido calcular solo
porque contamos con la data poblacional. En la mayorı́a de situaciones, esta es desconocida
y requerirá ser estimada con los valores de la muestra. Si realizamos el MAE pedido con

[Link](12345)
RRm = RR[c(sample(which(RR$NSE=="A"),2),sample(which(RR$NSE=="B"),2)),]

una manera de estimar el efecto de diseño podrı́a ser utilizando lo presentado en el ejercicio
3.7.4. Bajo este enfoque obtendremos la siguiente estimación:

Vmae_e = sum((Nh/N)^2*(1-nh/Nh)*by(RRm$Renta,RRm$NSE,var)/nh)
Ybar = sum((Nh/N)*by(RRm$Renta,RRm$NSE,mean))
s2y = by(RRm$Renta,RRm$NSE,function(x) sum(x^2))
VYbarmas_e = (N-n)/(n*(N-1))*(sum((Nh/(nh*N))*s2y) - Ybar^2 + Vmae_e)
(deff1_e = Vmae_e/VYbarmas_e)

## [1] 0.486

La estimación brindada por R, por otro lado, la podremos calcular por

diseMAE = svydesign(ids=~1,strata= ~NSE,fpc=c(rep(3,2),rep(5,2)),data=RRm)


(deff2_e = Vmae_e/((1-n/N)*coef(svyvar(~Renta,diseMAE))/n))

## Renta
## 0.447

o mucho más directamente mediante

svymean(~Renta,diseMAE,deff=T)

## mean SE DEff
## Renta 10.81 1.23 0.45


3.4. TAMAÑOS DE MUESTRA 69

3.4. Tamaños de muestra


El cálculo de tamaños de muestra en un MAE involucra no solo saber cuántas unidades
n seleccionar en la población, sino también cuántas unidades nh en cada estrato. Para ello
requeriremos fijar algún criterio. Dos son los criterios más utilizados. El primero sigue la
lı́nea de lo que vimos en el MAS; es decir, garantizar como máximo un error de estimación
predeterminado e en la estimación buscada, pero ahora buscando minimizar los costos de
muestreo. El segundo consiste en minimizar el error en la estimación bajo un presupuesto C
fijo. En ambas situaciones, se asumirá que el presupuesto C tiene una estructura lineal; es

decir, es de la forma C = c0 + H h=1 nh ch , donde c0 es un costo fijo de muestreo y ch un costo
variable por unidad seleccionada, el cual depende del estrato. Para explicitar los tamaños
de muestra supongamos ahora que nuestro interés recae en estimar la media global µ. Dado
que el error de estimación depende monótonamente de la varianza de este estimador y que
para minimizar los costos requerimos solo minimizar los costos variables, nuestro problema
se reducirá, bajo estos criterios, a encontrar los tamaños de muestra por estrato nh que
minimicen la varianza estimada del estimador Ȳ de µ:
H
Nh nh Sh2
V̂est = ( )2 (1 − )
h=1
N Nh n h

o equivalentemente:
H
Nh S 2
( )2 h
h=1
N nh
o el costo total de muestreo:
H

C = c0 + ch nh
h=1

o equivalentemente:
H

C̃ = C − c0 = ch nh ,
h=1

sujeto a fijar uno de ellos. Dado que los tamaños de muestra nh por estrato serán finalmente
una fracción ah de n; vale decir
nh = ah n,
la proposición siguiente nos brinda la distribución óptima de los ah que resuelve el problema
de minimización dual anterior.

Proposición 3.1. En un MAE, con función de costo lineal, la varianza V̂est es mı́nima para
un costo total fijo o este costo es mı́nimo para una varianza V̂est fija si
N h Sh

ch
ah =  H N j Sj
. (3.2)
j=1 √cj
70 CAPÍTULO 3. MUESTREO ALEATORIO ESTRATIFICADO

Demostración: Probaremos este resultado basándonos en la celebrada desigualdad de Cauchy-


Schwartz. Recordemos que esta nos dice que el valor absoluto del producto interno de dos
vectores es siempre menor o igual que el producto de sus normas. En Rn esto se traduce
como sigue: si a1 , a2 , . . . , an y b1 , b2 , . . . , bn son números reales cualesquieras, entonces
n
 n
 n

( ai b i ) 2 ≤ ( a2i )( b2i ).
i=1 i=1 i=1

Note que esta desigualdad se convierte en una igualdad si para todo i = 1, 2, . . . , n:


ai
= k, (3.3)
bi

siendo k una constante. Ello significa, en otras palabras, que la función


n
 n

f (a1 , a2 , . . . , an , b1 , b2 , . . . , bn ) = ( a2i )( b2i )
i=1 i=1

se minimiza si se cumple (3.3).


La asignación óptima se obtendrá consecuentemente al minimizar, con respecto a los nh ,
el producto
H H
Nh S 2
( ch nh )( ( )2 h ),
h=1 h=1
N nh

sujeto a que uno de los dos términos en este producto sea fijo. Por lo previamente desarrolla-
do, tenemos entonces que la solución de este problema se obtendrá cuando para cada estrato
h se cumpla √
ch nh
= k,
( NNh ) √Snhh

donde k es una constante. Despejando obtenemos que

N h Sh
nh = k √ .
N ch
n n
Más aún, como n = h=1 nh , se tiene que k = H Nj Sj . Esto nos conduce a los ah descritos

j=1 N cj

en la proposición. 

Dependiendo del propósito de la encuesta, el tamaño de muestra total n se obtendrá en


el caso de la minimización de los costos como el valor n que resuelva

 H
 ah n Nh 2 Sh2
e = z1− α2  (1 − )( )
h=1
Nh N ah n
3.4. TAMAÑOS DE MUESTRA 71

para un error máximo de estimación de la media prefijado e, o más explı́citamente mediante


H Nh2 2
h=1 ah Sh
n=  .
( z N eα )2 + H 2
h=1 Nh Sh
1−2

Por otro lado, si el propósito es minimizar el error en la estimación o equivalentemente la


varianza del estimador, bajo un presupuesto C fijo, el tamaño total de muestra n vendrá dado
por
C − c0
n = H .
h=1 ch ah
Naturalmente, todo esto funciona también para el caso de la proporción, con la única mo-
dificación que las varianzas muestrales Sh2 vienen dadas en este caso por Sh2 = Nh p̄Nhh(1−p̄
−1
h)
,
siendo p̄h la proporción de éxitos muestral en el estrato h.
De la proposición anterior se desprenden los siguientes casos particulares:

Asignación proporcional. Se da cuando


Nh
ah = ;
N
es decir, cuando los tamaños de muestra en cada estrato se toman proporcionalmente
al tamaño del estrato. Este es un caso particular de (3.2) si se consideran varianzas y
costos iguales.

Asignación de Neyman. Se da cuando


Nh S h
ah = H ;
j=1 Nj Sj

es decir, cuando los tamaños de muestra en cada estrato se toman de manera directa-
mente proporcional a la variabilidad y al tamaño del estrato. Este es un caso particular
de (3.2) si se consideran costos iguales.

Observación: Si bien en la selección del tamaño de muestra hemos, hasta el momento,


buscado controlar el error de estimación de la media o proporción global, tal estrategia no
es única. En muchos estudios resulta más conveniente, para obtener mayor precisión en los
estratos, determinar el tamaño global n del estudio como un agregado de los tamaños de
muestra por estrato, donde estos se calculan mediante un MASs al fijarse los errores de
estimación máximo por estrato. Esta técnica está relacionada con la idea de dominios, tema
que discutiremos luego del siguiente ejemplo.

Ejemplo 3.2. En el siguiente ejemplo, tomado de Mendenhall et al. (2007), una empresa
publicitaria tiene interés en determinar cómo enfatizar la publicidad televisiva en una deter-
minada región, y decide realizar un muestreo aleatorio estratificado para estimar el número
72 CAPÍTULO 3. MUESTREO ALEATORIO ESTRATIFICADO

promedio de horas por semana que se ve televisión en los hogares de la región. Esta compren-
de dos pueblos, A y B, y un área rural, los cuales serán tomados como estratos. El pueblo A
está en torno a una fábrica, y la mayorı́a de los hogares son de trabajadores industriales con
niños en edad escolar. El pueblo B es un suburbio exclusivo de una ciudad vecina y consta
de habitantes mayores con pocos niños en casa. Existen 155 hogares en el pueblo A, 62 en el
pueblo B y 93 en el área rural. Puesto que la información se recopilará mediante encuesta
con visita a los hogares, la empresa debe de tomar en cuenta el costo de una observación.
El costo por observación en cada pueblo se ha estimado en 9 dólares y en 16 dólares para el
área rural debido a costos de transporte. Si las desviaciones estándar del número de horas
que se ve televisión (aproximadas por las varianzas muestrales de una encuesta previa) son
de 5, 15 y 10, respectivamente, para el pueblo A, B y área rural, encuentre el tamaño global
n y los tamaños de muestra por estrato que permitan a la empresa estimar, con el mı́nimo
costo, el tiempo medio que se ve televisión con un lı́mite para el error de estimación de una
hora y un nivel de confianza del 95 %.
Solución: Según los datos, tenemos la siguiente tabla para los tamaños de muestra por estrato
(Nh ), costos unitarios de muestreo por estrato (ch ), desviaciones estándar estimadas por
estrato (Sh ) y, consecuentemente, asignaciones óptimas por estrato (ah ):

N h Sh
Estrato (h) Nh ch Sh √
ch
ah
Pueblo A 156 9 5 258.33333 0.32258
Pueblo B 62 9 15 310 0.3871
Área rural 93 16 10 232.5 0.29032
Suma 800.83333

Puesto que la intención en este estudio es obtener un error de estimación de a lo más una
hora (e = 1) con un nivel de confianza del 95 % y un mı́nimo costo, el tamaño de muestra
del estudio estará dado por
H Nh2 2
h=1 ah Sh
n= H = 135.6977  136.
( 1311 2
.96 ) + h=1 Nh Sh
2

Deberemos, finalmente, distribuir estas encuestas a tomar en los estratos, obteniéndose ası́,
los siguientes tamaños por estrato para, respectivamente, los pueblos A, B y el área rural:

n1 = 0.32258 × 136 = 43.87088  44,

n2 = 0.3871 × 136 = 52.6456  53

y n3 = 0.29032 × 136 = 39.48352  39. 


3.5. DOMINIOS 73

3.5. Dominios

Un dominio, según Kish (1965), se refiere a una subdivisión de la población para el


cual se ha planificado, fijado y seleccionado una muestra a fin de proporcionar resultados
especı́ficos para ella bajo un conocido margen de error. Ello significa que los resultados para
cada dominio se proporcionan con una precisión determinada y que el resultado global se
deriva de una combinación adecuada de los resultados de todos los dominios. Por lo común,
los dominios coinciden con ciertas unidades polı́tico-administrativas, tales como regiones,
provincias, distritos, comunidades, etc. aunque también pueden ser el producto del cruce
de dos o más variables de interés en la población. De considerarse el uso de dominios, el
muestreo en términos prácticos se realiza como si cada uno de estos fuese una población de
la que hay que extraer una muestra representativa. Naturalmente, tiene que ocurrir que la
muestra agregada de todos los dominios a su vez cumpla los requisitos de representatividad
que se impongan a la población global. Dado que se requiere tener control sobre cada dominio,
una pregunta natural es entonces por qué no hacer que cada dominio represente un estrato.
Si bien ello es posible, podrı́a, como suele ocurrir, que el marco muestral no nos provea de
información sobre la membresı́a de cada objeto al dominio, ya que esta información podrı́a
no conocerse sino quizás hasta después de culminado el muestreo. Otra razón para no usar
dominios como estratos es que ello puede resultar poco práctico cuando estos son disjuntos
y definidos, por ejemplo, a través del cruce de dos o más variables categóricas, las cuales
por la cantidad de sus modalidades podrı́an generar demasiados estratos. Adicionalmente,
cabe tener en cuenta que la idea de los dominios difiere de la de los estratos en el sentido
que no es necesario que los primeros conformen necesariamente grupos heterogénos entre
sı́ y homogéneos al interior; pues estos no se diseñan con este fin, sino con la finalidad
de conocer más lo que ocurra al interior de cada dominio y cómo se compara este con
otros dominios. Un ejemplo interesante del uso de dominios por MASs fue presentado en el
ejercicio 16 del capı́tulo anterior. En ese ejemplo asumimos que el número de viviendas en
el dominio d que contaban con servicio de agua y desagüe, Nd , no necesariamente se podı́a
conocer. En general, como aquı́, Nd requerirá por lo común estimarse, lo cual introducirá una
variabilidad extra y complejizará los cálculos. Imaginemos, por ejemplo, una encuesta de
viviendas en las que los dominios de interés esten centrados en ciertas minorı́as a los cuales
se les desea hacer cierta intervención. Uno de estos dominios podrı́a ser, por ejemplo, el
de mujeres quechuahablantes. Claramente, aquı́ solo será posible conocer esta condición en
la entrevista, más no previamente en el marco muestral de viviendas y, por tanto, uno
desconocerá el número de mujeres quechuahablantes en la población. Aun cuando, como
se hace en la práctica, dicha cantidad se reemplace por su número esperado o estimado,
se sugiere que el tamaño de muestral obtenido para el dominio bajo esta aproximación se
incremente ligeramente a fin de cubrir la variabilidad extra descartada. Para formalizar esto
veamos el siguiente desarrollo.
74 CAPÍTULO 3. MUESTREO ALEATORIO ESTRATIFICADO

Supongamos que deseamos estimar la media de una variable estadı́stica y para un dominio
d bajo un MAE. Para esto podrı́amos usar un estimador de razón combinado que estime tanto
el total τd en el dominio como su número de unidades Nd ; es decir,
 H  nh H
τ̂d h=1 i=1 ωhi Yhi γdi|h τ̂dh
Ȳd = =  H nh
= H h=1 ,
N̂d h=1 ω γ
i=1 hi di|h h=1 h p̄dh
N
siendo ωhi = Nnhh un peso o factor de expansión; γdi|h , un indicador no aleatorio 0-1 que
vale 1 si la i-ésima unidad seleccionada en el estrato h pertenece al dominio d; p̄dh = nndh h
,
la proporción muestral de unidades en el estrato h que pertenecen al dominio d, y τ̂dh el
estimador del total de y para el dominio d del estrato h, el cual describimos en el ejercicio
16 del capı́tulo 2. Puesto que este es un estimador de razón combinado, como el que se
estudiará en el capı́tulo 5, se sigue de (5.7) y de la parte b) del ejercicio 16 en el capı́tulo 2
que una aproximación de la varianza de Ȳd viene dada por
H
1  2 2
nh σ∗hz
V (Ȳd ) = N (1 − )
Nd2 h=1 h Nh n h
H  
1  Nh2 nh Ndh − 1 2 Ndh Ndh 2
= 2 (1 − ) ( )σ + (1 − )(µdh − µd ) , (3.4)
Nd h=1 nh Nh Nh − 1 dh Nh − 1 Nh
2
donde σ∗hz es la varianza de todos los valores z∗ih = (yih − Nτdd )γid|h en el estrato h, µd la
media de todas las Nd unidades del dominio d, Ndh el número de unidades en el estrato h
2
que pertenecen al dominio d y µdh y σdh la media y varianza de estas últimas unidades.
Una simplificación de (3.4) puede obtenerse si asumimos que la proporción muestral p̄dh
es más o menos la misma que la proporción poblacional respectiva pdh = NNdh h
. Ello nos lleva
a la aproximación
H
Ndh 2 1 nh  2 
V (Ȳd ) = ( ) (1 − ) σdh + qdh (µd h − µd )2 ,
h=1
Nd n h Nh

donde qdh = 1 − pdh . Para la consideración de los tamaños de muestra, podrı́amos fijar una
asignación a los dominios del número de unidades para la muestra del estrato h igual a
ndh = nh pdh . Ası́, si substituimos ello en la ecuación anterior, obtendremos que
H
Nh nh N (σ 2 + qdh (µdh − µd )2 )
V (Ȳd ) = ( )2 (1 − )pdh ( )2 dh .
h=1
N Nh Nd nh

Consecuentemente, podrı́amos usar los métodos de asignación estudiados en la sección 3.4,


luego de reemplazar Sh2 por una estimación de σ∗dh
2
= pdh ( NNd )2 (σdh
2
+ qdh (µdh − µd )2 ).
Por otro lado, el estimador natural para la varianza (3.4) de la media en el dominio d
será
H
1  2 nh σ̂∗hz2
V̂ (Ȳd ) = 2 Nh (1 − ) , (3.5)
N̂d h=1 Nh n h
3.6. USO DEL PAQUETE SURVEY 75

2
donde σ̂∗hz denota la varianza muestral de los valores z∗hi = (yhi − θ̂)γdi|h en el estrato
h. Si bien los cálculos parecen complicados, tenemos por fortuna que estos se encuentran
implementados en el paquete survey de R a través del comando svyby. Este nos provee,
por ejemplo, de las estimaciones de las medias por dominio Ȳd y sus errores estándar de
estimación estimados, los que se obtienen como la raı́z cuadrada de (3.5). En la siguiente
sección ilustraremos el uso de tal comando.

3.6. Uso del paquete survey

3.6.1. MAE con la base de datos api


Para seguir capacitándonos en el uso del paquete survey de R, retomemos el análisis de la
base de datos api y supongamos que ahora estamos interesados en un MAE de tamaño 200,
donde como criterio de estratificación usaremos el tipo de colegio (variable stype) fijando
nE = 100 escuelas elementales, nM = 50 escuelas medias y nH = 50 escuelas superiores.
De nuevo, nuestro interés recaerá sobre el número total de estudiantes matriculados y las
medias de los ı́ndices api.
Veamos primero cómo obtener una muestra MAE con estas especificaciones. A continua-
ción el código en R:

data(api)
attach(apipop)
table(stype)

## stype
## E H M
## 4421 755 1018

[Link](12345)
index = c(sample(which(stype=="E"),100),sample(which(stype=="H"),50),
sample(which(stype=="M"),50))
sample1 = apipop[index,]

Construyamos ahora una base de datos que contenga la muestra obtenida más el agregado
de dos variables, una asociada a los pesos de muestreo (pw) y otra que especifique el tamaño
del estrato que servirá para determinar el factor de corrección por finitud (fpc). En survey uno
puede encontrar también una base de datos similar llamada apistrat. Nosotros llamaremos
a nuestra base de datos sampleMAE.
76 CAPÍTULO 3. MUESTREO ALEATORIO ESTRATIFICADO

aux = [Link](pw = c(rep(44.21,100), rep(15.1,50), rep(20.36,50))


, fpc = c(rep(4421,100),rep(755,50), rep(1018,50)))
sampleMAE = cbind(sample1,aux)

Definamos ahora un objeto diseño apropiado que contenga la data y metada necesarias.
Esto se hace con

disMAE = svydesign(ids=~1,strata=~stype,fpc = ~fpc, data = sampleMAE)

Note que este comando tiene con respecto al MAS dos diferencias: una obvia
strata=~stype que especifica la variable de estratificación y otra menos obvia dada por
la introducción de la variable fpc del tamaño de la población en cada estrato. Si escribimos
disMAE obtendremos:

disMAE

## Stratified Independent Sampling design


## svydesign(ids = ~1, strata = ~stype, fpc = ~fpc, data = sampleMAE)

Analicemos ahora, como en el MAS, la estimación del número total de matriculados y la


media del ı́ndice api para 1999 y el 2000:

svytotal(~enroll,disMAE,[Link]=T)

## total SE
## enroll 3831118 121207

svymean(~api99+api00,disMAE)

## mean SE
## api99 645 10.34
## api00 679 9.75

Como se aprecia, el MAE ha reducido (con relación al MAS) el error estándar de estima-
ción. Esto es más evidente en la estimación del número total de estudiantes matriculados.
Mostremos ahora la estimación por dominios al analizar si, bajo este MAE, los colegios
que cuentan con profesores con calificaciones de emergencia o no tienen un peor o mejor
rendimiento api en el 2000. La variable emer recoge el porcentaje de profesores que tienen
una calificación de emergencia en el colegio; es decir, de profesores que no han obtenido una
especialización en educación, pero que conocen del tema y que, por tanto, podrı́an brindar
eventualmente las materias de su experticia. Note que cerca de un 80 % de los colegios posee
3.6. USO DEL PAQUETE SURVEY 77

al menos un profesor con calificaciones de emergencia, lo cual indica la dificultad que tienen
las escuelas para contratar profesores calificados.

table([Link](apipop$emer>0))

##
## 0 1
## 1270 4922

Si deseáramos estimar manualmente la media del ı́ndice api en el 2000 y su error de esti-
mación estimado en el dominio de colegios que cuentan con algún profesor con calificaciones
de emergencia, podrı́amos utilizar el siguiente código:

Nh = c(4421,755,1018)
nh = c(100,50,50)
disMAE = update(disMAE,cemer = [Link](emer>0),apicemer = api00*cemer)
Nd_e = [Link](svytotal(~cemer,disMAE))
taud_e = [Link](svytotal(~apicemer,disMAE))
(Ybard_e = taud_e/Nd_e)

## [1] 652

zh = (sampleMAE$api00-Ybard_e)*(sampleMAE$emer>0)
sigma2hz = [Link](by(zh,sampleMAE$stype,sd,[Link]=T))^2
(sed_e = sqrt(sum(Nh^2*(1-nh/Nh)*sigma2hz/nh)/Nd_e^2))

## [1] 10.6

Estos resultados pueden también obtenerse con el comando subset mediante

discemer = subset(disMAE,cemer==1)
svymean(~api00,discemer)

## mean SE
## api00 652 10.6

o de manera más general, para los dos dominios en estudio, con el comando svyby mediante
78 CAPÍTULO 3. MUESTREO ALEATORIO ESTRATIFICADO

(mdom = svyby(~api00,~cemer,disMAE,svymean))

## cemer api00 se
## 0 0 776 14.4
## 1 1 652 10.6

Como se observa, y puede verificarse a través de sus intervalos de confianza, los colegios
que contratan profesores con calificaciones de emergencia obtuvieron en promedio un menor
ı́ndice de rendimiento api en el 2000 que aquellos que no contrataron a estos profesores.

3.6.2. MAE con la evaluación censal de estudiantes 2019


Consideremos un MAE para la población ECE 2019 de estudiantes del segundo año de
secundaria de la DRE Amazonas. Algo primordial aquı́ es determinar el criterio de estratifi-
cación. Para ello, y tal como usualmente lo considera el Ministerio de Educación, usaremos
como variables de estratificación a las definidas por el cruce entre las variables de Área (area)
y Gestión (gestion2). Más especı́ficamente, consideraremos 4 estratos: [Link], Ru-
[Link], [Link] estatal y [Link] estatal. La construcción de la variable de estrati-
ficación y su distribución de frecuencias se muestra seguidamente.

load("[Link]")
Pop = ece19Am
Pop$Estrato=interaction(Pop$area,Pop$gestion2)
Pop = Pop[order(Pop$Estrato),]
table(Pop$Estrato)

##
## [Link] [Link] [Link] estatal [Link] estatal
## 5324 2434 82 50

Supongamos ahora que deseamos estimar el rendimiento medio en Matemáticas para esta
DRE con un error de no más de 5 puntos y una confianza del 95 %. Similarmente a como
lo hicimos en el MAS, tomaremos para este fin una muestra piloto de tan solo 10 alumnos
por estrato estimando con ello las desviaciones estándar iniciales por estrato. Esto también
podrı́a haberse hecho considerando las desviaciones estándar del rendimiento en Matemáticas
en la ECE 2018 u otro estudio muestral previo para esta DRE.

[Link](12345)
Nh = [Link](table(Pop$Estrato))
sigmah=sd(Pop$M500_M[Pop$Estrato=="[Link]"][sample(Nh[1],10)])
3.6. USO DEL PAQUETE SURVEY 79

sigmah[2]=sd(Pop$M500_M[Pop$Estrato=="[Link]"][sample(Nh[2],10)])
sigmah[3]=sd(Pop$M500_M[Pop$Estrato=="[Link] estatal"][sample(Nh[3],10)])
sigmah[4]=sd(Pop$M500_M[Pop$Estrato=="[Link] estatal"][sample(Nh[4],10)])

Utilizaremos aquı́ la siguiente afijación de Neyman ah para el tamaño de muestra por


estrato

ah = Nh*sigmah/sum(Nh*sigmah)

Los tamaños de muestra vendrán dados entonces por

d = dim(Pop)[1]*5/qnorm(0.975)
n = sum(((Nh*sigmah)^2)/ah)/(d^2 + sum(Nh*sigmah^2))
(n = ceiling(n))

## [1] 1020

(nh = round(ah*n))

## [1] 646 353 15 5

Tomemos ahora la muestra donde, a diferencia del ejemplo anterior, utilizaremos el co-
mando strata del paquete sampling. Este nos permitirá obtener la muestra de una manera
mucho más directa. Tal comando, cabe comentar, requiere de una previa ordenación (como
lo hicimos) de la base de datos según la variable de estratificación.

library(sampling)
[Link](12345)
m=strata(Pop,c("Estrato"),size=nh,method="srswor")
me19Am = getdata(Pop,m)
table([Link](me19Am$M500_M))

##
## FALSE TRUE
## 1014 5

Puesto que nuestra intención es analizar los rendimientos en Matemáticas y tenemos


aquı́ casos perdidos, eliminemos primero estos de la muestra
80 CAPÍTULO 3. MUESTREO ALEATORIO ESTRATIFICADO

me19Am = me19Am[[Link](me19Am$M500_M)==0,]
nh = [Link](table(me19Am$Estrato))
nh

## [1] 645 349 15 5

me19Am = cbind(me19Am,fpc = rep(Nh,nh))

El objeto diseño será entonces

dis19MAE = svydesign(ids=~1,strata=~Estrato,fpc=~fpc,data=me19Am)

Este nos dará las siguientes estimaciones para los rendimientos medios y la proporción de
logros alcanzados en Matemáticas por los estudiantes del segundo año de secundaria en
Amazonas:

(meanEAm = svymean(~M500_M,dis19MAE, deff=T))

## mean SE DEff
## M500_M 527.79 2.88 0.92

(mpM = svymean(~grupo_M,dis19MAE,[Link]=T))

## mean SE
## grupo_MPrevio al inicio 0.4597 0.01
## grupo_MEn inicio 0.2854 0.01
## grupo_MEn proceso 0.1572 0.01
## grupo_MSatisfactorio 0.0978 0.01

Note que para el rendimiento medio en Matemáticas pedimos una estimación del efecto
del diseño, el cual, como se aprecia, demuestra una ligera mayor eficiencia del MAE en
comparación con el MASs.

3.6.3. MAE para la población penitenciaria 2016


Supongamos que en lugar del censo penitenciario 2016 se nos hubiese encargado diseñar un
muestreo aleatorio estratificado para la población penitenciaria del paı́s. La pregunta inicial
es entonces cómo considerar los estratos. Recordemos que un MAE es óptimo mientras más
pueda separar a la población en estratos relativamente homogéneos. Claramente, una variable
con tal propiedad para nuestra población penitenciaria es el sexo; otra podrı́a ser el nivel
de peligrosidad de los internos, el cual lamentablemente desconocemos. Una posible tercera
3.6. USO DEL PAQUETE SURVEY 81

variable discriminatoria podrı́a ser el nivel de hacinamiento de las cárceles, información que
si bien no está consignada en el censo, es posible obtenerla de conocerse la capacidad de los
establecimientos penitenciarios (EP). Como criterio, consideraremos que un EP se encuentra
en condición de hacinamiento si este alberga al doble o más de internos que su capacidad.
Cabe precisar que las variables de capacidad y sexo para los EP se obtuvieron de una fuente
externa al censo (Informe Estadı́stico Penitenciario Noviembre 2016. INPE). El siguiente
código define los posibles estratos que resultarán del cruce de las variables de condición de
género y hacinamiento.

load('[Link]')
ncap = c(888,65,50,150,72,1518,160,1143,1370,50,384,350,920,572,1152,1464,
768,823,644,1620,2200,288,450,548,42,3204,1142,667,67,78,222,40,214,644,42,
60,120,680,105,85,50,48,64,1074,96,788,90,248,800,62,80,590,288,60,286,600,
78,654,544,636,180,44,778,420,1,8)
sex = c(3,1,3,1,2,1,2,3,1,2,3,3,3,1,1,3,1,1,3,1,3,2,2,2,1,1,1,1,2,1,1,2,1,3,
1,1,3,1,2,2,1,1,3,3,3,3,3,3,1,2,3,1,3,3,3,1,2,3,3,1,1,2,1,3,1,1)
freq = [Link](table(cp16$EST_PENIT))
phacib = freq/ncap
hacib = [Link](phacib>=2)
table(hacib,sex)

## sex
## hacib 1 2 3
## 0 12 9 7
## 1 17 4 17

La tabla final muestra la distribución de EP por condición de hacinamiento y sexo;


sin embargo, en lugar de trabajar con estos potenciales 6 estratos, creemos que serı́a más
conveniente considerar tan solo 4, ya que los EP mixtos (EP que albergan tanto a hombres
como mujeres) podrı́amos subdividirlos en dos EP: una para hombres y otro para mujeres.
De esta manera incrementarı́amos la cantidad de EP de 24 a 90. Todas estas correcciones y
actualizaciones de la base de datos se muestran a través del siguiente código:

# Recodificación de los establecimientos penitenciarios


aux = levels(cp16$EST_PENIT)
EP=factor(cp16$EST_PENIT,levels=c(aux[c(2,4:7,9,10,14,15,17,18,20,22:33,35,36,38:42,49,50,
52,56,57,60:63,65,66)],"Cajamarca_h","Cajamarca_m","Jaen_h","Jaen_m","Chiclayo_h",
"Chiclayo_m","Tumbes_h","Tumbes_m","Huaraz_h","Huaraz_m","Chimbote_h","Chimbote_m",
"Ica_h","Ica_m","Huacho_h","Huacho_m","Ancon2_h","Ancon2_m","Ayacucho_h","Ayacucho_m",
"Chanchamayo_h","Chanchamayo_m","Oroya_h","Oroya_m","Huanuco_h","Huanuco_m",
"Cerro Pasco_h","Cerro Pasco_m","Pucallpa_h","Pucallpa_m","Abancay_h","Abancay_m",
82 CAPÍTULO 3. MUESTREO ALEATORIO ESTRATIFICADO

"Andahuaylas_h","Andahuaylas_m","Quillabamba_h","Quillabamba_m","Chachapoyas_h",
"Chachapoyas_m","Bagua Grande_h","Bagua Grande_m","Yurimaguas_h","Yurimaguas_m",
"Juanjui_h","Juanjui_m","Moyobamba_h","Moyobamba_m","Juliaca_h","Juliaca_m"))
EP[cp16$EST_PENIT=="Cajamarca" & cp16$GENERO=="Hombre"] <- "Cajamarca_h"
EP[cp16$EST_PENIT=="Cajamarca" & cp16$GENERO=="Mujer"] <- "Cajamarca_m"
EP[cp16$EST_PENIT=="Jaen" & cp16$GENERO=="Hombre"] <- "Jaen_h"
EP[cp16$EST_PENIT=="Jaen" & cp16$GENERO=="Mujer"] <- "Jaen_m"
EP[cp16$EST_PENIT=="Chiclayo" & cp16$GENERO=="Hombre"] <- "Chiclayo_h"
EP[cp16$EST_PENIT=="Chiclayo" & cp16$GENERO=="Mujer"] <- "Chiclayo_m"
EP[cp16$EST_PENIT=="Tumbes" & cp16$GENERO=="Hombre"] <- "Tumbes_h"
EP[cp16$EST_PENIT=="Tumbes" & cp16$GENERO=="Mujer"] <- "Tumbes_m"
EP[cp16$EST_PENIT=="Huaraz" & cp16$GENERO=="Hombre"] <- "Huaraz_h"
EP[cp16$EST_PENIT=="Huaraz" & cp16$GENERO=="Mujer"] <- "Huaraz_m"
EP[cp16$EST_PENIT=="Chimbote" & cp16$GENERO=="Hombre"] <- "Chimbote_h"
EP[cp16$EST_PENIT=="Chimbote" & cp16$GENERO=="Mujer"] <- "Chimbote_m"
EP[cp16$EST_PENIT=="Ica" & cp16$GENERO=="Hombre"] <- "Ica_h"
EP[cp16$EST_PENIT=="Ica" & cp16$GENERO=="Mujer"] <- "Ica_m"
EP[cp16$EST_PENIT=="Huacho" & cp16$GENERO=="Hombre"] <- "Huacho_h"
EP[cp16$EST_PENIT=="Huacho" & cp16$GENERO=="Mujer"] <- "Huacho_m"
EP[cp16$EST_PENIT=="Modelo Ancon II - S.M.V.C." & cp16$GENERO=="Hombre"] <- "Ancon2_h"
EP[cp16$EST_PENIT=="Modelo Ancon II - S.M.V.C." & cp16$GENERO=="Mujer"] <- "Ancon2_m"
EP[cp16$EST_PENIT=="Ayacucho" & cp16$GENERO=="Hombre"] <- "Ayacucho_h"
EP[cp16$EST_PENIT=="Ayacucho" & cp16$GENERO=="Mujer"] <- "Ayacucho_m"
EP[cp16$EST_PENIT=="Chanchamayo" & cp16$GENERO=="Hombre"] <- "Chanchamayo_h"
EP[cp16$EST_PENIT=="Chanchamayo" & cp16$GENERO=="Mujer"] <- "Chanchamayo_m"
EP[cp16$EST_PENIT=="Oroya" & cp16$GENERO=="Hombre"] <- "Oroya_h"
EP[cp16$EST_PENIT=="Oroya" & cp16$GENERO=="Mujer"] <- "Oroya_m"
EP[cp16$EST_PENIT=="Huanuco" & cp16$GENERO=="Hombre"] <- "Huanuco_h"
EP[cp16$EST_PENIT=="Huanuco" & cp16$GENERO=="Mujer"] <- "Huanuco_m"
EP[cp16$EST_PENIT=="Cerro Pasco" & cp16$GENERO=="Hombre"] <- "Cerro Pasco_h"
EP[cp16$EST_PENIT=="Cerro Pasco" & cp16$GENERO=="Mujer"] <- "Cerro Pasco_m"
EP[cp16$EST_PENIT=="Pucallpa" & cp16$GENERO=="Hombre"] <- "Pucallpa_h"
EP[cp16$EST_PENIT=="Pucallpa" & cp16$GENERO=="Mujer"] <- "Pucallpa_m"
EP[cp16$EST_PENIT=="Abancay" & cp16$GENERO=="Hombre"] <- "Abancay_h"
EP[cp16$EST_PENIT=="Abancay" & cp16$GENERO=="Mujer"] <- "Abancay_m"
EP[cp16$EST_PENIT=="Andahuaylas" & cp16$GENERO=="Hombre"] <- "Andahuaylas_h"
EP[cp16$EST_PENIT=="Andahuaylas" & cp16$GENERO=="Mujer"] <- "Andahuaylas_m"
EP[cp16$EST_PENIT=="Quillabamba" & cp16$GENERO=="Hombre"] <- "Quillabamba_h"
EP[cp16$EST_PENIT=="Quillabamba" & cp16$GENERO=="Mujer"] <- "Quillabamba_m"
EP[cp16$EST_PENIT=="Chachapoyas" & cp16$GENERO=="Hombre"] <- "Chachapoyas_h"
EP[cp16$EST_PENIT=="Chachapoyas" & cp16$GENERO=="Mujer"] <- "Chachapoyas_m"
EP[cp16$EST_PENIT=="Bagua Grande" & cp16$GENERO=="Hombre"] <- "Bagua Grande_h"
EP[cp16$EST_PENIT=="Bagua Grande" & cp16$GENERO=="Mujer"] <- "Bagua Grande_m"
EP[cp16$EST_PENIT=="Yurimaguas" & cp16$GENERO=="Hombre"] <- "Yurimaguas_h"
EP[cp16$EST_PENIT=="Yurimaguas" & cp16$GENERO=="Mujer"] <- "Yurimaguas_m"
EP[cp16$EST_PENIT=="Juanjui" & cp16$GENERO=="Hombre"] <- "Juanjui_h"
3.6. USO DEL PAQUETE SURVEY 83

EP[cp16$EST_PENIT=="Juanjui" & cp16$GENERO=="Mujer"] <- "Juanjui_m"


EP[cp16$EST_PENIT=="Moyobamba" & cp16$GENERO=="Hombre"] <- "Moyobamba_h"
EP[cp16$EST_PENIT=="Moyobamba" & cp16$GENERO=="Mujer"] <- "Moyobamba_m"
EP[cp16$EST_PENIT=="Juliaca" & cp16$GENERO=="Hombre"] <- "Juliaca_h"
EP[cp16$EST_PENIT=="Juliaca" & cp16$GENERO=="Mujer"] <- "Juliaca_m"
cp16 = cbind(cp16,EP)
# Agregando las nuevas variables capacidad, CG, hacinamiento y estrato
cp16 = cp16[order(cp16$EST_PENIT),]
Capacidad = rep(ncap,freq)
CG = rep(sex,freq)
Hac = rep(hacib,freq)
cp16f = cbind(cp16,Capacidad,CG,Hac)
cp16f$Estrato=1
cp16f$Estrato[cp16f$Hac==0 & cp16f$GENERO=="Mujer"] = 2
cp16f$Estrato[cp16f$Hac==1 & cp16f$GENERO=="Hombre"] = 3
cp16f$Estrato[cp16f$Hac==1 & cp16f$GENERO=="Mujer"] = 4
cp16f$Estrato=factor(cp16f$Estrato,labels=c("No hacinados hombres","No hacinados mujeres",
"Hacinados hombres","Hacinados mujeres"))
cp16f = cp16f[order(cp16f$Estrato),]
save(cp16f,file='[Link]')

Una mirada parcial a la base de datos final nos revela lo siguiente:

cp16f[1:8,c(7:13,190:194)]

## EST_PENIT PABELLON GENERO E_CIVIL RELIGION EDAD NACIONALIDAD


## 3 Cajamarca NA Hombre Casado(a) Ninguna 25 PERUANO
## 4 Cajamarca NA Hombre Viudo(a) Otra 26 PERUANO
## 5 Cajamarca 3 Hombre Casado(a) Evangélica 49 PERUANO
## 6 Cajamarca 7 Hombre Conviviente Ninguna 40 PERUANO
## 7 Cajamarca 1 Hombre Casado(a) Católica 25 PERUANO
## 8 Cajamarca 2 Hombre Casado(a) Católica 45 PERUANO
## 10 Cajamarca NA Hombre Conviviente Católica 40 PERUANO
## 11 Cajamarca NA Hombre Casado(a) Evangélica 40 PERUANO
## EP Capacidad CG Hac Estrato
## 3 Cajamarca_h 888 3 0 No hacinados hombres
## 4 Cajamarca_h 888 3 0 No hacinados hombres
## 5 Cajamarca_h 888 3 0 No hacinados hombres
## 6 Cajamarca_h 888 3 0 No hacinados hombres
## 7 Cajamarca_h 888 3 0 No hacinados hombres
## 8 Cajamarca_h 888 3 0 No hacinados hombres
## 10 Cajamarca_h 888 3 0 No hacinados hombres
## 11 Cajamarca_h 888 3 0 No hacinados hombres
84 CAPÍTULO 3. MUESTREO ALEATORIO ESTRATIFICADO

Definamos ahora el diseño MAE y tomemos la muestra. Para ello usaremos el mismo
tamaño de muestra del MASs con una asignación proporcional, lo que nos da para cada
estrato tamaños de muestra de, respectivamente, 152, 37, 838 y 27 internos.

[Link](12345)
Nh = [Link](table(cp16f$Estrato))
m = strata(cp16f,c("Estrato"),size=c(152,37,838,27),method="srswor")
sampleMAE = getdata(cp16f,m)
fpc=c(rep(Nh[1],152),rep(Nh[2],37), rep(Nh[3],838),rep(Nh[4],27))
sampleMAE=cbind(sampleMAE,fpc)
disenhoMAE = svydesign(ids=~1,strata=~Estrato,fpc = ~fpc, data = sampleMAE)
disenhoMAE

## Stratified Independent Sampling design


## svydesign(ids = ~1, strata = ~Estrato, fpc = ~fpc, data = sampleMAE)

Estimemos, finalmente, como en el capı́tulo 2, la edad promedio de los internos, la pro-


porción de internos sentenciados y la proporción de aquellos que cuentan con un abogado.

svymean(~EDAD, disenhoMAE,[Link]=T)

## mean SE
## EDAD 36.1 0.35

svymean(~SITUACION_JURIDICA,disenhoMAE,[Link]=T)

## mean SE
## SITUACION_JURIDICAProcesado 0.206 0.01
## SITUACION_JURIDICASentenciado 0.794 0.01

svymean(~ABOGADO,disenhoMAE,[Link]=T)

## mean SE
## ABOGADOSı́ 0.533 0.02
## ABOGADONo 0.467 0.02
3.7. EJERCICIOS 85

3.7. Ejercicios
1. Se desea estimar la media poblacional de una variable y mediante un MAE. Muestre que
la varianza estimada de su estimador insesgado bajo la asignación de Neyman es siempre
menor o igual que la de este estimador mediante la asignación proporcional, probando que

H H
1  Nh  Nj
V̂P rop (Ȳ ) − V̂N eyman (Ȳ ) = (Sh − Sj )2 .
n h=1 N j=1
N

Explicı́te esta diferencia para H = 2 e indique qué deberı́a ocurrir para que esta diferencia
sea cada vez más grande.

2. Considere un MAE con solo 2 estratos en el que es de interés estimar la diferencia de


medias de una variable y entre estos estratos.
a) Proponga un estimador insesgado para esta diferencia µD y un estimador para su error
estándar de estimación.
b) ¿Qué asignación de tamaños de muestra por estrato harı́a que el error estándar de esti-
mación de µD sea mı́nimo?
c) En una encuesta por MAE de 300 trabajadores de una universidad, con estratos definidos
por quienes tienen educación superior y no, es de interés comparar el tiempo medio en
horas por dı́a que estos grupos de trabajadores permanecen en la universidad. Un estudio
piloto previo sobre los 1200 trabajadores que tenı́an estudios superiores encontró una media y
desviación estándar de 8.25 y 4.128 horas por dı́a, respectivamente; mientras que este estudio
sobre los 835 trabajadores que no tenı́an estudios superiores encontró un media y desviación
estándar de 7.45 y 3.46, respectivamente. Halle la asignación óptima que se deberı́a de tener
por estrato, de tal manera que se obtenga un intervalo de confianza de mı́nima longitud
esperada para la diferencia de medias en discusión.

3. Si se realiza un MAE para una población con 3 estratos de 50, 80 y 70 unidades, ¿cuántas
muestras distintas de tamaño 40 podrı́an obtenerse bajo una asignación proporcional?

4. Dado los resultados de un MAE, muestre que un estimador insesgado de la varianza de la


media bajo un MASs
n σ2
VM ASs (Ȳ ) = (1 − ) N −1
N n
viene dado por

H Nh
(N − n) 1  Nh 
V̂M ASs (Ȳ ) = ( y 2 δhi − Ȳ 2 + V̂ (Ȳ )),
n(N − 1) N h=1 nh i=1 hi

donde V̂ (Ȳ ) se define en (3.1).


86 CAPÍTULO 3. MUESTREO ALEATORIO ESTRATIFICADO

5. Muestre que el estimador insesgado de la varianza de la media de una variable y bajo una
asignación proporcional en el ejercicio 4 toma la forma
(N − n) n − 1 2
V̂M ASs (Ȳ ) = ( S + V̂ (Ȳ )),
n(N − 1) n
donde S 2 denota la varianza de todos los datos en la muestra sin tomar en cuenta la estrati-
ficación. Obtenga esta estimación para los datos de la ECE 2019 de Amazonas si se toma en
ella un MAE con asignación proporcional de tamaño 1000 que busca estimar el rendimiento
medio en Matemáticas de los alumnos del segundo año de secundaria.
6. Divida los rectángulos del ejercicio 22 del capı́tulo 2 en 2 estratos según estos tengan o no
menos de 30 unidades. Tome luego una MAE de tamaño 20 con algún tipo de afijación para
estimar el área total de todos los rectángulos y su intervalo de confianza al 98 %. Compare
sus resultados con los del ejercicio 22 del capı́tulo 2.
7. Una biblioteca municipal desea estimar el porcentaje de libros infantiles que posee. La
biblioteca tiene 4 salas (Norte, Sur, Este y Oeste) con 2800, 2940, 4050 y 7900 libros, res-
pectivamente. Suponga que para este objetivo se tomó un MAE con un tamaño de muestra
correspondiente al 10 % de los libros de la biblioteca y una asignación proporcional.
a) Si en la sala Sur se ubicaron 30 libros infantiles, ¿cuál es la estimación de la proporción
de libros infantiles en dicha sala?
b) Para un nivel de confianza del 98 %, ¿cuál es el error máximo de estimación que se
está cometiendo en la estimación anterior?
c) A un nivel de confianza del 95 %, ¿qué error máximo de estimación reportarı́a usted al
estimar la proporción de libros infantiles en toda la biblioteca?
8. En ocasiones, un MAE puede no estar adecuadamente equilibrado en alguna variable
no considerada como criterio de estratificación o podrı́amos no conocer a priori el valor de
esta variable en las unidades de la población, sino hasta después de observar la muestra.
Por posestratificación entenderemos al proceso mediante el cual uno extrae un MAS de la
población y estratifica esta luego de ser observada. En consecuencia, los tamaños de muestra
en cada post-estrato resultan aleatorios. Si para la media poblacional µ de una variable
H Nh
y consideramos al estimador Ȳ = h=1 N Ȳh , donde Ȳh es la media muestral de y en el
post-estrato h, Nh el número de unidades en este post-estrato y asumimos un muestreo sin
reemplazamiento,
a) Muestre que tanto los Ȳh como Ȳ son estimadores insesgados2 de, respectivamente, µh y
µ, siendo µh la media poblacional de y en el post-estrato h y µ la media poblacional global.

b) Muestre que V (Ȳ ) = H Nh 2 2 1 1 2
h=1 ( N ) σh (E( Xh )− Nh ), donde σh y Xh denotan, respectivamente,
la varianza y el tamaño de muestra en el post-estrato h.
c) Proponga algún estimador insesgado de Nh , en caso de que este sea desconocido.
2
Bajo la condición de que los post-estratos de tamaño 0 sea excluidos.
3.7. EJERCICIOS 87

d) Use una expansión de Taylor de segundo orden para el valor esperado en b) y muestre
que aproximadamente las varianzas de Ȳh y de varianza de Ȳ vienen dadas por
(N − Nh )N (N − n)σh2
V (Ȳh ) = (1 + ) y
nNh (N − 1) nNh
H H
N − n  Nh 2 1 N − n  N − Nh 2
V (Ȳ ) = ( )σh + 2 ( ) ( )σh .
nN h=1 N n N − 1 h=1 N
e) Dos estimadores de V (Ȳ ) son los estimadores incondicionales y condicionales. El primero
se obtiene simplemente al estimar insesgadamente en él las varianzas de los post-estratos o los
Nh , de ser necesarios, y el segundo de igual manera pero omitiendo el segundo término a de-
recha en esta varianza. Obtenga estas estimaciones si al tomar el MASs en 2.4.3 quisieramos
estimar la media del ı́ndice api del 2000, pero haciendo ahora una post-estratificación según
sea el colegio elegible o no para reconocimientos (awards). Obtenga, finalmente, una estima-
ción de V (Ȳ ) mediante el paquete survey, utilizando para ello el comando postStratify.
9. La DRE de Lima Metropolitana le ha pedido a usted realizar un MAE para la población
ECE 2019 con los siguientes 3 estratos: alumnos de colegios urbanos estatales, alumnos
de colegios urbanos no estatales y alumnos de colegios del área rural. Su presupuesto le
alcanza para evaluar 3000 alumnos y tiene como objetivo estimar el rendimiento medio en
Matemáticas de esta DRE. Si utiliza una asignación proporcional,
a) ¿Qué problemas prácticos piensa que podrı́a encontrar al momento de realizar el muestreo?
b) Halle el error de estimación a reportar en este estudio bajo un nivel de confianza del 95 %
c) Si le piden, como parte del estudio, reportar también el rendimiento medio en Matemáticas,
según el nivel socieconómico, donde estos niveles son 3 y definidos por quienes tienen un ISE
menor a 0.4, entre 0.4 y 1 y mayores a 1, ¿cuáles serı́an las estimaciones pedidas y sus errores
estándar de estimación estimados?
10. Un instituto cuenta con las especialidades de Contabilidad, Diseño Industrial, Arqui-
tectura de interiores y Administración de Negocios y desea estimar la proporción de sus
egresados que estarı́an dispuestos a seguir una nueva diplomatura que el instituto piensa
abrir. Se sabe que el último año egresaron de estas especialidades, respectivamente, 20, 200,
80 y 230 alumnos. Si le informan que una encuesta de 50 egresados ya ha sido tomada
mediante un MASs,
a) ¿Qué tan probable es que la encuesta haya omitido a alguna especialidad?
b) Si en la muestra se obtuvo, respectivamente, 3, 20, 12 y 15 alumnos de cada una de las
especialidades anteriores, donde 2, 4, 7 y 8 de ellos manifestaron que seguirı́an el diploma,
use esta información como muesta piloto para encontrar, en un estudio futuro, el tamaño de
muestra que se requerirı́a en un MAE para estimar la proporción de aceptación del diploma
con un margen de error de 0.03 y un nivel de confianza del 95 %. Proponga el tipo de
asignación.
88 CAPÍTULO 3. MUESTREO ALEATORIO ESTRATIFICADO

11. Considere una población de N = 20 domicilios, donde es conocida la variable y = renta


familiar mensual en miles de soles y la variable estrato socioeconómico al cual pertenecen
(con niveles A = alto, M = medio y B = bajo). Los valores de estas variables se resumen en
la siguiente tabla:

Unidad 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Renta 13 17 6 5 9 12 19 6 14 12 8 5 11 20 6 18 10 9 12 8

Estrato M A B B B M A B M M B B M A B A M B B B

A fin de estimar la renta familiar media, se tienen las alternativas de efectuar un MAE
con afijación proporcional, un MASs o un MASc; todos de tamaño 10.
a) Determine las varianzas de estos diseños e indique cuál es más eficiente y por qué.
b) Usando los números aleatorios 0.91, 0.02, 0.7, 0.35, 0.1, 0.96, 0.51, 0.46, 0.23, 0.87, tome
las muestras requeridas para estos diseños y estime la renta familiar media bajo cada uno.
12. Una empresa desea estimar, con un error no mayor a las 250 horas y un nivel de confianza
del 95 %, el número total de horas de trabajo perdidas en un mes debido a accidentes
entre sus empleados (basado en Mendenhall et al. (2007)). Como los obreros, técnicos y
administradores tienen diferentes tasas de siniestralidad, el investigador decide utilizar un
muestreo aleatorio estratificado, de modo que cada grupo forma un estrato independiente.
Los datos de años anteriores sugieren las varianzas que se muestran abajo por el número de
horas de trabajo perdidas por empleado en los 3 grupos. Se muestran también los tamaños
actualizados de los estratos.
Obreros Técnicos Administradores
Varianza 36 25 16
Tamaño 132 92 27

Usando la afijación de Neyman, determine los tamaños de muestra adecuados. ¿Cambian


estos tamaños si la asignación es proporcional?
13. En el MAE hemos seguido siempre la estrategia de obtener los tamaños de muestra según
las especificaciones del máximo error de estimación tolerable para estimar un parámetro
poblacional a un nivel de confianza dado. En ciertas situaciones, sin embargo, el investigador
podrı́a estar interesado en tratar de estimar el parámetro de interés para cada estrato con
un máximo error de estimación prefijado en él a un nivel de confianza dado. La pregunta
entonces es ¿cuál es el máximo error de estimación que se estarı́a cometiendo al estimar
con este procedimiento el parámetro en toda la población para el nivel de confianza dado?
Resuelva este problema para el caso del ejercicio 12; asuma que en este se desee estimar el
número total de horas de trabajo perdidas al interior de cada estrato con un error no mayor
a las 100 horas y una confianza del 95 %.
3.7. EJERCICIOS 89

14. Suponga que en el MAE de la subsección 3.6.2 le piden que reporte las estimaciones del
rendimiento medio en Matemáticas por sexo.
a) Dé estas estimaciones y sus errores estándar de estimación estimados.
b) ¿Cómo harı́a para comparar el rendimiento medio de las estudiantes mujeres que perte-
necen a colegios estatales y no estatales? ¿Se podrı́a concluir, con una confianza del 95 %,
que hay diferencias entre estos rendimientos medios?
c) Responda b) para el caso de los estudiantes hombres.
15. Burnard (1992) envió un cuestionario a una muestra estratificada de tutores y estudian-
tes en Gales para estudiar lo que ellos entendı́an por el término experiential learning. Los
tamaños de población y muestra de los cuatro estratos se muestran a continuación:

Estrato Tamaño de la población Tamaño de muestra


Tutores generales de enfermerı́a (GT) 150 109
Tutores de enfermerı́a psiquiátrica (PT) 34 26
Estudiantes generales de enfermerı́a (GS) 2680 222
Estudiantes de enfermerı́a psiquiátrica (PS) 570 40

A los entrevistados se les preguntó cuáles de las siguientes técnicas podrı́an identificarlas
como métodos de experiential learning. El número de entrevistados de cada grupo que iden-
tificó el método como de experiential learning se muestra a continuación:

Método GS PS PT GT
Role play 213 38 26 104
Problemas de solución de actividades 182 33 22 95
Simulaciones 95 20 22 64
Empatı́a en la construcción de ejercicios 89 25 20 54
Ejercicios gestálquicos 24 4 5 12

Estime el porcentaje total de estudiantes de enfermerı́a y tutores que identifican cada una
de las técnicas mencionadas como de experiential learning. Indique también en cada caso el
error estándar de estimación estimado para cada una de sus estimaciones.

16. Considere un MAE con asignación óptima sobre la ECE 2019 del segundo año de secun-
daria de la DRE Cusco; use la misma estratificación que en el estudio de Amazonas y estime
su rendimiento medio en Matemáticas. Se pide para ello un error de estimación no mayor a
los 5 puntos con una confianza del 95 %.
a) ¿Qué tamaño de muestra deberı́a considerar para este dominio? Utilice, para obtener las
estimaciones necesarias, la ECE 2018.
b) Tome la muestra requerida, obtenga la estimación pedida y calcule la estimción del efecto
de este diseño.
c) Compare, mediante un intervalo de confianza al 95 %, los rendimientos medios en Ma-
temáticas entre las DRE de Cusco y Amazonas.
90 CAPÍTULO 3. MUESTREO ALEATORIO ESTRATIFICADO

17. Considere la base de datos poblacional Province91 del ejercicio 17 del capı́tulo 2 y la
variable Stratum allı́ definida que identifica si la municipalidad de la provincia en estudio es
urbana o rural. Usando esta última como variable de estratificación y la variable número de
personas desempleadas como variable de investigación, tome un MAE de 8 municipalidades
y responda a lo siguiente:
a) Halle los tamaños de muestra por estrato usando una asignación proporcional.
b) Obtenga para el diseño anterior los efectos de diseño en la estimación del total de personas
desempleadas de la provincia.
c) Tomando la muestra requerida, estime el total de personas desempleadas en la provincia
y el efecto de diseño en esta estimación.
d) Si se estimara, bajo este diseño, la proporción de municipalidades que tienen una población
económicamente activa superior a las 10 000 personas, ¿qué error de estimación estimarı́a
para esta proporción?

18. Considere la base de datos apipop y suponga que está interesado en estimar el número
total de alumnos matriculados en esta población con un MAE, donde el criterio de estra-
tificación sea nuevamente el tipo de colegio. Se desea estimar este número con un error de
estimación no mayor a los 70 000 alumnos y un nivel de confianza del 95 %.
a) Tome un MAE piloto de solo 30 escuelas, usando por simplicidad una asignación propor-
cional, e indique en cúanto estimarı́a las desviaciones estándar del número de matriculados
por tipo de colegio.
b) Halle los tamaños de muestra requeridos con una asignación óptima y costos de muestreo
iguales utilizando las estimaciones necesarias de la muestra piloto tomada en a).
c) Realice el MAE y reporte el IC al 95 % para el número de matriculados en esta población.
d) Si con la muestra anterior es también de interés estimar la proporción de escuelas en esta
población que recibieron un premio (awards), estime tal proporción y reporte su error de
estimación estimado.

19. Un hospital público está interesado en construir en sus instalaciones una clı́nica priva-
da y por ello desea realizar una encuesta por muestreo para estimar, entre otras cosas, la
proporción de familias de la ciudad que se atenderı́an en esta clı́nica. El diseño sugerido
será estratificado y se tomarán como variables de estratificación a una que indique si la fami-
lia utiliza o ha utilizado el hospital o no lo ha hecho y a otra que indica si la familia proviene
del distrito donde se ubica el hospital o no. Los cuatro estratos formados, que denotaremos
como 1, 2, 3 y 4, serán entonces los de las familias usuarias del distrito, las usuarias que no
son del distrito, por las no usuarias del distrito y por las no usuarias que no son del distrito.
En un estudio piloto se encontró que, aproximadamente, el 85 % de las familias usuarias
y el 45 % de las no usuarias se atenderı́an en la clı́nica; sin embargo el estudio piloto no
registró el distrito de residencia del representante de la familia. Algo que tomar en cuenta
en la encuesta será que los costos de obtener una observación para una familia usuaria del
3.7. EJERCICIOS 91

distrito son de 3 soles, para una familia usuaria que no es del distrito son de 6 soles, y para
una familia no usuaria sonde 9 soles. Además, se sabe que el número de familias en estos
estratos, según el último censo, son de N1 = 123, N2 = 65, N3 = 155 y N4 = 570.
a) Encuentre qué proporción óptima de la muestra total deberı́a corresponder a cada estrato.
¿Qué criterio está utilizando para obtener estas asignaciones?
b) Encuentre el tamaño de muestra total si se desea estimar la proporción buscada con un
error de estimación no mayor a 0.05 y un nivel de confianza del 95 %.
c) Suponga que tiempo después de realizado el estudio se encontró para cada estrato las
siguientes estimaciones de la proporción de familias que usarı́an la clı́nica

p̂1 = 0.85, p̂2 = 0.72, p̂3 = 0.55, p̂4 = 0.43.

Estime la proporción poblacional p buscada y su error estándar de estimación.


d) Si el presupuesto total para el muestreo se hubiese fijado en $400, ¿cuáles serı́an ahora
los tamaños de muestra por estrato que minimicen el error de estimación?
e) Suponga que le pidiesen ahora que en cada estrato el error de estimación en la proporción
de familias que se atenderı́an en la clı́nica no fuese mayor a 0.05, con una confianza del 95 %.
¿Cuál serı́a el tamaño de muestra total que se requerirı́a en este muestreo? Use aquı́ solo la
información piloto.
20. En esta actividad se le pide que realice un MAE para la base de datos de libros en
lı́nea de la compañı́a Amazon ([Link].). El trabajo se restringirá a solo la población de
libros de Estadı́stica (Statistics) que no estén fuera de stock y que sean nuevos. El criterio de
estratificación se basará en el formato o tipo de empastado que tienen los libros (paperback,
hardcover, loose leaf y otros). Usando una asignación proporcional y una muestra de tamaño
70, estime, junto con sus errores estándar de estimación, el precio medio, la puntuación media
y la proporción actual de libros para cada estrato y para la población en general.
21. Arias-Schreiber et al. (2019) realizaron un análisis de costo-beneficio (ACB) a los proyec-
tos de ley presentados solo por congresistas en el perı́odo legislativo 2012-2013 del Congreso
de la República del Perú (980 proyectos de ley entre el 27/07/2012 al 15/06/2013). Ellos
construyeron un indicador de calidad del análisis ACB sobre la base de 18 variables que
medı́an distintas caracterı́sticas de los proyectos de ley, caracterı́sticas tales como la iden-
tificación de los beneficiarios y perjudicados por el proyecto, la necesidad de presentar el
proyecto, el uso de información para sustentar el proyecto, la evaluación de los costos para
el Estado de aprobarse el proyecto, etc. Información sobre estas variables puede obtenerse
en la siguiente página web del Congreso de la República:
[Link]
Para este análisis se optó por tomar un MAE con tres estratos que reflejaban la participación
de la comisión adscrita al proyecto en el presupuesto del Estado. Concretamente, cada uno
de los estratos que se formaron fueron los siguientes:
92 CAPÍTULO 3. MUESTREO ALEATORIO ESTRATIFICADO

(1) Estrato I (hasta el 1 % del presupuesto). Comprendió a las comisiones de Comercio


Exterior y Turismo, Constitución y Reglamento, Cultura y Patrimonio Cultural, Energı́a y
Minas, Fiscalización y Contralorı́a, Inclusión Social y Personas con Discapacidad, Mujer y Fa-
milia, Producción, Micro y Pequeña Empresa y Cooperativas, Pueblos Andinos, Amazónicos
y Afroperuanos, Ambiente y Ecologı́a, Relaciones Exteriores, y Trabajo y Seguridad Social.
Se registraron 318 proyectos de ley en este estrato.

(2) Estrato II (por encima del 1 % y hasta el 6 % del presupuesto). Comprendió a las comisio-
nes Agraria, de Ciencia, Innovación y Tecnologı́a de Defensa del Consumidor y Organismos
Reguladores de los Servicios Públicos, de Justicia y Derechos Humanos, de Salud y Población
y de Vivienda y Construcción. Se registraron 319 proyectos de ley en este estrato.

(3) Estrato III (por encima del 6 % y hasta el 22 % del presupuesto) Comprendió a las comi-
siones de Defensa Nacional, Orden Interno, Desarrollo Alternativo y Lucha contra las Drogas,
de Descentralización, Regionalización, Gobiernos Locales y Modernización de la Gestión del
Estado, de Economı́a, Banca y Finanzas e Inteligencia Financiera, de Educación, Juventud
y Deporte, de Transportes y Comunicaciones, de Inteligencia y de Presupuesto y Cuenta
General de la República. Se registraron 343 proyectos de ley en este estrato.

Si se desea estimar el porcentaje de proyectos de ley que tuvieron un análisis ACP aceptable
con un nivel de confianza del 95 % y un margen de error del 10 %,
a) ¿Cuál serı́a el tamaño de muestra adecuado? Tome en cuenta que, según estudios previos
del ACB en el paı́s y en paı́ses de la región, este porcentaje nunca supero el 20 %.
b) Tome la muestra requerida en a); use un tipo de asignación proporcional y estime, junto
con su error estándar de estimación, la proporción de proyectos de ley presentados por
congresistas del partido nacionalista Gana Perú en la legislatura 2012-2013.
Capı́tulo 4

Muestreo por conglomerados

Los diseños muestrales estudiados presuponı́an la existencia de un marco muestral bien


conocido y disponible, donde puede recabarse información que identifique a las posibles
unidades seleccionadas de la población objetivo P = {1, 2, ..., N }. En muchas situaciones
este marco no se encuentra disponible y su elaboración puede ser muy costosa, e incluso
imposible. En tales circunstancias, las unidades podrı́an estar ya naturalmente agrupadas
o las podrı́amos agregar en grupos claramente identificables para aplicar el muestreo sobre
estos. Dichos grupos o agregados se denominan conglomerados.
Supongamos, por ejemplo, que deseamos hacer una encuesta de opinión en un distrito
de la ciudad y que este distrito se encuentra dividido en barrios; es decir, en pequeñas
zonas geográficas determinadas por calles, plazas, etc. En un muestreo por conglomerados se
seleccionará primero una muestra de tales barrios y a continuación se averiguará la opinión
de las personas en los barrios seleccionados. Esto último puede realizarse tomando en cuenta
la opinión de todos los habitantes en los barrios seleccionados (muestreo por conglomerado
de una etapa) o haciendo el estudio mediante nuevos muestreos al interior de cada barrio
seleccionado (muestreo por conglomerados de dos o más etapas).
Como se ve, en el muestreo por conglomerados se parte de una estructura de sub-
poblaciones que conforman una partición de la población, como ocurre en el muestreo estra-
tificado, pero la similitud termina aquı́. En el muestreo estratificado se obtiene una muestra
de cada estrato. En el muestreo por conglomerado se obtiene una muestra de conglomera-
dos. Más áun, a fin de obtener diseños óptimos, la idea es que los conglomerados sean muy
homogéneos entre sı́ y heterogéneos al interior, caracterı́stica contraria a la de los estratos.
Entre las razones para optar por un muestreo de este tipo, citamos las siguientes:

Es difı́cil, caro o imposible construir una lista de unidades de observación para el marco
muestral.

La población podrı́a estar muy dispersa geográficamente o aparecer en cúmulos natu-


rales como familias, centros penitenciarios, hospitales o escuelas.

93
94 CAPÍTULO 4. MUESTREO POR CONGLOMERADOS

Si bien, al contrario de un muestreo estratificado, un muestreo por conglomerados tiende a


disminuir la precisión de las estimaciones, el muestreo por conglomerados es el diseño más
utilizado en encuestas sobre grandes poblaciones dada su economı́a y sencillez en el trabajo
de campo.

4.1. Teorı́a del muestreo por conglomerados


En un MAS, las unidades seleccionadas son los elementos observados. En un muestreo
por conglomerados, las unidades seleccionadas o primarias son los conglomerados, y los
elementos observados en su interior constituyen las unidades secundarias. En lo que resta de
este capı́tulo utilizaremos las siguientes notaciones, donde abordaremos con detalle hasta el
muestreo por conglomerados de dos etapas o bietápico. En primer lugar, nuestra población
estará conformada por N unidades primarias (conglomerados) a los que llamaremos UPM
(unidades primarias de muestreo). En cada UPM i asumiremos que existen Mi unidades
secundarias, a las que llamaremos USM (unidades secundarias de muestreo), y será de interés
estudiar una variable estadı́stica y, cuyo valor para la j-ésima USM dentro de la UPM i
será denotado por yij . Sean, por otro lado,

K= N i=1 Mi = número total de USM en la población

n = número de UPM en la muestra

mi = número de USM en la muestra dentro de la UPM i

y definamos la variable aleatoria indicadora δij como 1 si el elemento yij es seleccionado en


la muestra, y 0 en caso contrario. Note que esta variable puede descomponerse como

δij = δj|i δi ,

donde δj|i es una variable indicadora que toma el valor 1 si de seleccionarse la UPM i se
selecciona en la segunda etapa la USM j; mientras que la variable indicadora δi vale 1 si, y
solo si, la UPM i es seleccionada durante la primera etapa. En tal sentido, si las dos etapas
se realizan mediante un MASs, podremos escribir la función de probabilidad de δij mediante
nmi
P (δij = 1) = .
N Mi
En un muestreo de una etapa solo es necesario seleccionar las UPM, razón por la cual la
variable δij se reduce a δi , la cual vale 1 si la i-ésima UPM es seleccionada en la muestra, y
0 en caso contrario. Aquı́ se tiene que
n
P (δi = 1) = .
N
El siguiente cuadro muestra algunas de las cantidades de interés en nuestro estudio:
4.2. MUESTREO POR CONGLOMERADOS DE UNA ETAPA 95

Denominación Parámetro poblacional Estimador puntual


 i  Mi
Total de la UPM i τi = M j=1 yij τ̂i = M
mi
i
j=1 yij δj|i
 i  i
Media en la UPM i µi = M1 i M j=1 yij Ȳi = m1i M j=1 yij δj|i
  Mi   Mi N M i
Media global µ = K1 N i=1 j=1 yij Ȳ = K1 N i=1 j=1 nmi yij δij
 
Varianza en la UPM i σi2 = Mi1−1 M j=1 (yij − µi )
i 2
Si2 = mi1−1 M 2
j=1 (yij − Ȳi ) δj|i
i

 N
Varianza entre UPM σc2 = N 1−1 N K
i=1 (τi − N µ)
2
Sc2 = n−11 K 2
i=1 (Mi Ȳi − N Ȳ ) δi .

Cuadro 4.1: Principales parámetros y estimadores puntuales en un muestreo por conglome-


rados bietápico

La razón de que el estimador puntual de la media poblacional tome una forma un tanto
peculiar, es que este se construye con el fin de que sea un estimador insesgado de la media
poblacional µ. En efecto, un simple cálculo muestra que

N Mi N Mi N Mi
1  N Mi 1  N Mi nmi 1 
E(Ȳ ) = yij E(δij ) = yij = yij = µ.
K i=1 j=1 nmi K i=1 j=1 nmi N Mi K i=1 j=1

Más adelante exploraremos otra forma de estimar µ.

4.2. Muestreo por conglomerados de una etapa


Como mencionamos, en el muestreo por conglomerados de una etapa se selecciona me-
diante un MASs una muestra de n UPM y se procede luego a medir la variable de interés en
todos los elementos de los conglomerados seleccionados. Ası́, para el muestreo por conglo-
merados de una etapa, mi = Mi . Con el fin de estimar la media en este diseño, se podrı́an
considerar las medias de los conglomerados seleccionados, o funciones de ellas, como obser-
vaciones e ignorar los elementos individuales. El estimador insesgado de la media global µ
para un muestreo por conglomerados de una etapa viene dado por

N Mi N N
1  N  N  τi
Ȳ = yij δi = τi δ i = δi , (4.1)
K i=1 j=1 n i=1
nK i=1
nM

donde M = K N
es el tamaño promedio de los conglomerados. Note que esta expresión puede
escribirse también como
N
1  τi
Ȳ = ( )δi ,
n i=1 M
96 CAPÍTULO 4. MUESTREO POR CONGLOMERADOS

τi
lo cual sugiere qué se tomen como observaciones (agregadas) los elementos M
. En consecuen-
cia, por la teorı́a del MASs, la varianza de este estimador viene dada por
2
n σm
V (Ȳ ) = (1 − ) ,
N n

donde σm 2
= N 1−1 N τi 2
i=1 ( M − µ) . Como recordamos, un estimador insesgado de este último
es la varianza muestral
N
2 1  τi
Sm = ( − Ȳ )2 δi .
n − 1 i=1 M
Ası́, el error estándar de estimación estimado de la media Ȳ resulta ser
 
ˆ n S2
SE(Ȳ ) = V̂ (Ȳ ) = (1 − ) m .
N n
Suponiendo que tenemos información de una muestra piloto o de un estudio anterior sobre
2
Sm , este error de estimación nos permitirá, como es rutina en el MAS, obtener la siguiente
fórmula para el tamaño de muestra de conglomerados para un nivel de confianza de 100(1 −
α) % y un error máximo de estimación para µ de e:
2 2
z1− α Sm N
2
n= 2 2 2
.
z1− α Sm + e N
2

Ejemplo 4.1. Un problema con el estimador insesgado es que este posee en general una
varianza grande, situación que se torna más crı́tica cuando los conglomerados son de distintos
τi
tamaños. Ello es natural, pues la varianza de este es la de los elementos M̄ , los cuales poseen
un denominador común, pero totales que varı́an mucho según la cantidad de unidades que
contiene el conglomerado. Para ilustrar ello, retomemos la data de la ECE 2019, donde los
conglomerados naturales en dicha población son los colegios. Supongamos ahora que deseamos
estimar insesgadamente el rendimiento medio en Ciencia y Tecnologı́a de los alumnos de la
DRE Amazonas con un margen de error de no más de 5 puntos y una confianza del 95 %
usando un muestreo por conglomerados de una etapa. Si analizamos los totales de rendimiento
de los colegios de esta población en el histograma de la figura 4.1, vemos que, en efecto, este
es altamente variable con un CV del 25.59 %

load("[Link]")
tau_CT = ece19Am$M500_CT
# hist(tau_CT)

Para calcular el tamaño de muestra (número de colegios) requeriremos estimar la varianza


τi
entre los elementos M̄ de los colegios. Si bien esta cantidad la podrı́amos obtener de un
estudio piloto o un muestreo pasado, aquı́ la obtendremos para no desenfocarnos de nuestra
data censal. El siguiente código nos permitirá realizar este cálculo
4.2. MUESTREO POR CONGLOMERADOS DE UNA ETAPA 97

2500
2000
1500
Frecuencia

1000
500
0

0 500 1000

Totales de rendimiento

Figura 4.1: Histograma de los totales de rendimiento en Ciencia y Tecnologı́a de los colegio
de la DRE Amazonas en la ECE 2019

K = dim(ece19Am)[1] #Número de estudiantes en Amazonas


(N = length(unique(ece19Am$ID_IE))) #Número de colegios en Amazonas

## [1] 286

Mbar = K/N
tau = aggregate(ece19Am$M500_CT,by=list(ece19Am$ID_IE),sum)
Sm2 = var(tau$x/Mbar,[Link]=T)

El número de colegios a seleccionarse será entonces:

d2 = 25*N/(qnorm(0.975)^2)
ceiling(Sm2*N/(d2 + Sm2))

## [1] 281

que, como se aprecia, es sumamente alto e implica casi un censo. 


98 CAPÍTULO 4. MUESTREO POR CONGLOMERADOS

4.3. El estimador de razón


En la sección anterior hemos asumido indirectamente que K o M eran cantidades cono-
cidas. Usualmente, sin embargo, estos se desconocen. Si retomamos el estimador insesgado
(4.1) de µ,
 N
τi
Ȳ = δi ,
i=1
nM
vemos que una idea para salvar tal problema podrı́a consistir en estimar M como el tamaño
promedio de solo los conglomerados seleccionados en la muestra; vale decir, por
 N
ˆ = 1
M̄ Mi δ i .
n i=1

Si hacemos esto, obtendremos entonces el llamado estimador de razón de µ


N
τi δ i
Ȳr = Ni=1 .
i=1 Mi δi

Este, como su nombre lo sugiere, es un cociente o una razón entre dos variables aleatorias. Si
bien el estudio teórico de este tipo de estimadores lo haremos en el capı́tulo 5, adelantaremos
la siguiente proposición de importancia práctica para este estimador.

Proposición 4.1. El error estándar de estimación aproximado para el estimador de razón


de la media viene dado por

 N
 n 1 
SE(Ȳr ) = (1 − ) M 2 (µi − µ)2 .
N n(N − 1)M̄ 2 i=1 i

Este error estándar puede estimarse por



 N
 n 1 
SE(Ȳr ) = (1 − )
ˆ Mi2 (Ȳi − Ȳr )2 δi .
ˆ2
N n(N − 1)M̄ i=1

Al igual que en los diseños anteriores, podemos utilizar el último resultado para obtener un
tamaño de muestra de conglomerados que nos permita estimar µ con un error máximo e y
un nivel de confianza del 100(1 − α) %. Ello se obtiene de despejar n en la ecuación

ˆ Ȳr ) = z1− α (1 − n ) 1 Sr2 ,
e = z1− α2 SE( 2
N nM̄ ˆ2

donde:
N N
1  2 1 
Sr2 = Mi (Ȳi − Ȳr )2 δi = (τ̂i − Mi Ȳr )2 δi
n − 1 i=1 n − 1 i=1
4.4. ESTIMACIÓN DE UNA PROPORCIÓN 99

ha de estimarse de una prueba piloto o de un estudio similar. Un poco de álgebra nos lleva
entonces a la siguiente fórmula:

N Sr2
n= eM̄
.
N(z )2 + Sr2
1− α
2

Cabe indicar, sin embargo, que esta fórmula es válida para tamaños de muestra suficien-
temente grandes y que el sesgo del estimador de razón se hace cada vez más despreciable
conforme aumenta n. Por lo común, la varianza de este estimador resulta ser mucho menor
que la del estimador insesgado, en especial si los tamaños de los conglomerados muestran
una alta heterogeneidad.
Observación: Si los tamaños de los conglomerados son todos iguales, entonces el estimador
insesgado y de razón para µ coinciden.

4.4. Estimación de una proporción


Si recordamos que una proporción no es sino la media de una variable dicotómica Y ,
entonces todo el análisis anterior similar si trabajamos con una variable de este tipo. En
este caso, los estimadores puntuales de la proporción p de elementos de la población que
comparten una caracterı́stica dada para la cual Y vale 1 vienen dados por

N
ai
p̂ = δi
i=1
nM

en el caso insesgado por N


ai δi
p̂r = Ni=1
i=1 M i δi

para el estimador de razón, siendo ai el número de elementos en el conglomerado i que


comparten la caracterı́stica dada. Todas las demás propiedades de la media se verifican para
la proporción al reemplazar τi por ai .

Ejemplo 4.2. Un sociólogo desea estimar los ingresos anuales medios por persona de cierta
ciudad, ası́ como la proporción de estas personas que alquilan sus viviendas (es decir, que
no son propietarios). Dado que él no dispone de una lista de las personas adultas residentes,
decide tomar una muestra por conglomerados. Para ello, obtiene un mapa de la ciudad que
lo divide en 415 bloques rectangulares. Luego selecciona al azar 25 de ellos a cada uno de
los conglomerados seleccionados y asigna un grupo de encuestadores con el objetivo de que
ellos recaben la información requerida en todos los hogares de dichos conglomerados. Luego
del trabajo de campo se obtuvo la tabla que seguidamente se detalla, donde los ingresos están
en cientos de dólares.
100 CAPÍTULO 4. MUESTREO POR CONGLOMERADOS

a) Estime puntualmente la proporción de arrendatarios en esta ciudad y establezca un


lı́mite para el error de estimación con una confianza del 95 %.

b) Si era de interés para el sociólogo estimar el ingreso anual medio por persona en esta
ciudad con un error máximo de 100 dólares, ¿fue suficiente el tamaño de muestra
tomado?
Conglomerado Número de residentes Ingresos totales Número de personas
adultos que alquilan
1 8 96 4
2 12 121 7
3 4 42 1
4 5 65 3
5 6 52 3
6 6 40 4
7 7 75 4
8 5 65 2
9 8 45 3
10 3 50 2
11 2 85 1
12 6 43 3
13 5 54 2
14 10 49 5
15 9 53 4
16 3 50 1
17 6 32 4
18 5 22 2
19 5 45 3
20 4 37 1
21 6 51 3
22 8 30 3
23 7 39 4
24 3 47 0
25 8 41 3

Solución: a) Puesto que no conocemos aquı́ el tamaño de los conglomerados no seleccionados,


solo podrı́amos usar el estimador de razón. Este y su error de estimación lo podrı́amos
calcular introduciendo los datos en la base de datos Rentas y utilizando el código

N = 415
n = 25
load('[Link]')
Mi = Rentas$Nresidentes
pi = Rentas$Nalquilan/Mi
(pr = sum(Rentas$Nalquilan)/sum(Mi))
4.5. MUESTREO POR CONGLOMERADO BIETÁPICO 101

## [1] 0.477

S2pr = sum(Mi^2*(pi-pr)^2)/(n-1)
SEpr_e = sqrt((1-n/N)*S2pr/(n*mean(Mi)^2))
(e = qnorm(0.975)*SEpr_e)

## [1] 0.0458

b) Para responder a esto podrı́amos hallar el error de estimación máximo con el tamaño
actual de muestra o el tamaño de muestra para e = 1. Optemos por el segundo camino. Este
tamaño de muestra deberı́a ser de

Ybarr = sum(Rentas$Ingresos_totales)/sum(Mi)
Ybari = Rentas$Ingresos_totales/Mi
S2r = sum((Mi*(Ybari-Ybarr))^2)/(n-1)
D = mean(Mi)/qnorm(0.975)
(n1= ceiling(N*S2r/(N*D^2 + S2r)))

## [1] 58

por lo que el tamaño de muestra tomado no fue suficiente. 

4.5. Muestreo por conglomerado bietápico


En el muestreo por conglomerados de una etapa examinamos todas las USM dentro
de cada UPM elegida. En muchas situaciones, sin embargo, los conglomerados pueden ser
demasiado similares o numerosos, de modo que el análisis de todas las subunidades dentro de
una unidad primaria será un desperdicio de recursos. En estos casos podrı́a ser más eficiente
y económico tomar una submuestra dentro de cada UPM. Este muestreo se denomina un
muestreo por conglomerados bietápico y se resume como sigue:

Se considera un MASs de tamaño n sobre la población de N UPM.

Se considera un MASs de mi USM dentro de cada UPM i seleccionada.

Como vimos en la tabla 4.1, un estimador insesgado de la media global poblacional µ viene
dado por
N Mi
1  N Mi
Ȳ = yij δij .
K i=1 j=1 nmi
Dado que ahora se toman muestras en dos etapas, la varianza de este estimador posee dos
componentes, una debido a la variabilidad entre las UPM y otra debido a la variabilidad entre
102 CAPÍTULO 4. MUESTREO POR CONGLOMERADOS

las USM al interior de las UPM. Concretamente, se puede probar (más adelante mostraremos
un caso más general) que
N
n σc2 1  mi σ2
V (Ȳ ) = (1 − ) 2
+ 2
(1 − )Mi2 i , (4.2)
N nM̄ nM̄ N i=1 Mi mi

donde σc2 es la varianza entre UPM y σi2 es la varianza al interior de la UPM i. Estas últimas
cantidades se pueden estimar, respectivamente, por
N
1 
Sc2 = (τ̂i − M̄ Ȳ )2 δi
n − 1 i=1

y Si2 , dando lugar al siguiente estimador insesgado de la varianza (4.2):


N
n Sc2 1  mi S2
V̂ (Ȳ ) = (1 − ) 2
+ 2
(1 − )Mi2 i δi .
N nM̄ nM̄ N i=1 Mi mi

Al igual que en el muestreo por conglomerados de una etapa, el problema con Ȳ recae en el
desconocimiento de K. Una manera de subsanar ello es utilizando nuevamente el estimador
de razón N N
τ̂i δi Mi Ȳi δi
Ȳr = Ni=1 = i=1
N
.
i=1 M δ
i i i=1 Mi δi
Si bien este es un estimador sesgado, tal sesgo es despreciable para n grande y usualmente
este estimador posee una varianza menor que la del estimador insesgado. Esta última se
prueba que viene dada aproximadamente por
N
n σr2 1  mi 2
2 σi
V (Ȳr ) = (1 − ) + (1 − )Mi , (4.3)
N nM̄ 2 nM̄ 2 N i=1 Mi mi

donde:
N N
1  2 1 
σr2 = Mi (µi − µ)2 = (Mi µi − Mi µ)2 .
N − 1 i=1 N − 1 i=1
Un estimador de esta última cantidad es
N
n Sr2 1  mi S2
V̂ (Ȳr ) = (1 − ) + (1 − )Mi2 i δi ,
ˆ 2 nM̄
N nM̄ ˆ 2N Mi mi
i=1

donde:
N N
1  2 1 
Sr2 = Mi (Ȳi − Ȳr )2 δi = (τ̂i − Mi Ȳr )2 δi .
n − 1 i=1 n − 1 i=1
Para estimar una proporción basta recordar que este es un caso particular de estimación
de la media cuando la variable de investigación es dicotómica. Luego, uno puede fácilmente
4.6. LA CORRELACIÓN INTRACLASE Y EL EFECTO DE DISEÑO 103

encontrar que el estimador de razón de la proporción de elementos de la población p para


los cuales la variable toma el valor 1 viene dado por
N
Mi p̂i δi
p̂r = i=1
N
,
i=1 Mi δi

siendo p̂i la proporción estimada en la muestra del conglomerado i. La varianza estimada de


este estimador viene dada por
N
n Sr2 1  mi p̂i (1 − p̂i )
V̂ (p̂r ) = (1 − ) + (1 − )Mi2 δi ,
ˆ 2 nM̄
N nM̄ ˆ 2N M i mi − 1
i=1

donde:
N N
1  2 1 
Sr2 = Mi (p̂i − p̂r )2 δi = (Mi p̂i − Mi p̂r )2 δi .
n − 1 i=1 n − 1 i=1

4.6. La correlación intraclase y el efecto de diseño


Esta sección se enfoca en comparar un muestreo por conglomerados con un MAS, para
lo cual será de gran utilidad introducir alguna medida que refleje la variabilidad existente al
interior de los conglomerados con relación a la variabilidad de toda la población. Para tal
efecto será de gran ayuda analizar la siguiente descomposición de esta última variabilidad, la
  Mi
cual podrı́a medirse por la suma de cuadrados totales SCT = N i=1
2
j=1 (yij −µ) . Sumando
y restando en el término cuadrático la media µi de cada conglomerado, obtendremos que
SCT SCC SCE
        
 Mi
N  N
 Mi
N 

(yij − µ)2 = Mi (µi − µ)2 + (yij − µi )2 ,
i=1 j=1 i=1 i=1 j=1

donde a SCC se le denomina la suma de cuadrados entre conglomerados; y a SCE, la suma


de cuadrados del error o dentro de los conglomerados. Esta descomposición puede también
resumirse en la tabla ANOVA del cuadro 4.2.
Fuente de variabilidad Sumas de cuadrados Número de términos
Entre conglomerados SCC N
Dentro de los conglomerados SCE K −N
Total SCT K

Cuadro 4.2: Tabla ANOVA para un muestreo por conglomerados.

Sobre la base del último cuadro, una posible medida de homogeneidad al interior de los
conglomerados viene dada por el coeficiente de determinación ajustado
K SCE
Ra2 = 1 − ( ) .
K − N SCT
104 CAPÍTULO 4. MUESTREO POR CONGLOMERADOS

Mientras más cercano esté Ra2 a 1, más homogéneos serán los conglomerados en su interior
y la variabilidad existente será explicada en esencia por las diferencias entre las medias de
los conglomerados.
Un caso particular del análisis anterior se da cuando los tamaños Mi de los conglomerados
son todos iguales, digamos M . En este caso, al coeficiente
M SCE
Ra2 = 1 − ( )
M − 1 SCT
se le suele denotar por ρ y se le denomina la correlación intraclase. Una de las razones
de su popularidad es que se puede probar que ρ no es sino el coeficiente de correlación
de Pearson para los N M (M − 1) distintos posibles pares (yij , yik ), con i = 1, 2, . . . , N y
j = k ∈ {1, 2, . . . , M }, que uno pudiera tomar en la población de y (véase el ejercicio 4.7).
Veamos ahora el rol que desempeña ρ en el cálculo del efecto de diseño para un muestreo
por conglomerados de una etapa cuando los conglomerados tienen el mismo tamaño. Como
recordamos, para este último caso, la varianza del estimador de la media poblacional viene
dada por
n 1
Vc (Ȳ ) = (1 − ) SCC;
N nM (N − 1)
mientras que la varianza de este estimador bajo un MASs es
n σ2 n SCT
VM ASs (Ȳ ) = (1 − ) = (1 − ) .
N nM N nM (N M − 1)
Relacionando SCC con ρ, obtenemos
SCC SCE M −1 1 + ρ(M − 1)
=1− =1− (1 − ρ) =
SCT SCT M M
−1)
y, consecuentemente SCC = SCT 1+ρ(M M
. Reemplazando esta expresión en la varianza Vc
y tomando el cociente con la varianza VM ASs , resulta que el efecto de diseño viene dado por
Vc (Ȳ ) NM − 1
def f = = (1 + ρ(M − 1)).
VM ASs (Ȳ ) M (N − 1)
M −1
Dado que MN(N −1)
> 1, este efecto será siempre mayor que 1 y, por tanto, el diseño por
conglomerados de una etapa será menos eficiente que el MASs si ρ > 0. Esta es, en efecto,
la situación más usual. Aquı́, los elementos al interior de los conglomerados tienden a ser
más similares entre sı́ que los elementos seleccionados aleatoriamente de la población, lo
cual básicamente ocurre por un efecto de “contagio” ya que los elementos al interior de un
conglomerado comparten un entorno similar; ası́ por ejemplo, en el caso de una encuesta de
hogares, se esperará que los miembros de una vecindad seleccionada (conglomerado), que
han optado por vivir en ella y a interactuar con sus vecinos, tiendan a compartir varias
caracterı́sticas comunes o posean opiniones similares ante distintos cuestionamientos.
Raramente el efecto de diseño será menor que 1, y esto sucederá cuando ρ < − N M1 −1 .
4.7. MUESTREO SISTEMÁTICO 105

Ejemplo 4.3. Consideremos nuevamente el ECE 2019 para la DRE Amazonas y calculemos
para ejemplificar, pues tenemos a toda la población, el coeficiente de determinación ajustado
en la estimación de los rendimientos de Matemáticas. Este viene dado por

fit = aov(ece19Am$M500_M ~ factor(ece19Am$ID_IE),data=ece19Am)


(R2a =1-(1-1/K)*summary(fit)[[1]]$'Mean Sq'[2]/var(ece19Am$M500_M,[Link]=T))

## [1] 0.49

Como se aprecia, la prueba ANOVA, que resulta significativa, tiene un coeficiente de


determinación ajustado alto y positivo. 

4.7. Muestreo sistemático


Considere una población con N elementos, donde por simplicidad supondremos que N =
nk, siendo k un número natural y n el tamaño de muestra a considerar. Asumamos también
que disponemos de un marco muestral ordenado: 1, 2, . . . , N . Si seleccionamos ahora al azar
una unidad de entre los primeros k, digamos la unidad j, y luego consecutivamente los
siguientes n − 1 elementos tomados de k en k; es decir, los elementos

j + k, j + 2k, . . . , j + (n − 1)k,

entonces diremos que hemos empleado en esta selección un muestreo sistemático.


La principal ventaja de un muestreo sistemático es su sencillez de ejecución. También
está sujeto a menos posibilidades de errores por parte del entrevistador. En cuanto a su
precisión, esta depende de la muestra y no es posible su directa evaluación. Para entender ello
resulta revelador considerar el muestreo sistemático como un caso particular de un muestreo
por conglomerados. En efecto, si escribimos los valores de nuestra variable estadı́stica de
interés en la población como

y1 , . . . , yk , yk+1 , . . . , y2k , y2k+1 , . . . , y(n−1)k , y(n−1)k+1 , . . . , ynk

o mejor aún en una matriz como

Muestras 1 2 ... n Medias


1 y1 yk+1 ... y(n−1)k+1 µ1
2 y2 yk+2 ... y(n−1)k+2 µ2
.. .. .. .. .. ..
. . . . . . (4.4)
i yi yk+i ... y(n−1)k+i µi
.. .. .. .. .. ..
. . . . . .
k yk y2k ... ynk µk
106 CAPÍTULO 4. MUESTREO POR CONGLOMERADOS

Cada fila de esta matriz representa una posible muestra sistemática de tamaño n, con su
respectiva media. Por tanto, podrı́amos considerar estas filas conglomerados de igual tamaño,
y de los cuales seleccionamos tan solo uno. Ası́, el muestreo sistemático se reduce a un
muestreo por conglomerados de una etapa con k conglomerados, cada uno de tamaño n, de
donde seleccionamos tan solo uno. Consecuentemente, el estimador insesgado de la media
nk
1 
µ= yi
nk i=1

viene dado por


µ̂ = Ȳα ,
siendo α el conglomerado seleccionado. Más aún, la varianza de este estimador viene dada
por
k
1
V (µ̂) = (µi − µ)2 (4.5)
k i=1
y su efecto de diseño toma la forma
N −1
def f = (1 + ρ(n − 1)).
N −n
Vemos entonces que si ρ es cercano a 1, los elementos dentro de la muestra serán bastante
similares con respecto a la caracterı́stica que estamos midiendo, y el muestreo sistemático
producirá una varianza de la media muestral mayor que la obtenida con un MASs. Si ρ es
negativo, entonces el muestreo sistemático puede ser más preciso que el MAS. La correlación
puede ser negativa si los elementos dentro de la muestra sistemática tienden a ser extre-
madamente diferentes. Para ρ cercano a 0 y N bastante grande, el muestro sistemático es
aproximadamente equivalente al MASs.

Ejemplo 4.4. Consideremos la siguiente población de un centro de trabajo:

Sujeto 1 2 3 4 5 6 7 8 9 10 11 12
Edad 35 24 60 38 22 33 54 45 38 19 53 40
Sexo M H H M H M M M H M M H
Ingreso 3333 3401 7687 3531 3134 3087 4813 4113 5064 2017 4724 5300

donde es de interés estimar el ingreso medio de estas personas sobre la base de una muestra
sistemática de tamaño n = 4. Obtenga esta estimación y calcule el efecto de este diseño.
Solución: Definamos inicialmente en R nuestra población de estudio.

Popc=[Link](Sujeto=c(1:12),Edad = c(35,24,60,38,22,33,54,45,38,19,53,40),
Sexo = c("M","H","H","M","H","M","M","M","H","M","M","H"),
Ingreso = c(3333,3401,7687,3531,3134,3087,4813, 4113,5064,2017,4724,5300))
4.7. MUESTREO SISTEMÁTICO 107

Para obtener la muestra sistemática podrı́amos ordenar los datos en una matriz 3 × 4
como la dada en (4.4); seleccionar un número aleatorio entre 1 y 3; tomar la fila obtenida y,
finalmente, obtener la estimación pedida al tomar el promedio de los datos de esa fila. Esto
en R se hace con

[Link](12345)
M = matrix(Popc$Ingreso,nrow=3,ncol=4)
m = sample(3,1)
MuestraS = [Link](Ingreso = M[m,])
(Media = mean(MuestraS$Ingreso))

## [1] 5284

Dado que en este ejemplo disponemos de toda la población, es factible obtener la correla-
ción intraclase. Esta por definición es

Popc = cbind(Popc,cluster=rep(1:3,4))
N = dim(Popc)[1]
n = 4
fit = aov(Popc$Ingreso~factor(Popc$cluster),data=Popc)
SCE = summary(fit)[[1]]$'Sum Sq'[2]
SCT = summary(fit)[[1]]$'Sum Sq'[1] + SCE
(rho1 = 1 - (n/(n-1))*(SCE/SCT))

## [1] 0.0946

Desde otro punto de vista, podrı́amos también calcular la correlación intraclase usando
el paquete combinat mediante

library(combinat)
k = max(Popc$cluster)
gx <-function(x,r){c(M[r,x[1]],M[r,x[2]])}
pairs = cbind(combn(1:4,2,gx,simplify=T,1), combn(4:1,2,gx,simplify=T,1))
for (j in 2:k){
pairs = cbind(pairs,cbind(combn(1:4,2,gx,simplify=T,j),
combn(4:1,2,gx,simplify=T,j)))}
(rho2 = cor(t(pairs))[1,2])

## [1] 0.0946

(deff = (N-1)*(1 + rho2*(n-1))/(N-n))

## [1] 1.77
108 CAPÍTULO 4. MUESTREO POR CONGLOMERADOS

Como se aprecia, se obtiene una correlación intraclase cercana a 0 y un efecto de diseño


de aproximadamente 1.77, lo que nos da un diseño un poco menos preciso que el MASs. 
Un problema central con el muestreo sistemático es, como adelantamos, que este no nos
permite obtener una estimación directa de la varianza del estimador, ya que solo se basa en
una muestra de un único conglomerado. Una solución podrı́a ser considerar la fórmula de un
MASs, lo cual para los datos del ejemplo anterior podrı́a ser algo razonable. Si hiciéramos
eso, el error estándar de estimación estimado serı́a

library(survey)
disC = svydesign(id=~1,fpc=rep(12,4),data=MuestraS)
svymean(~Ingreso,disC)

## mean SE
## Ingreso 5284 769

el cual subestima ligeramente al verdadero error estándar de estimación de µ̂. En efecto,


la media y el error estándar de µ̂ (valores que conocemos, solo porque tenemos a toda la
población) vienen dados por

c(mean(Popc$Ingreso),sqrt(deff*(1-n/N)*var(Popc$Ingreso)/n))

## [1] 4184 797

Todo el análisis previo se realizó partiendo de un determinado orden para el marco


muestral. Si este orden cambia, las estimaciones ciertamente también lo harán, por lo cual es
importante conocer algo de la estructura de la población. En tales circunstancias, y dada la
falta de información sobre esta, se recomienda que el diseño sea asistido bajo un modelo. En
efecto, nosotros podrı́amos modelar el orden de la generación de datos en el marco muestral
bajo principalmente tres asunciones:

El marco muestral está en un orden aleatorio y no tiene relación con la variable de


interés. Esto es lo que asumimos en el ejemplo. En tal caso, la correlación intraclase
resultará ser cercana a 0 y el diseño será muy similar a un MASs.

El marco muestral podrı́a estar ordenado en orden creciente o decreciente según la


variable de interés o alguna variable relacionada. En tales casos de autocorrelación
positiva, el muestreo sistemático resultará ser por lo general más preciso que un MASs
al producir correlaciones intraclase negativas. Ası́, si usaramos un MASs para estimar
el error estándar de estimación, estaremos usualmente sobreestimando esta cantidad.
Como lo señalan Lehtonen y Pahkinen (2004), si ρq > 0 es el coeficiente de autocorre-
lación entre un par de unidades que están q unidades aparte, una mejor formulación
4.7. MUESTREO SISTEMÁTICO 109

para el error estándar se obtendrı́a con la formulación



ˆ n S2 2 2ρ̂q
SE q = (1 − ) (1 + + ),
N n log(ρ̂q ) 1 + ρ̂q

siendo 0 < ρ̂q < 1 el valor estimado de la autocorrelación.

El marco muestral presenta un patrón periódico. En tal caso, si seleccionamos las


unidades coincidentemente con el mismo perı́odo, el muestreo sistemático será mucho
menos preciso que el MASs.
Otras maneras de solucionar el problema anterior, es aplicando una estratificación implı́cita
o realizando un muestreo sistemático replicado. El primero consiste en ordenar, en primer
lugar, el marco muestral según la variable de interés o alguna relacionada (pues, la de interés
se desconoce en la población). Esto determinará secuencialmente de manera implı́cita dos
o más estratos, por lo cual la estimación del error estándar de estimación podrá obtenerse
como si este fuera un MAE con asignación proporcional.
En el muestreo replicado, por otro lado, uno selecciona más de una muestra sistemática.
Por ejemplo, 10 muestras sistemáticas con k = 50, conteniendo cada una 6 mediciones,
podrı́an obtenerse en aproximadamente el mismo tiempo que una muestra sistemática con
k = 5, conteniendo 60 mediciones. Ambos procedimientos generan 60 mediciones, pero solo
el muestreo replicado permite estimar la varianza (4.5) utilizándose para ello la varianza de
las 10 medias muestrales obtenidas. El promedio de las 10 medias muestrales estimarı́a la
media poblacional µ.
Como ilustración de estas técnicas, retomemos nuevamente el ejemplo previo. Para la
estratificación implı́cita utilizaremos la edad, que es una variable relacionada al ingreso (asu-
miendo que conocemos la edad de todos) y conformaremos dos pseudoestratos.

library(sampling)
Popco=Popc[order(Popc$Edad),]
Popco = cbind(Popco,Estimp=c(rep(1,6),rep(2,6)),fpc=rep(6,12))
m=strata(Popco,c("Estimp"),size=rep(2,2),method="srswor")
Popcosample=getdata(Popco,m)
DisEI = svydesign(ids=~1,stratum=~Estimp,fpc=~fpc,data=Popcosample)
svymean(~Ingreso,DisEI)

## mean SE
## Ingreso 4604 606

Por otro lado, para el muestreo replicado podrı́amos considerar 6 conglomerados de 2


observaciones cada uno y seleccionar al azar y sin reeemplazamiento a 2 de ellos, de tal
manera que con las medias de estos podamos estimar el error estándar de estimación.
110 CAPÍTULO 4. MUESTREO POR CONGLOMERADOS

Popc = cbind(Popc,cluster1 = rep(1:6,2))


[Link](12345)
s = sample(6,2)
MuestraR = Popc[Popc$cluster1 %in% s,]
(mR = mean(MuestraR$Ingreso))

## [1] 4061

mRc = [Link](by(MuestraR$Ingreso,MuestraR$cluster1,mean))
(SER = sqrt(var(mRc)))

## [1] 187

4.8. Tamaños de muestra para diseños multietápicos


La elección de tamaños de muestra para un muestreo multietápico reviste gran comple-
jidad, pues no solo es necesario determinar cuántas UPM seleccionar, sino también cuántas
USM u otras unidades tomar si hay más etapas. Veamos el caso de la estimación de una
media poblacional bajo un muestreo bietápico, y para simplificar asumamos que las UPM
son todas de igual tamaño M y que se tomará una misma cantidad m de USM por cada
UPM. Aparte de tomar en cuenta la precisión, será conveniente también incluir los costos de
muestreo, los cuales se buscarán minimizar o prefijar. El costo total de muestreo lo asumire-
mos lineal y vendrá dado por C = c0 + c1 n + c2 nm, donde c0 es un costo fijo; c1 es el costo
unitario por cada UPM seleccionada, y c2 es el costo unitario por cada USM seleccionada.
En cuanto a la precisión, recordemos que esta se mide según (4.2) por
N
n σc2 1 m  2
V (Ȳ ) = (1 − ) + (1 − ) σ ,
N nM 2 nmN M i=1 i

donde cabe notar que la varianza entre UPM se relaciona con la suma de cuadrados entre
conglomerados, definida en la sección 4.6, mediante σc2 = NM−1 SCC, y la suma de las varianzas
N 2 SCE
al interior de las UPM satisface i=1 σi = M −1 . Para simplificar podrı́amos introducir,
como se hace usualmente en el análisis de varianza, la media cuadrática entre conglomerados
M CC = SCC N −1
y la media cuadrática del error M CE = K−N SCE
= N SCE
(M −1)
. Ası́, las relaciones
2
 N 2
anteriores nos dicen que σc = M × M CC y i=1 σi = N × M CE y, en consecuencia,
n M CC 1 m
V (Ȳ ) = (1 − ) + (1 − )M CE
N nM nm M
M CC − M CE M CE M CC
= + − .
nM nm NM
4.8. TAMAÑOS DE MUESTRA PARA DISEÑOS MULTIETÁPICOS 111

Con el fin de determinar los tamaños de muestra n y m óptimos, usaremos como criterio
minimizar la varianza anterior para un costo fijo total C o minimizar el costo total de
muestreo para un valor fijo de la varianza anterior. Esto, como recordamos, puede resolverse
de manera similar a lo visto en la demostración de la proposición 3.1; es decir, usándose la
desigualdad de Cauchy-Schwartz que busca minimizar

M CC − M CE M CE M CC − M CE M CE
( + )(c1 n + c2 nm) = ( + )(c1 + c2 m).
nM nm M m
Ello nos conduce a las siguientes formulaciones de tamaños de muestra óptimos:

M c1 M CE
m=
c2 (M CC − M CE)

y
C − c0
n= .
c 1 + c2 m
Expresando las medias cuadráticas en términos del coeficiente de correlación intraclase por
−1)ρ
M CE = (1 − ρ) SCT
NM
y M CC = ( 1+(M M (N −1)
)SCT , estas formulaciones podrı́an escribirse
también como 
M (N − 1)(1 − ρ)c1
m=
(1 + (N M − 1)ρ)c2
y
C − c0
n= .
c 1 + c2 m
Note que si el número de conglomerados es suficientemente grande, se tendrá la aproximación

(1 − ρ)c1
m= ,
ρc2

y ası́ la elección dependerá tan solo del costo relativo unitario y del coeficiente de correlación
intraclase.
Un desarrollo similar se da, por ejemplo, para un muestreo trietápico. Véase el ejercicio
9 de este capı́tulo.
Cabe precisar que el tratamiento anterior es en parte elegante por el hecho de que se ha
asumido que los conglomerados son de igual tamaño. Si ello no es ası́, uno tendrá en general
que resolver numéricamente un problema de optimización. Sin embargo, como lo demuestran
varios autores entre los que destacan Khan y Ahmad (2006), es posible flexibilizar algunas
restricciones a fin de derivar una fórmula cerrada para los tamaños de muestra buscados.
Detalles sobre cómo hacer esto se tienen en el artı́culo citado. Aquı́ mencionaremos solo los
tamaños de muestra n y mi para la UPM y las USM dentro de cada UPM i óptimos que
112 CAPÍTULO 4. MUESTREO POR CONGLOMERADOS

minimizan la varianza de Ȳ bajo una restricción presupuestal de C0 unidades monetarias en


los costos de muestreo variables. Estos valores vienen dados por

C0 A
n= √ √  Mi
c1 A + c1 c2 N i=1 N σi

y 
c1
m i = Mi σi ,
Ac2
1
N
donde A = σc2 − N i=1 Mi σi2 .

4.9. El estimador de Horvitz-Thompson


Hasta el momento hemos asumido que las probabilidades de selección de primera etapa
para un muestreo sin reemplazamiento

πi = P (δi = 1)

son todas iguales e independientes de la unidad primaria considerada. Para ser más explı́citos,
en un muestreo por conglomerados bietápico estas estaban dadas por πi = Nn , siendo N
el número de UPM en la población y n el tamaño de muestra de UPM. La asunción de
probabilidades iguales no siempre es la adecuada para algunos requerimientos. Un tı́pico
ejemplo es el de un muestreo por conglomerados con probabilidades proporcionales al tamaño
(ppt). En este se exige que los conglomerados más grandes tengan mayores probabilidades
de selección. Asumiendo, como lo hemos venido haciendo, un muestreo sin reemplazamiento,
la selección de las unidades de la segunda etapa o posteriores se complica bajo este esquema,
dado que ellas dependen de las unidades particulares seleccionadas en la primera etapa.
Horvitz y Thompson (1952) propusieron que de obtenerse estimaciones insesgadas de los
totales en cada unidad primaria, uno podrı́a estimar el total de la población mediante
N
τ̂i
τ̂HT = δi ,
π
i=1 i

siendo τ̂i un estimador insesgado del total poblacional τi para la i-ésima UPM, el cual se
asume que es independiente de δi . Como seguidamente se aprecia, este es un estimador
insesgado del total poblacional τ ,
N
  τi N  N
τ̂i
E(τ̂HT ) = E( )E(δi ) = πi = τi = τ.
i=1
πi π
i=1 i i=1

Note que el estimador de Horvitz-Thompson no se restringe necesariamente a un muestreo


bietápico; el diseño podrı́a ser sin problemas multietápico bajo la condición de que el total
de la i-ésima UPM pueda ser insesgadamente estimado.
4.9. EL ESTIMADOR DE HORVITZ-THOMPSON 113

El siguiente teorema ilustra algunas propiedades adicionales de este estimador. Antes


será necesario introducir las probabilidades conjuntas de selección de dos unidades primarias,
llamadas también probabilidades de inclusión de segundo orden. Estas vienen dadas por

πij = P (δi = 1, δj = 1).

En un MASs, por ejemplo, estas probabilidades no dependen de las unidades seleccionadas


(n−1) n
y vienen dadas por πij = (N −1) N
.

Proposición 4.2. Independientemente de cómo se definan las probabilidades de inclusión


de primer y segundo orden, estas deben satisfacer las siguientes propiedades:

a)
N

πi = n
i=1

b)
N

πij = (n − 1)πi , ∀i = 1, 2, . . . , N.
j=1
j=i

Demostración: a) Las variables aleatorias indicadoras δi satisfacen por definición


N

δi = n.
i=1

Luego, tomando esperanzas


N
 N

n= E(δi ) = πi .
i=1 i=1

b) Por otro lado,


N
 N
 N

πij = E(δi δj ) = E(δi ( δj )) = E(δi (n − δi )) = (n − 1)πi . 
j=1 j=1 j=1
j=i j=i j=i

Teorema 4.1. Considere un muestreo bietápico que se realiza de modo que el muestreo en
cualquier unidad primaria es independiente del muestreo en cualquier otra unidad prima-
ria. Sea τ̂i un estimador insesgado del total τi de la i-ésima unidad primaria, el cual es
independiente de δ1 , δ2 , . . . , δN . Entonces, el estimador de Horvitz-Thompson del total de la
población,
 N
τ̂i
τ̂HT = δi ,
π
i=1 i
114 CAPÍTULO 4. MUESTREO POR CONGLOMERADOS

es insesgado, y su varianza viene dada por


N
 N N N
τi2   τi τj  V (τ̂i )
V (τ̂HT ) = (1 − πi ) + (πij − πi πj ) +
i=1
πi i=1 j=1
πi πj i=1
πi
i=j

N 
 N N
 V (τ̂i )
τi τj
= (πi πj − πij )( − )2 + . (4.6)
i=1 j>i
πi πj i=1
πi
Mas aún, dos estimadores insesgados de esta varianza viene dados por
N
 N  N N
(1 − πi ) πij − πi πj τ̂i τ̂j V̂ (τ̂i )
V̂HT (τ̂HT ) = τˆi 2 δi + ( ) δi δj + δi
i=1
πi2 i=1 j=1
π ij π i π j i=1
πi
i=j
y
N  N N
πi πj − πij τ̂i τ̂j V̂ (τ̂i )
V̂SY G (τ̂HT ) = ( )( − )2 δi δj + δi ,
i=1 j>i
π ij π i π j i=1
πi

donde V̂ (τ̂i ) es un estimador insesgado de V (τ̂i ).


Demostración: Puesto que estamos asumiendo esquemas sin reemplazamiento para las dis-
tintas etapas de selección, los δi son marginalmente variables aleatorias de Bernoulli con
media πi y varianza πi (1 − πi ). Estas tienen para i = j una covarianza igual a Cov(δi , δj ) =
πij − πi πj . Para encontrar la varianza del estimador de Horvitz-Thompson utilizaremos la
proposición 1.4, condicionando esta a la selección de las unidades primarias. Más precisa-
mente:
V (τ̂HT ) = V (E(τ̂HT | δ1 , δ2 , . . . , δN )) + E(V (τ̂HT | δ1 , δ2 , . . . , δN ))
N
 N

E(τ̂i ) V (τ̂i )
=V( δi ) + E( δi2 )
i=1
πi i=1
πi2
N N
τi V (τ̂i )
=V( δi ) + 2
E(δi2 )
π
i=1 i i=1
π i

N N  N N
τi τ i τj V (τ̂i )
= ( )2 V (δi ) + Cov(δi , δj ) + πi
i=1
πi π π
i=1 j=1 i j i=1
πi2
j=i
N
 N 
 N 
N N
τi2 τi τj  V (τ̂i )
= (1 − πi ) + (πij − πi πj ) + .
i=1
πi i=1 i=1 j=1
πi πj i=1
πi
j=i

Veamos ahora la equivalencia en (4.6) partiendo del segundo término sin el último factor
N V (τ̂i )
i=1 πi que se mantiene constante en ambas formulaciones. Este término es igual a
N N
1  τ2 τj2 τi τj
(πi πj − πij )( i2 + 2 − 2 )=
2 i=1 j=1 πi πj πi πj
j=i
4.9. EL ESTIMADOR DE HORVITZ-THOMPSON 115

N N N N N  N
1  τ2 τj2 1  τ2 τj2  τi τ j
πi πj ( i2 + 2 ) − πij ( i2 + 2 ) − (πi πj − πij )
2 i=1 j=1 πi πj 2 i=1 j=1 πi πj i=1 j=1
πi πj
j=i j=i j=i

N N N N N N  N
1  τ2 τj2   τi2   τi τ j
= πi πj ( i2 + 2 ) − τi2 − 2
( π ij ) − (πi πj − πij )
2 i=1 j=1 πi πj i=1
π
i=1 i j=1 i=1 j=1
πi πj
j=i j=i

N
  τ2   N N N
τi2 i τi τ j
= (n − πi ) − (n − 1) − (πi πj − πij )
i=1
πi i=1
πi i=1 j=1
πi πj
j=i

N
 N N
τi2   τi τ j
= (1 − πi ) + (πij − πi πj ) .
i=1
πi i=1 j=1
πi πj
j=i

Mostremos, finalmente, el insesgamiento de V̂HT (τ̂HT ). El del otro estimador queda como
ejercicio. Utilizando nuevamente la proposición 1.4, se tiene que

E(V̂HT (τ̂HT )) = E(E(V̂HT (τ̂HT ) | δ1 , δ2 , . . . , δN ))


 
N N  N N
 (1 − πi )  πij − πi πj τ̂i τ̂j  E(V̂ (τ̂i )) 
=E
 2
E( τ
ˆi ) 2
δ i + ( )E( )δ i δ j + δi 

i=1
π i i=1 j=1
π ij π i π j i=1
π i
i=j
 
N N  N N
 (1 − πi )  πij − πi πj τi τj  V (τ̂i ) 
=E
 2
(V (τ̂ i ) + τi
2
)δ i + ( ) δ i δ j + δi 

i=1
π i i=1 j=1
π ij π i π j i=1
π i
i=j

N
 N  N N
(1 − πi ) πij − πi πj τi τj (1 − πi ) 1
= τi2 E(δi ) + ( ) E(δi δj ) + ( + )V (τ̂i )E(δi )
i=1
πi2 i=1 j=1
πij πi πj i=1
2
πi πi
i=j

N
 N N N
τi2   τi τj  V (τ̂i )
= (1 − πi ) + (πij − πi πj ) + = V (τ̂HT ). 
i=1
πi i=1 j=1
πi πj i=1
πi
i=j

Note que aun cuando las dos formas dadas para la varianza del estimador de Horvitz-
Thompson son algebraicamente las mismas y sus estimadores se basan en estas, la sustitución
de las cantidades muestrales en estas expresiones sobre diseños con probabilidades no iguales
proporcionan en general diferentes estimadores de esta varianza. A la segunda de estas formas
se le conoce como el estimador de Sen-Yates-Grundy (SYG) y, en general, esta suele mostrar
116 CAPÍTULO 4. MUESTREO POR CONGLOMERADOS

mayor estabilidad que la primera, la cual se llama también el estimador de Horvitz-Thompson


de la varianza del estimador del mismo nombre.
El estimador de Horvitz-Thompson resume prácticamente todos los estimadores de totales
en esquemas sin reemplazamiento anteriormente vistos (y los de medias, al dividirlos entre
la cantidad total de unidades últimas de muestreo). Un ejemplo que desarrollaremos aquı́ es
el de un MASs. En este caso,

N N
τ̂i yi
τ̂HT = δi = n δi = N Ȳ
π
i=1 i i=1 N

es el clásico estimador del total, cuya varianza viene dada por


N
 n N 
 N n−1 n
(1 − ) 2 − n σ2
V (τ̂ ) = n
N
yi + ( N −1 n N
)yi yj = N 2 (1 − ) ,
i=1 N i=1 j=1 N
N n
j=i

donde:
N N
1  1 
σ2 = (yi − µ)2 y µ= yi .
N − 1 i=1 N i=1

Otro caso particular, como se pide mostrar en el ejercicio 4.11 y que justifica (4.2), es el
estimador para la media en un muestreo por conglomerados bietápico. En caso de estimarse
el total, esta varianza viene dada por
N
n N2 2 N  mi σ2
V (τ̂HT ) = (1 − ) σc + (1 − )Mi2 i ,
N n n i=1 Mi mi

donde σc2 = N 1−1 N K 2
i=1 (τi − N µ) .
Un problema, particular que se presenta con los estimadores de la varianza del estima-
dor de Horvitz-Thompson es que, para algunos diseños con probabilidades distintas, estas
pueden resultar negativas. A veces, la estabilidad se puede mejorar mediante una elección
cuidadosa del diseño; pero en general los cálculos son complicados. Una alternativa, que evita
algo de la inestabilidad potencial y la complejidad de los cálculos para la obtención de las
probabilidades de inclusión, es emplear el estimador de la varianza del estimador del total
considerando reemplazamiento. Esto fue lo que exactamente propusieron Hansen y Hurwitz
(1943) dando pie al siguiente estimador del total que lleva sus nombres:
N δ
1  i
τ̂ij
τ̂ψ = ,
n i=1 j=1 ψi

donde ψi es la probabilidad de tomar la unidad primaria i en una selección (no interesa


cuál); δi es el número de veces que la unidad i es seleccionada en la muestra, y los τ̂ij son
4.10. MUESTREO PPT 117

estimadores insesgados del total de la unidad primaria i, para la j-ésima selección de dicha
unidad. Note que el estimador de Horvitz-Thompson resulta de esta expresión si sustituimos
arriba a ψi por un promedio de elegir la unidad i en una extracción; vale decir, por πni . Se
puede probar (véase el ejercicio 4.12) que un estimador insesgado de la varianza de τ̂ψ viene
dado por
N  δi
1 τ̂ij
V̂ (τ̂ψ ) = ( − τ̂ψ )2 . (4.7)
n(n − 1) i=1 j=1 ψi

4.10. Muestreo ppt


Un caso particular de muestreo con probabilidades desiguales es el del muestreo con
probabilidades proporcionales al tamaño (ppt). Si Xi denota el tamaño (valor de alguna
variable cuantitativa) de una unidad i, entonces la probabilidad de que se seleccione esta
unidad en el muestreo ppt será proporcional a Xi , digamos πi0 = CXi , donde C es una

constante de proporcionalidad. Dado que por la proposición 4.2 N 0
i=1 πi = n, resulta que de
reemplazarse las probabilidades anteriores en esta igualdad uno obtiene que C = Nn X y,
i=1 i
por tanto:
Xi
πi0 = N n.
j=1 Xj

Esto, sin embargo, podrı́a generar una cantidad mayor que 1, si la unidad i es relativamente
grande. En tal caso, las probabilidades se fijan en 1 (y, consecuentemente las unidades co-
rrespondientes serán siempre seleccionadas); mientras que las probabilidades de las demás
unidades se deben reescalar para que queden bien definidas; más explı́citamente, si al conjun-
to de K unidades en el subconjunto K de P les corresponde por lo anterior una probabilidad
de 1, entonces cualquier unidad i ∈
/ K tendrá una probabilidad de selección igual a

Xi (n − K)
 .
/ Xj
j ∈K

Ası́, las probabilidades de inclusión de primer orden en un muestreo ppt quedan, finalmente,
definidas por: 
1 si πi0 ≥ 1
πi = X (n−K)
 i
Xj
si πi0 < 1
j ∈K
/

Como se aprecia, las probabilidades de inclusión de primer orden son sencillas de


obtener. En R estas se calculan con el paquete sampling de R bajo el comando
inclusionprobabilities. Para ilustrar el cálculo, adelantémos un poco al ejemplo 4.5,
en el cual se nos pide seleccionar una muestra ppt de tamaño 3 basándonos en el tamaño del
terreno en m2 que ocupan 6 supermercados de un consorcio en una ciudad. El código es
118 CAPÍTULO 4. MUESTREO POR CONGLOMERADOS

X = c(300,200,100,1000,150,500)
pik = inclusionprobabilities(X,3)
pik

## [1] 0.48 0.32 0.16 1.00 0.24 0.80

Note que bajo este esquema el supermercado D resultará ser siempre seleccionado.
A diferencia de las probabilidades de inclusión de primer orden, las de segundo, que son
indispensables por el teorema 4.1 en la obtención de las estimaciones de la varianza del esti-
mador, no solo no son únicas sino difı́ciles de obtener. Estas probabilidades deben satisfacer
la proposición 4.2 b), lo cual nos conduce en general a resolver sistemas de ecuaciones nada
triviales. En la práctica, la obtención de estas probabilidades es todo un desafı́o; por ello
que en lugar de buscar fijarlas y estimar con ellas la varianza del estimador de interés (sin
que esto nos diga cómo obtener la muestra), es mucho más conveniente prescindir de estas,
ya sea tomando un muestreo con reemplazamiento o diseñando esquemas de muestreo sin
reemplazamiento que respeten las probabilidades de inclusión de primer orden y satisfagan
4.2 b). Algunos de estos esquemas se tratarán en la sección 4.12.

4.11. Muestreo secuencial ppt


Otra alternativa cercana al muestreo ppt es el muestreo secuencial ppt. Si las probabi-
lidades de selección fuesen iguales, sabemos que seleccionar simultáneamente al azar y sin
reemplazamiento n unidades de una población equivale a seleccionar secuencialmente una
por una y sin reemplazamiento cada una de las n unidades. Esto es falso en un muestreo
con probabilidades desiguales. El muestreo secuencial ppt puede verse como el esquema se-
cuencial último, donde la probabilidad de que se seleccione la unidad i en la primera ocasión
es NXi X . Sin embargo, como el muestreo es sin reemplazamiento, la probabilidad de que
j=1 j
se seleccione la unidad j para la segunda ocasión dependerá de la unidad i seleccionada en
la primera. Formalmente, si denotamos por πi (n) a la probabilidad de que la unidad i sea

seleccionada en una muestra secuencial ppt de tamaño n y X = N j=1 Xj , entonces

Xi
πi (1) =
X
y

πi (n) = πi (n − 1) + P (∩n−1 c n−1 c n−1 c


=1 E,i ∩ En,i ) = πi (n − 1) + P (En,i | ∩=1 E,i )P (∩=1 E,i )

n−1 
  Xi Xi
= πi (n − 1) + −1 n−1 , (4.8)
i1 ,i2 ,...,in−1 =1
X− h=1 X ih X− h=1 Xih
4.11. MUESTREO SECUENCIAL PPT 119

donde En,i denota el evento en que la unidad i es seleccionada en la n-ésima selección; la


sumatoria de orden n − 1 recorre todos los ı́ndices de 1 hasta N , sin incluir al término i y
sin repeticiones, y la sumatoria desde 1 hasta 0 se conviene que es 0.
En los casos particulares de n = 1, n = 2 y n = 3, estos desarrollos vienen dados por

Xi
πi (1) =
X
N
 Xi Xi
πi (2) = πi (1) + ( )( 1 )
i1 =1
X − X i1 X
i1 =i

N 
 N
Xi X i2 Xi
πi (3) = πi (2) + ( )( )( 1 ).
i1 =1 i2 =1
X − X i1 − X i2 X − X i1 X
i1 =i2 =i

Note que en el caso especial en que las Xi sean todas iguales, uno obtiene un MASs. Aquı́ la
fórmula (4.8) se reduce a πi (n) = Nn , cualquiera sea el valor de i = 1, 2, . . . , N y del tamaño
de muestra n.

Ejemplo 4.5. Un grupo comercial posee 6 supermercados en una ciudad, los cuales ocupan
terrenos con tamaños de entre 100 y 1000 metros cuadrados. Se desea estimar la cantidad
total de ventas mensual para el grupo en la ciudad, para lo cual se seleccionarán al azar y
sin reemplazamiento tres de estos supermercados. Si, para fines didácticos, dispusiéramos de
la siguiente información:

Supermercado Tamaño (m2 ) Ventas totales en miles de dólares


A 300 24
B 200 20
C 100 11
D 1000 245
E 150 18
F 500 90

Obtenga para un muestreo secuencial ppt una estimación del total buscado y de su error
estándar de estimación. ¿Qué pasarı́a si se aplica un muestreo ppt? Replique estos resultados
para un muestreo ppt con reemplazamiento.
Solución: Notemos que el verdadero total de ventas a estimar para la cadena es de 408 000
dólares. Consideremos primero el muestreo secuencial ppt, para el cual hemos desarrollado
la siguiente función en R que calcula sus probabilidades de inclusión de primer y segundo
orden.
120 CAPÍTULO 4. MUESTREO POR CONGLOMERADOS

library(combinat) # Requiere del paquete combinat


pisppt <-function(X,n){
N = length(X)
XT = sum(X)
m = apply(combn(X,n),2,permn)
m = matrix(unlist(m),ncol=n,byrow=TRUE)
nm = dim(m)[1] # Numero de permutaciones de N en n
p<-pi1<-0
for (j in 1:nm){
p[j] = prod(m[j,])/(XT*prod(XT-cumsum(m[j,1:n-1])))}
pi2=matrix(0,N,N)
for (i in 1:(N-1)){
aux1 = (m==X[i])
index = which(apply(1*aux1,1,sum)==1)
pi1[i] = sum(p[index])
for (j in (i+1):N){
aux2 = (m==X[j])
aux2 = 1*aux2[index,]
pi2[i,j] = sum(p[index[which(apply(aux2,1,sum)==1)]])}}
pi1[N] = n-sum(pi1)
pi2 = pi2+t(pi2)
diag(pi2) = pi1
pi2}

Una aplicación de esta función nos brinda las siguientes probabilidades de inclusión de
primer y segundo orden, donde las primeras se encuentran en la diagonal de la matriz.

(p = pisppt(X,3))

## [,1] [,2] [,3] [,4] [,5] [,6]


## [1,] 0.5234 0.1223 0.0602 0.451 0.0910 0.323
## [2,] 0.1223 0.3743 0.0392 0.315 0.0594 0.213
## [3,] 0.0602 0.0392 0.1982 0.162 0.0291 0.106
## [4,] 0.4507 0.3146 0.1624 0.899 0.2401 0.631
## [5,] 0.0910 0.0594 0.0291 0.240 0.2893 0.159
## [6,] 0.3228 0.2132 0.1056 0.631 0.1591 0.716

Note, por ejemplo, que la probabilidad de que se seleccione al supermercado D es bastante


alta e igual a 0.899; mientras que la probabilidad de que este supermercado sea seleccionado
junto con, digamos el supermercado A, es de 0.4507.
4.11. MUESTREO SECUENCIAL PPT 121

Para la selección de la muestra debemos proceder secuencialmente y tomar tres números


aleatorios. Supongamos que obtuvimos 0.8869, 0.9493 y 0.4259. El primer supermercado
seleccionado será

Supermercado Tamaño πi (1) Πi (1)


A 300 0.133333333 0.133333333
B 200 0,088888889 0.222222222
C 100 0.044444444 0.266666667
D 1000 0.444444444 0.711111111
E 150 0.066666667 0.777777778
F 500 0.222222222 1
Total 2250

el supermercado F. Cabe aclarar que Πi (1) denota aquı́ la probabilidad acumulada para la
primera de selección. Eliminado el supermercado F del proceso, el segundo supermercado
seleccionado será

Supermercado Tamaño πi|6 (2) Πi|6 (2)


A 300 0.171428571 0.171428571
B 200 0.114285714 0.285714286
C 100 0.057142857 0.342857143
D 1000 0.571428571 0.914285714
E 150 0.085714286 1
Total 1750

el supermercado E. Finalmente, eliminados los dos supermercados ya seleccionados, el último


supermercado seleccionado será por la tabla

Supermercado Tamaño πi|5,6 (3) Πi|5,6 (3)


A 300 0.1875 0.1875
B 200 0.125 0.3125
C 100 0.0625 0.375
D 1000 0.625 1
Total 1600

el supermercado D. Con ellos, la estimación pedida será de


90 18 245
τ̂ = + + = 460.47345
0.7155999 0.2893101 0.8991226
miles de dólares. Este mismo resultado puede obtenerse de manera más directa con R y el
paquete sampling a través de los códigos
122 CAPÍTULO 4. MUESTREO POR CONGLOMERADOS

y = c(24,20,11,245,18,90)
HTestimator(y[4:6],diag(p)[4:6])

## [,1]
## [1,] 460

Más aún, el error estándar de estimación estimado de esta estimación puede obtenerse
del teorema 4.1 con la función varHT mediante

pik2 = p[4:6,4:6]
sqrt(varHT(y[4:6],pik2,1))

## [1] 76.1

sqrt(varHT(y[4:6],pik2,2))

## [1] 73.1

donde el primer término corresponde a la estimación con el estimador de Horvitz-Thompson;


mientras que el segundo está asociado al método SGY.
Enfoquémonos ahora en el muestreo ppt, para el que ya obtuvimos las probabilidades de
inclusión de primer orden y en el que el supermercado D serı́a de todas maneras seleccionado.
La dificultad consiste en hallar las probabilidades de inclusión de segundo orden. Según la
proposición 4.2 b), ellas deben satisfacer las siguientes ecuaciones:

π12 + π13 + π14 + π15 + π16 = 0.96


π21 + π23 + π24 + π25 + π26 = 0.64
π31 + π32 + π34 + π35 + π36 = 0.32
π41 + π42 + π43 + π45 + π46 = 2
π51 + π52 + π53 + π54 + π56 = 0.48
π61 + π62 + π63 + π64 + π65 = 1.6

Este sistema posee, sin embargo, infinitas soluciones, una de las cuales se resume en la
siguiente matriz π = [πij ] de probabilidades de inclusión de segundo orden:
 
0 0.05 0.04 0.48 0.04 0.35
 
 0.05 0 0.02 0.32 0.03 0.22 
 
 0.04 0.02 0 0.16 0.02 0.08 
π=  

 0.48 0.32 0.16 0 0.24 0.8 
 
 0.04 0.03 0.02 0.24 0 0.15 
0.35 0.22 0.08 0.8 0.15 0
4.12. MUESTREO CON PROBABILIDADES DESIGUALES 123

Esta elección arbitraria deberı́a de corresponder al mecanismo de selección de las tres unida-
des pedidas (en la que el supermercado D estará de todos modos). Tal mecanismo es difı́cil de
deducir, por lo que una mejor estrategia serı́a primero fijar el mecanismo de selección para
luego encontrar la matriz particular π asociada. Ello es lo que precisamente haremos en la
siguiente sección.
Analicemos, finalmente, la posibilidad de tomar un muestreo con reemplazamiento, el
cual simplifica muchı́simo el proceso de selección. Supongamos para ello que obtuvimos los
números aleatorios 0.09245, 0.7779 y 0.5865. Entonces, de la primera tabla obtenida en el
muestreo secuencial ppt (con ψi = πi (1)), los supermercados seleccionados serán A, D y F.
Ello nos da una estimación para el total de ventas de
24 245 90
τ̂ψ = ( + + )/3 = 378.75
0.133 0.444 0.222
miles de dólares. El error estándar de estimación estimado de τ̂ψ es, por la fórmula (4.7),
de 194.556 mil dólares. 

4.12. Muestreo sin reemplazamiento con probabilida-


des desiguales
El ejemplo anterior ilustra la complejidad del cálculo de las probabilidades de selección
y la falta de claridad sobre como obtener la muestra. Como adelantamos, veremos en esta
sección esquemas de muestreo alternativos, los cuales podrı́an suplir la metodologı́a anterior-
mente descrita. Estos esquemas buscan respetar las probabilidades de inclusión pre-definidas
πi , sobre una muestra de tamaño n, y en algunos casos nos brindan probabilidades de in-
clusión de segundo orden. Para formalizarlas, definamos un diseño de muestreo como el
par (Q, p), donde Q denota el conjunto de todas las muestras posibles de tamaño n que
se pudieran extraer de una población P = {1, 2, . . . , N } y p denota a una distribución de
probabilidades (conjunta) sobre las muestras en Q; esto es,

0 < p(δ) ≤ 1, ∀δ ∈ Q y p(δ) = 1.
δ ∈Q
En el muestreo con probabilidades iguales, por ejemplo, los diseños de muestreo más emplea-
dos son los correspondientes al MASc, caracterizado por Q = R = {δ = (δ1 , δ2 , . . . , δN ) ∈

PN / N i=1 δi = n}, y al MASs, caracterizado por Q = S = {δ = (δ1 , δ2 , . . . , δN ) ∈

{0, 1} / N
N
i=1 δi = n}. La cardinalidad de estos conjuntos viene dada, respectivamente,
por #(R) = CnN +n−1 y #(S) = CnN (véase el ejercicio 6 del capı́tulo 2); mientras que sus
1
distribuciones de probabilidade son iguales a p(δ) = C N +n−1 y p(δ) = C1N , respectivamente.
n n
La definición de un diseño de muestreo no nos dice, sin embargo, cómo es que en la práctica
uno podrı́a tomar la muestra. Para ello requeriremos de lo que se conoce como un algoritmo
124 CAPÍTULO 4. MUESTREO POR CONGLOMERADOS

de muestreo (sampling algorithm); esto es, un procedimiento que nos permita seleccionar la
muestra. La manera más directa de definir este algoritmo es la enumerativa. Esta consiste en
listar todos los elementos del diseño (Q, p) junto con sus probabilidades acumuladas y luego
seleccionar aquel elemento en Q cuya probabilidad acumulada sea la primera en superar
a cierto número aleatorio. Tal algoritmo resulta, sin embargo, prohibitivo si n y N son
relativamente grandes o si p no está completamente especificada. El texto de Tillé (2006) se
enfoca precisamente en el desarrollo de algoritmos de muestreo que sean más eficientes que
el enumerativo planteado. Algunos de estos esquemas se introducen seguidamente.

4.12.1. El esquema de Poisson


Este es uno de los esquemas más simples, pero tiene la desventaja de proveer un ta-
maño de muestra aleatorio y no fijo. El algoritmo consiste en generar N números aleatorios
u1 , u2 , . . . , uN uniformes en el intervalo unitario y seleccionar en la muestra a la unidad i
si ui < πi . Ası́, si δi denota la variable binaria que indica si la unidad i es seleccionada
N
o no, el tamaño de muestra bajo este esquema será ns = i=1 δi y su número esperado
N Xi n
E(ns ) = i=1 πi . En el caso particular de un muestreo ppt con πi = X , el tamaño de
muestra esperado será precisamente el planificado n. Este esquema se encuentra implemen-
tado en el paquete sampling de R bajo el comando UPpoisson, donde el prefijo UP significa
“unequal probabilities”.

4.12.2. El esquema sistemático ordenado


Este es uno de los esquemas de muestreo para probabilidades desiguales más simples y
populares sobre un tamaño de muestra fijo n. Su lógica es la misma que la del muestreo
sistemático; esto es, en él se selecciona al azar un único número aleatorio u en el intervalo
unitario y a partir de este se hacen sistemáticamente las siguientes selecciones. Si definimos
i
por Πi = k=1 πk a la suma acumulada de las probabilidades de selección, la primera
unidad j1 que se seleccionará será la primera en la población P para la cual se cumpla
que 0 ≤ u < Πj1 . De manera similar la k-ésima unidad a seleccionarse, jk , será aquella
que satisfaga Πjk −1 ≤ u + k − 1 < Πjk , donde k = 2, . . . , n. Se puede demostrar que las
probabilidades de inclusión de segundo orden en este esquema vienen para i < j dadas por

πij = mı́n{máx{0, πi − Dij }, πj } + mı́n{πi , máx{0, Dij + πj − 1}},



donde Dij = Vij − [Vij ], siendo [.] la notación para el máximo valor entero y Vij = j−1
k=i πk .
Una desventaja de este esquema es que muchas de las probabilidades anteriores son
nulas. Para atenuar ello y hacer que el esquema no sea dependiente del orden dado en el
marco muestral, uno podrı́a aplicarlo luego de ordenar aleatoriamente el marco muestral,
de tal manera que las probabilidades de inclusión de segundo orden sean las medias de las
4.12. MUESTREO CON PROBABILIDADES DESIGUALES 125

probabilidades de inclusión del esquema sistemático anterior para todas las permutaciones
posibles en el marco muestral. Claramente, esto será posible si el aspecto computacional
lo permite; es decir, si el tamaño de la población no es muy grande. El esquema anterior
ası́ como este último, se encuentran implementados en el paquete sampling de R a través de
los comandos UPsystematic y UPrandomsystematic, respectivamente. Se dispone también
del comando UPsystematicpi2 que calcula, para el primero, las probabilidades de inclusión
de segundo orden.

4.12.3. El esquema de Sampford


Este es un diseño sin reemplazamiento que destaca por su simplicidad y, como Sampford
(1967) lo deriva, nos provee de probabilidades de inclusión de segundo orden explı́citas. Este
es un esquema de rechazo que consiste en seleccionar la primera unidad con probabilidades
πi πi
n
y las demás n − 1 unidades con reemplazamiento y probabilidades proporcionales a 1−π i
.
Esta muestra se acepta luego si las n unidades son todas distintas, y se rechaza en caso
contrario; el proceso se repite hasta alcanzar las n muestras requeridas. Con este esquema se
presenta un problema cuando las probabilidades de inclusión son grandes, pues de elegirse
inicialmente las unidades con estas probabilidades, las demás n − 1 difı́cilmente podrán ser
distintas. El método se encuentra implementado en el paquete sampling de R a través de los
comandos UPsampford y UPsampfordpi2 ; este último nos provee de las probabilidades de
inclusión de segundo orden.

4.12.4. Esquemas de división


Deville y Tillé (1998) propusieron un esquema general sin reemplazamiento para un
tamaño de muestra fijo n que se basa en la idea de expresar el vector de probabilidades de
inclusión de primer orden π como una combinación lineal convexa de M vectores similares
π (1) (0), π (2) (0), . . . , π (M ) (0) bajo escalares λ1 (0), λ2 (0), . . . , λM (0) ∈ [0, 1]:
M

π= λj (0)π (j) (0),
j=1

de tal manera que este vector se actualize para el paso 1 como uno de los M vectores
anteriores, digamos π(1) = π (k) (0), el cual será seleccionado con probabilidad λk (0). El
vector resultante tomará ahora el rol del vector de probabilidades de inclusión de primer
orden y el algoritmo se repetirá hasta el paso K en el que π(K) ∈ {0, 1}N , lo cual nos
brindará la muestra buscada. Dependiendo de cómo se especifique la combinación lineal
convexa en cada paso t
M
π(t) = λj (t)π (j) (t), (4.9)
j=1
126 CAPÍTULO 4. MUESTREO POR CONGLOMERADOS

el método generará una gran variedad de esquemas distintos. Aquı́ solo explicitaremos algu-
nos de ellos
El esquema por división hacia un MAS
Este esquema considera M = 2 y fuerza a que uno de los dos vectores de mezcla en (4.9)
corresponda siempre a un MAS. El escalar λ1 (t) se escoge de tal manera que, en la siguiente
iteración, la probabilidad de inclusión de la unidad k con el valor más cercano a 0 o 1 tome
precisamente uno de estos valores. Dado que toda unidad con una probabilidad de inclusión
de 0 o 1 no integrará o integrará con certeza la muestra final, el algoritmo se simplifica para
cada iteración.
El esquema pivotal
Este esquema considera M = 2 y tiene la peculiaridad de que modifica en cada paso
solamente las probabilidades de inclusión de dos de sus unidades. Si en el paso t se eligen
las unidades i y j (de probabilidades no nulas ni 1) y πi (t) + πj (t) > 1, entonces el esquema
se define por
1 − πj (t)
λ(t) = ,
2 − πi (t) − πj (t)


 πk (t) si k ∈ P \ {i, j}
(1)
πk (t) = 1 si k = i

 π (t) + π (t) − 1 si k = j
i j
y 

 πk (t) si k ∈ P \ {i, j}
(2)
πk (t) = πi (t) + πj (t) − 1 si k = i

 1 si k = j
En caso contrario; es decir, si 0 < πi (t) + πj (t) < 1, el esquema se define por
πi (t)
λ(t) = ,
πi (t) + πj (t)


 πk (t) si k ∈ P \ {i, j}
(1)
πk (t) = πi (t) + πj (t) si k = i

 0 si k = j.
y 

 πk (t) si k ∈ P \ {i, j}
(2)
πk (t) = 0 si k = i

 πi (t) + πj (t) si k = j.
En el primer caso se fija una probabilidad de 1 a una sola de las unidades; mientras que
en el segundo se fija una probabilidad de 0 a solo una de las unidades. De esta manera, el
esquema requiere de a lo más N pasos para obtener la muestra.
Tanto el esquema pivotal como otros de división en M clases, como el esquema de elimi-
nación de Tillé o el esquema de Midzuno generalizado, se encuentran implementados
4.13. MUESTREO POR CONGLOMERADOS PARA LA POBLACIÓN API 127

en el paquete sampling de R. Mayores detalles de estos y otros esquemas se pueden encontrar


en el texto de Tillé (2006).

Ejemplo 4.6. Estimemos, bajo los esquemas ppt dados, el total de ventas para los super-
mercados del ejemplo 4.5. La estimación de Horvitz-Thompson se obtiene mediante

y = c(24,20,11,245,18,90)
m = UPpoisson(pik)
HTPoisson = HTestimator(y[m==1],pik[m==1])
m = UPsystematic(pik)
HTsys = HTestimator(y[m==1],pik[m==1])
m = UPrandomsystematic(pik)
HTrsys = HTestimator(y[m==1],pik[m==1])
m = UPsampford(pik)
HTsam = HTestimator(y[m==1],pik[m==1])
c(HTPoisson,HTsys,HTrsys,HTsam)

## [1] 358 420 432 389

4.13. Muestreo por conglomerados para la población


api
Para ilustrar el uso del paquete survey en el muestreo por conglomerados consideremos
nuevamente la base de datos poblacional api y tomaremos como conglomerados a los distritos
escolares (variable dnum).

library(survey)
data(api)
K = dim(apipop)[1]
apipop$dnum[1:100] # mostrando parte de la variable de conglomeración

## [1] 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 7
## [18] 7 7 7 60 60 60 60 60 60 60 60 60 60 60 60 60 60
## [35] 116 116 116 116 116 116 116 116 116 116 116 211 211 211 248 248 248
## [52] 248 248 248 248 248 248 248 248 248 248 248 248 248 248 248 248 248
## [69] 248 248 248 248 248 248 248 248 248 248 248 248 248 248 248 248 248
## [86] 248 294 294 294 294 294 294 294 294 294 294 294 294 294 294
128 CAPÍTULO 4. MUESTREO POR CONGLOMERADOS

(N = length(table(apipop$dnum)))

## [1] 757

Como se ve, existen 757 distritos escolares o conglomerados.


Supongamos ahora que deseamos realizar un muestreo por conglomerados de una etapa
mediante una selección de 15 distritos escolares. La obtención de esta muestra no es tan
directa, pero por fortuna podemos invocar al paquete sampling de R. Este paquete contiene
la rutina cluster , que permite obtener muestras por conglomerados. Los códigos del caso
son

library(sampling)
n = 15
[Link](12345)
aux1=cluster(apipop,clustername=c("dnum"),n, method=c("srswor"),description=T)

## Number of selected clusters: 15


## Number of units in the population and number of selected units: 6194 103

samplec1 = getdata(apipop, aux1)


L = dim(aux1)[1]

El diseño se completará con

(dclus1<-svydesign(ids=~dnum, fpc=rep(N,L), data=samplec1))

## 1 - level Cluster Sampling design


## With (15) clusters.
## svydesign(ids = ~dnum, fpc = rep(N, L), data = samplec1)

Note que este es un diseño sin reemplazamiento, pues se incluye un factor de corrección
para poblaciones finitas. Algo que remarcar aquı́ y que no ocurrı́a en los diseños anteriores
es la presencia de ids=~dnum , que especifica a la variable dnum como variable de conglome-
ración.
Analicemos ahora, como en los diseños previos, cómo estimar el número total de matri-
culados y la media del ı́ndice api para el año 2000:

svytotal(~enroll,dclus1)

## total SE
## enroll 3219521 1211326
4.13. MUESTREO POR CONGLOMERADOS PARA LA POBLACIÓN API 129

svymean(~api00,dclus1)

## mean SE
## api00 724 26.3

Note que este diseño resulta ser menos preciso que los diseños MASs y MAE vistos anterior-
mente.
Consideremos ahora un muestreo aleatorio por conglomerados bietápico con 40 unidades
primarias (distritos escolares) y 5 unidades secundarias (colegios) por distrito. Si bien el
paquete survey contiene una base de datos con estas caracterı́sticas, llamada apiclus2,
nosotros buscaremos tomar una muestra propia. Para esto podrı́amos apelar al comando
mstage del paquete sampling, que en teorı́a permite obtener este tipo de muestras. Tal
estrategia, sin embargo, no será aquı́ conveniente ya que los argumentos de dicho comando
exigen que el número de unidades secundarias a tomar sea a priori conocido. Esto no ocurre
en nuestro ejemplo, pues hay distritos escolares con menos de 5 colegios. Nuestra muestra
bietápica la obtendremos más bien con la siguiente rutina que solo hace uso del comando
cluster:

[Link](12345)
Pop = apipop
aux0 = aggregate(Pop[,6],by=list(Pop$dnum),function(x)x[1])
aux1 = aggregate(Pop[,7],by=list(Pop$dnum),length)
Popd = cbind(aux0,aux1) # Se crea una nueva base de datos de distritos
names(Popd)[c(2,4)]=c("dname","Ncdis")
Pop = merge(Pop,Popd[,c(2,4)],by=c("dname"))
m1<-sampling:::cluster(Pop,clustername=c("dnum"),size =40,method ="srswor")
m1<-getdata(Pop,m1) # Muestra de primera etapa (distritos)
t = [Link](sapply(table(m1$dnum),function(x) min(5,x)))
m2 = NULL
for(i in 1:40){ # Muestra de segunda etapa (colegios)
mx = m1[m1$dnum==unique(m1$dnum)[i],]
mx$Prob1 = mx$Prob
m<-sampling:::cluster(mx,clustername=c("snum"),size=t[i],method ="srswor")
m = getdata(mx,m)
m2 = rbind(m2,m)}
m2$w = 1/(m2$Prob1*m2$Prob) # Pesos de muestreo
m2$fpc1 = fpc=rep(N,dim(m2)[1])

El objeto diseño apropiado con la metadata necesaria para este ejemplo es


130 CAPÍTULO 4. MUESTREO POR CONGLOMERADOS

(dclus2 <- svydesign(ids=~dnum+snum,fpc=~fpc1+Ncdis,data=m2))

## 2 - level Cluster Sampling design


## With (40, 129) clusters.
## svydesign(ids = ~dnum + snum, fpc = ~fpc1 + Ncdis, data = m2)

Como en los diseños previos, la estimación del número total de matriculados y la media
del ı́ndice api para el 2000 se obtendrán mediante

svytotal(~enroll, dclus2, [Link]=TRUE)

## total SE
## enroll 3059677 651303

svymean(~api00, dclus2)

## mean SE
## api00 702 20.1

4.14. Diseño por conglomerados ppt para la población


penal
Nuestro interés en esta sección será planificar una futura encuesta por muestreo para la
población penal del Perú con el fin de estimar, con la mayor precisión posible, la proporción
de internos sentenciados dadas ciertas restricciones de presupuesto. Para ello propondremos
un diseño por conglomerados bietápico en el que seleccionaremos las unidades primarias, que
estarán constituidas por los establecimientos penales (EP), con probabilidades proporcionales
a su número de internos y luego tomaremos internos mediante un MASs. Aquı́ consideraremos
los EP definidos en el capı́tulo 3 y excluiremos a los penales de Barbadillo y la Base Naval
del Callao.
La pregunta central es entonces cuántos EP e internos se deben seleccionar. La respuesta
a ello no es trivial, ya que el muestreo ppt de primera etapa no solo nos inhibe de utilizar los
resultados de la sección 4.8, sino que no nos provee de fórmulas explı́citas para la varianza
de la estimación de nuestra proporción buscada. Requeriremos, asimismo, de estimaciones
de la proporción de sentenciados, las cuales las tomaremos del censo del 2016. Detalles de la
base de datos, costos estimados y cálculo de las proporciones comentadas se muestran en el
siguiente código:
4.14. DISEÑO POR CONGLOMERADOS PPT PARA LA POBLACIÓN PENAL 131

load("[Link]")
cp16x = cp16f[-which(cp16f$EP=="Barbadillo"),]
cp16x = cp16x[-which(cp16x$EP=="Base Naval Callao"),]
pa = by(cp16x$SITUACION_JURIDICA,cp16x$EP,table)
cEP1 = unlist(lapply(pa,"[[",1))
cEP2 = unlist(lapply(pa,"[[",2))
pEPs = [Link](cEP2/(cEP1 + cEP2)) # prop. de sentenciados por EP
M = [Link](unlist(table(droplevels(cp16x$EP)))) # [Link] internos por EP
N = length(M) # numero de EP's
c2 = rep(5,N)
c2[c(8,13:18)]=3
cc = c(750,c2,10000)
library(nloptr)

donde en las últimas filas hemos estimado un costo por EP a seleccionar de 750 soles, un
costo por interno de 5 soles (con excepción de Lima y Callao, en que este se reduce a 3 soles)
y un presupuesto total para el trabajo de campo de máximo 10 000 soles.
Un aspecto clave para sugerir los tamaños de muestra será calcular una estimación de
la varianza de la proporción de sentenciados a estimar. Para ello utilizaremos, por simplici-
dad, un esquema sistemático ordenado, el cual recordemos nos provee de las probabilidades
de inclusión de segundo orden que son esenciales en el cálculo del estimador de Horvitz-
Thompson. Dado entonces el número de EP a seleccionar (n), la cantidad de internos por
EP a tomar (m), la cantidad de internos por EP (M ) y las proporciones de internos senten-
ciados estimadas por EP (pEP s), la función siguiente permite calcular la varianza (4.6) en
discusión

Vem <-function(m,n,M,pEPs,cc){ N = length(M) # número de EP's


pik = inclusionprobabilities(M,n)
pik2 = UPsystematicpi2(pik)
K = sum(M) # número total de internos
v1 = 0;v2 = sum((1-m/M)*(M^3)*pEPs*(1-pEPs)/((M-1)*m*pik))
for(i in 1:(N-1)){
for(j in (i+1):N){
v1=v1+(pik[i]*pik[j]-pik2[i,j])*((M[i]*pEPs[i]/pik[i]-M[j]*pEPs[j]/pik[j])^2)
}}
(v1 + v2)/(K^2)}

Nuestro diseño buscará minimizar la varianza anterior, sujeto a que los costos de muestreo
132 CAPÍTULO 4. MUESTREO POR CONGLOMERADOS

no superen el presupuesto otorgado. Sin embargo, dado que este costo


N
 Mi
N 

c1 δ i + c2i δj|i δi
i=1 i=1 j=1

es aleatorio, consideraremos su costo esperado. Concretamente, nuestro problema se redu-


cirá a resolver, con respecto a n y los mi la minimización de

 N 
N N

1  Mi p̄i Mj p̄j 2  3 mi p̄i (1 − p̄i )
(πi πj − πij )( − ) + Mi (1 − ) , (4.10)
K2 i=1 j>i
πi πj i=1
Mi mi (Mi − 1)πi

sujeto a que c1 n + N i=1 c2i mi πi ≤ C0 , mi ≤ Mi y n ≤ N . Aquı́, c1 denota el costo por
EP seleccionado, c2i el costo unitario por interno dentro del EP i y C0 el presupuesto total
para el trabajo de campo. Note que el problema (4.10) es uno de programación no lineal
entera con restricciones de desigualdad. Aquı́, los πi y πij dependen de n de manera no
lineal y los p̄i denotan las proporciones de sentenciados estimados en cada EP i sobre la
base del censo del 2016. Dado que no existe una rutina estándar de programación no-lineal
entera bajo restricciones, optaremos por resolver (4.10) para cada posible valor entero de
n ∈ {2, 3, . . . , [ Cc10 ]} y elegir luego el tamaño de muestra n de primera etapa, como el valor
que minimice las varianzas de estas soluciones. Para esto usaremos el paquete nloptr(Ypma
et al., 2018) de R, el cual es una interfase para resolver problemas de optimización con
restricciones. Las restricciones de costos y opciones de optimización se programan en

gm <-function(m,n,M,pEPs,cc){ N = length(M)
c2 = cc[2:(N+1)]
pik = inclusionprobabilities(M,n)
sum(c2*pik*m) - (cc[N+2]-cc[1]*n)}
opts = list("algorithm"="NLOPT_LN_COBYLA","xtol_rel"=1.0e-8,maxeval = 2000)

y la función a minimizar se encuentra en

moptimn <-function(n,M,pEPs,cc){ N = length(M)


c2 = cc[2:(N+1)]
pik = inclusionprobabilities(M,n)
m0 = (cc[N+2]-cc[1]*n)/sum(c2*pik*pEPs*(1-pEPs))
ini = m0*pEPs*(1-pEPs)
ind = which(ini > M)
ini[ind] = M[ind]
ff = nloptr(x0 = ini,eval_f=Vem, lb=rep(0.0001,N),ub=[Link](M),
eval_g_ineq =gm, opts=opts,n=n,M=M,pEPs=pEPs,cc=cc)}
4.14. DISEÑO POR CONGLOMERADOS PPT PARA LA POBLACIÓN PENAL 133

mientras que la gráfica de esta función para diferentes valores de n, obtenida con el código
abajo mostrado, se aprecia en la figura 4.2.
0.004
0.003
Varianza

0.002
0.001

2 4 6 8 10 12

Figura 4.2: Varianza (4.6) de la proporción de sentenciados estimados para cada valor de n

v = 0
top = floor(cc[N+2]/cc[1])
for (h in 2:top){ aux = moptimn(h,M,pEPs,cc)
v[h] = aux$objective}
v = v[-1]
plot(2:top,v,xlab="n",ylab="Varianza")
lines(2:top,v)

El tamaño de muestra recomendado será entonces de 10 EP y la cantidad de internos que se


seleccionará en cada EP, en caso de que este sea elegido, se obtendrá de

opts = list("algorithm"="NLOPT_LN_COBYLA","xtol_rel"=1.0e-8,maxeval = 10000)


mm = moptimn(10,M,pEPs,cc)
round(mm$solution)

## [1] 56 68 11 54 60 50 41 73 42 38 30 64 84 77 77 13 98 82 47 53 57 59 56
## [24] 62 52 52 42 31 75 61 70 49 62 57 56 63 38 60 57 54 49 57 60 13 41 44
## [47] 48 37 49 56 50 41 45 42 46 34 52 49 55 53 60 23 49 22 55 57 60 14 58
## [70] 62 60 18 58 43 60 49 44 17 59 10 55 10 58 33 46 29 57 51
134 CAPÍTULO 4. MUESTREO POR CONGLOMERADOS

4.15. Ejercicios
1. Un estudiante de un internado desea estimar el promedio final medio que alcanzaron él y
sus compañeros en un curso de la institución. En lugar de obtener un listado de todos sus
compañeros y realizar un MASs, se da cuenta de que los alumnos de su institución están
distribuidos en 100 cuartos de 4 alumnos cada uno. Por ello decide seleccionar al azar 5 de
estos cuartos y preguntarles a todos los estudiantes en esos cuartos el puntaje que obtuvieron
en el curso. Los resultados se muestran en la siguiente tabla:

Alumno Cuarto
No . 1 2 3 4 5
1 15.4 11.8 10 15 13.4
2 13 15.2 12.8 14.4 9.6
3 17.2 16.4 12.6 17.2 16.4
4 15.2 13.4 9.4 18.2 16

a) Obtenga la estimación buscada y su error estándar de estimación estimado.


b) Obtenga un intervalo de confianza al 99 % para la estimación anterior.

2. En Richardson (2012) se presenta el mapa de la figura 4.3 que corresponde a un sitio


arqueológico. Este contiene 100 cuadrı́culas de posible excavación, donde X denota a una
cuadrı́cula que contiene artefactos o “hallazgos”. Si usted tiene un presupuesto para selec-
cionar tan solo 20 cuadrı́culas, seleccione al azar su muestra siguiendo los diseños MASc,
MASs, MAE con asignación proporcional (dividiendo el área en los estratos I y II confor-
mados por las columnas 1-5 y 6-10), muestreo sistemático y de conglomerados con 2 UPM
(donde cada fila es una UPM). Para cada diseño estime el número total de cuadrı́culas con
hallazgos, indicando en cada caso su error estándar de estimación estimado.

1 2 3 4 5 6 7 8X 9 10
11 12 13 X 14 15 16 17 18 19 X 20 X
21 22 23 24 25 X 26 27 28 29 30
31 32 33 34 35 X 36 37 38 39 40
41 42 43 44 X 45 46 47 X 48 X 49 50
51 X 52 53 X 54 X 55 X 56 57 58 X 59 60
61 62 63 64 65 66 X 67 68 69 70
71 72 73 74 X 75 X 76 77 78 79 X 80
81 82 83 84 85 86 87 88 89 90
91 92 93 94 95 96 97 98 X 99 100 X

Figura 4.3: Mapa de un sitio arqueológico


4.15. EJERCICIOS 135

3. A fin de estimar la proporción de poseedores de al menos un auto entre los 3000 empleados
de una compañı́a que se divide en 20 departamentos de 150 funcionarios cada uno, se plantea
un diseño que seleccionará al azar 10 departamentos y dentro de cada departamento 10
empleados. Si el número encontrado de empleados que poseen al menos un auto en esta
muestra fue de
4, 5, 9, 0, 9, 9, 8, 6, 5, 4,
estime la proporción pedida y construya un intervalo de confianza al 95 % para este paráme-
tro.
4. Una empresa de investigación de mercados ideó un plan de muestreo para estimar las
ventas semanales de un producto A en una área geográfica. La empresa decidió muestrear
ciudades dentro del área y luego supermercados dentro de cada una de las ciudades. La
medición de interés es el número de cajas vendidas del producto A en una semana especı́fica.
Cinco ciudades son muestreadas de entre las 20 del área. Usando los datos presentados en la
tabla adjunta

Ciudad Número de Número de Media Desviación


supermercados supermercados muestreados muestral estándar muestral
1 45 9 102 20
2 36 7 90 16
3 20 4 76 22
4 18 4 94 26
5 28 6 120 12

a) Estime las ventas medias de todos los supermercados en el área para la semana especı́fica.
¿Es insesgado el estimador utilizado?
b) ¿Se tiene suficiente información para estimar el número total de cajas del producto A
vendidas en todos los supermercados del área durante la semana? Si es ası́, obtenga esta
estimación y explique cómo obtendrı́a su error estándar de estimación estimado.
5. Considere la base de datos poblacional Province 91 vista en el ejercicio 17 del capı́tulo
2, en donde la variable de conglomeración Cluster agrupa a un conjunto de municipalidades
geográficamente contiguas de la provincia en estudio. Suponga que deseamos realizar una
encuesta por muestreo utilizando ya sea un diseño por conglomerados de una etapa o de dos
etapas. En la primera se seleccionarán tres conglomerados y en la segunda se seleccionarán
4 conglomerados y dentro de estos dos municipalidades, todas mediante un MASs. Si es de
interés estimar el número de personas desempleadas en la provincia,
a) Halle la estimación pedida bajo los dos esquemas de muestreo.
b) Asumiendo que cuenta con toda la información, obtenga los efectos de diseños de ambos
esquemas e indique cuál serı́a más eficiente.
c) Asumiendo que no cuenta con toda la información, estime los efectos de diseño anteriores.
136 CAPÍTULO 4. MUESTREO POR CONGLOMERADOS

6. En este ejercicio, tomado de Mendenhall et al. (2007), una socióloga desea estimar el
número total de jubilados que viven en una ciudad. La socióloga decide muestrear manzanas
y después casas dentro de las manzanas. Se seleccionaron aleatoriamente 4 manzanas de
entre 300 de la ciudad. Responda a las siguientes preguntas a partir de los datos presentados
en la tabla que aparece a continuación

Manzana Número de casas Número de casas Número de residentes


muestreadas jubilados por casa
1 18 3 1, 0, 2
2 14 3 0, 3, 0
3 9 3 1, 1, 2
4 12 3 0, 1, 1

a) Estime el número total de residentes jubilados en la ciudad y su error estándar de esti-


mación.
b) Estime el número promedio de residentes jubilados por casa y su error estándar de esti-
mación.
c) ¿Puede estimar el número promedio de residentes por manzana? Si su respuesta es afir-
mativa, obtenga esta estimación y su error estándar de estimación.
7. Muestre que la correlación intraclase para un diseño bietápico, en las que las USM son
todas de un mismo tamaño M , puede escribirse como
 N M M
i=1 j=1 k=j (yij − µ)(yik − µ)
ρ= ,
(N M − 1)(M − 1)σ 2
donde µ y σ 2 son, respectivamente, la media y la varianza poblacionales de la variable y de
investigación, N es el número de UPM e yij es el valor que toma esta variable y en la j-ésima
USM de la UPM i.
8. Complete la demostración del teorema 4.1. Más concretamente, muestre que el estima-
dor de Sen-Yates-Grundy para la varianza del estimador del total de Horvitz-Thompson es
insesgado.
9. Consideremos un muestreo trietápico que busca estimar la media de una variable y en
la que las unidades muestrales son todas de igual tamaño. Suponga que se tomarán secuen-
cialmente un MASs de n UPM, un MASs de m USM dentro de cada UPM y un MASs de q
UTM (unidades terciarias de muestreo) dentro de cada USM.
a) Encuentre una fórmula para la varianza del estimador.
b) Halle los tamaños de muestra óptimos en el sentido de que con ellos se minimice la varianza
anterior o el costo total de muestreo C = c0 + c1 n + c2 nm + c3 nmq, sujeto a que se fije uno
de ellos. Aquı́, c0 es un costo fijo, c1 el costo por UMP seleccionado, c2 el costo por USM
seleccionado y c3 el costo por UTM seleccionado.
4.15. EJERCICIOS 137

10. En una población de 4 personas se seleccionarán al azar y sin reemplazamiento a 2


personas con probabilidades no constantes. Se sabe que la probabilidad de que se seleccionen
a las dos primeras personas es 0.2, que se seleccionen a la primera y tercera es la misma que
se seleccionen a la primera y cuarta, siendo esta de 0.1, que se seleccionen a la segunda y
cuarta es la misma que se seleccionen a la tercera y cuarta, siendo esta de 0.15 y, finalmente,
que se seleccionen a la segunda y tercera persona es de 0.3.
a) Halle las probabilidades de inclusión de cada persona en la muestra.
b) Si la población estadı́stica del número de hermanos y de estas cuatro personas es, res-
pectivamente, Py = {2, 1, 5, 4}, tome bajo este diseño una muestra de tamaño 2 y estime
el número total de hermanos de esta población. Obtenga también una estimación del error
estándar de estimación correspondiente.
11. Demuestre, utilizando el estimador de Horvitz-Thompson, que la varianza del estimador
de la media poblacional para un muestro por conglomerados bietápico está dada por la
expresión (4.2).
12. Muestre que el estimador τ̂ψ definido en la sección 4.9 es un estimador insesgado del total
poblacional. Pruebe también que la varianza de este estimador viene dada por
N N
1 τi 1  V (τ̂ij )
V (τ̂ψ ) = ψi ( − τ )2 +
n i=1 ψi n i=1 ψi

y que (4.7) es un estimador insesgado de esta varianza.


13. Para conocer el rendimiento escolar en los colegios de una zona (6 en total) se ha planeado
seleccionar aleatoriamente y sin reemplazo 2 de estos colegios con probabilidades proporcio-
nales al número de alumnos de los colegios y luego seleccionar al azar 30 alumnos de cada
colegio con el fin de aplicarles una prueba de conocimientos. La distribución del número de
estudiantes por colegio de la zona es

Colegio A B C D E F
Número de estudiantes 150 200 50 30 400 100

Si realizada la selección anterior salieron elegidos los colegios A y E con los siguientes resul-
tados:
Colegio seleccionado Media Varianza
1 14.5 25.64
2 10.9 16.36
a) Estime, de manera insesgada, el rendimiento medio de esta zona junto con su error estándar
de estimación.
b) Si alguien le objeta que debió considerar, para que el muestreo sea representativo, iguales
probabilidades de selección, ¿qué le responderı́a?
138 CAPÍTULO 4. MUESTREO POR CONGLOMERADOS

14. El año pasado una plaga de roya afectó seriamente la producción de café en una zona de
un paı́s que agrupa a 15 unidades agropecuarias (UA) y las cuales se ubican en dos zonas
ecológicas (1 = Baja y 2 = Alta). Con el objetivo de estimar las pérdidas medias en miles
de dólares (µ) para los productores de café de la zona a causa de la plaga, el ministerio
del sector está interesado en realizar un estudio en la zona. Los datos siguientes ilustran la
variable de pérdida en miles de soles (y), la variedad cultivada de café (A o B), el número
de hectáreas (Ha) y las variables anteriormente descritas para cada unidad agropecuaria de
la zona. Naturalmente, y se desconoce, pero se la presenta aquı́ solo para evitar que usted
tenga que recabar esta información en el campo.

UA Zona Cooperativa Ha Variedad y


1 1 1 41.5 A 7.3
2 1 1 23.8 A 6.2
3 1 1 33.3 B 7.2
4 1 1 22.1 A 4.8
5 1 2 44.8 A 7.6
6 1 2 37.3 A 7.4
7 1 2 29.5 A 5
8 1 3 21.5 B 5.8
9 1 3 18.4 B 2.2
10 1 3 13.7 A 6.1
11 2 4 12.5 B 4.5
12 2 4 15.2 B 4.8
13 2 5 6.5 B 2.8
14 2 5 5.8 B 3.3
15 2 5 10.4 A 5.1

a) Suponga que se seleccionan, mediante un MASs, las UA 4, 9, 11 y 15 a fin de estimar µ.


Halle el error estándar de estimación estimado respectivo.
b) Use los números aleatorios 0.231, 0.627, 0.122 y 0.883 para seleccionar, mediante un MASs,
4 UA. Estime con ello µ.
c) Asumiendo que conoce la tabla arriba dada, halle bajo un MASs la desviación estándar
de cualquier media muestral de tamaño 4 y estı́mela usando la muestra en b).
d) Tome un MAE con asignación proporcional y tamaño n = 6, con la variable zona como
variable de estratificación, y estime µ y la proporción de UA en la región que cultivaron la
variedad A.
e) Suponga que al seguir el diseño en d) encontró que el muestreo por UA en la zona 1 cuesta
aproximadamente 54 soles; mientras que el costo en la zona 2 es de 40 soles. ¿Cómo sugerirı́a
para un estudio futuro distribuir la muestra de las 6 UA de tal manera que minimice estos
costos de muestreo? Use las estimaciones de d).
4.15. EJERCICIOS 139

f) Suponga ahora que se aplica un muestreo por conglomerados de una etapa, siendo la
variable de conglomeración la cooperativa. Si salieron seleccionados, bajo este diseño, las
cooperativas 1 y 4, estime µ bajo dos escenarios: uno en el que conozca el número de UA
por cada cooperativa y otro en el que desconozca este número y lo averigue en el trabajo de
campo.
g) De algún indicador en f) que le permita comparar este diseño con el MAE aplicado en d)
y haga la comparación respectiva, indicando cuál de los diseños es más eficiente.
h) Si tomará una muestra de 2 conglomerados (cooperativas) bajo un esquema sistemático
ordenado con tamaños proporcionales al número de hectáreas que administra cada coopera-
tiva, ¿con qué probabilidad las cooperativas 1 y 4 serı́an seleccionadas?
i) Estime µ, bajo el esquema en h). Use el número aleatorio 0.305.
15. Realice, para el ejemplo de las ventas del supermercado, un pequeño estudio de simulación
a fin de comprobar que el método de Sampford “funciona”. Para ello, escriba un programa
en R que seleccione 1000 muestras de tamaño 3 bajo este esquema y, con estas simulaciones,
estime las probabilidades de inclusión ppt de primer orden. Compare luego estas con las
verdaderas probabilidades ppt del ejemplo.
16. En el siguiente ejercicio, tomado de Mendenhall et al. (2007), un parque de diversiones
cobra entrada por auto en lugar de por persona y desea estimar el número promedio de
personas por auto que entran al parque en un dı́a festivo. El funcionario del parque sabe por
experiencia que entrarán a este alrededor de 400 autos y decide muestrear 80 de ellos. Para
obtener una estimación de la varianza, decide utilizar un muestreo sistemático repetido con
10 muestras de 8 autos cada una. Usando los datos que a continuación se presentan, estime
el número medio de personas por auto y establezca un lı́mite para el error de estimación.

Inicio Segundo Tercer Cuarto Quinto Sexto Séptimo Octavo


aleatorio elemento elemento elemento elemento elemento elemento elemento
2(3) 52(4) 102(5) 152(3) 202(6) 252(1) 302(4) 352(4)
5(5) 55(3) 105(4) 155(2) 205(4) 255(2) 305(3) 355(4)
7(2) 57(4) 107(6) 157(2) 207(3) 257(2) 307(1) 357(3)
13(6) 63(4) 113(6) 163(7) 213(2) 263(3) 313(2) 363(7)
26(4) 76(5) 126(7) 176(4) 226(2) 276(6) 326(2) 376(6)
31(7) 81(6) 131(4) 181(4) 231(3) 281(6) 331(7) 381(5)
35(3) 85(3) 135(2) 185(3) 235(6) 285(5) 335(6) 385(8)
40(2) 90(6) 140(2) 190(5) 240(5) 290(4) 340(4) 390(5)
45(2) 95(6) 145(3) 195(6) 245(4) 295(4) 345(5) 395(4)
46(6) 96(5) 146(4) 196(6) 246(3) 296(3) 346(5) 396(3)

Las respuestas del número de personas por auto se encuentran entre paréntesis.
140 CAPÍTULO 4. MUESTREO POR CONGLOMERADOS

17. El organismo de medición de la calidad educativa de un paı́s ideó un plan de muestreo


para estimar el rendimiento medio de los alumnos del tercer año de educación secundaria
de una región. El organismo decidió muestrear primero distritos educativos y luego colegios
dentro de cada distrito. Cinco distritos son muestreados de entre los 15 de la región. Usando
los datos que se muestran en el cuadro 4.15, donde se marca con X los distritos seleccionados,
a) Estime el rendimiento medio de los colegios en la región. ¿Es insesgado el estimador usado?
b) Obtenga un lı́mite para el máximo margen de error en la estimación anterior al 95 %.
c) Suponga que a futuro se seleccionarán al azar tres distritos con probabilidades propor-
cionales al número de colegios del distrito a fin de medir el impacto de un nueva polı́tica
educativa para la región. Haga la selección y diga a qué distritos habrı́a que hacerles el se-
guimiento en este estudio. Calcule también la probabilidad de que el distrito con el mayor
número de colegios de la región participe de este estudio.

Distrito Número de Número de Número de Media DE


escolar colegios colegios elegidos colegios unidocentes
X 1 25 9 3 15.25 3.06
2 16 4
3 32 11
X 4 26 7 3 13.56 2.18
5 24 2
6 20 5
7 26 4
8 18 2
X 9 30 4 6 12.17 2.45
10 36 9
X 11 28 4 5 10.65 2.60
12 22 9
13 45 10
X 14 39 6 8 15.38 2.93
15 26 7

Cuadro 4.3: Datos de la muestra para el ejercicio 17

18. Suponga que en la pregunta anterior se hubiese tenido interés en estimar la proporción de
colegios unidocentes de la región y que con este fin se plantearan dos propuestas: seleccionar
4 distritos con probabilidades proporcionales al número de colegios en el distrito o seleccionar
4 distritos mediante un muestreo por conglomerados de una etapa.
a) Utilizando un esquema sistemático ordenado en la primera propuesta, ¿serı́a posible re-
portar la proporción estimada buscada y su error estándar de estimación estimado?
4.15. EJERCICIOS 141

b) Realice la selección de los 4 distritos y estime la proporción de colegios unidocentes en la


región bajo las dos propuestas. Para la selección ppt use un esquema de Sampford.
c) A un nivel de confianza del 95 %, ¿qué error reportarı́a en sus estimaciones anteriores?.
¿Cuál propuesta considerarı́a que es la mejor?
19. Una cadena tiene 16 tiendas en el paı́s. Si bien la cadena sugiere un precio de venta de
750 soles para un nuevo modelo de celular YTRON que llegó el mes pasado, este precio es
variable y se deja a criterio del vendedor siempre que no sea inferior a los 680 soles, que es el
precio de costo. Para estimar la proporción de celulares YTRON vendidos con rebaja sobre
el precio ofrecido y estimar el monto total recabado hasta el momento por la venta de estos
celulares, se piensa tomar una muestra de 4 de estas tiendas.
a) Si la muestra se tomó mediante un MASs y se obtuvieron los siguientes resultados:

Número de Número de Monto total de ventas Número de


celulares YTRON celulares YTRON del celular celulares YTRON
en stock vendidos YTRON vendidos con rebaja
30 5 3730 1
45 10 7200 8
18 8 5670 6
20 9 7000 3

Reporte las estimaciones pedidas y sus errores estándar de estimación estimados.


b) Si la distribución del número de celulares YTRON destinados a cada tienda a inicios del
mes (stock) fue la siguiente y la muestra se toma con probabilidades proporcionales al stock:

Tienda 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Stock 55 45 10 12 10 120 18 20 35 45 10 36 30 27 15 50

obtenga estas probabilidades y tome la muestra respectiva mediante un esquema sistemático


ppt. Reporte la semilla aleatoria utilizada.
c) Suponga ahora que usted considera utilizar el estimador de Hansen-Hurwitz con reem-
plazamiento. Tome la muestra de 4 tiendas e indique cómo obtendrı́a la estimación del total
actual de ventas de los celulares YTRON en la cadena.
20. Suponga que para la ECE 2018 de la DRE Amazonas se le pide hacer un estudio de simu-
lación que consiste en seleccionar 500 muestras de 50 colegios, cada una con probabilidades
proporcionales al número de alumnos por colegio. Basándose en los esquemas de Poisson,
sistemático ordenado y aleatorio, Tillé, Midzuno, pivotal y de conglomerados de una etapa,
estime el rendimiento medio en Matemáticas. Indique a partir de un diagrama de cajas,
cuáles de los esquemas anteriores logran una mayor precisión.
142 CAPÍTULO 4. MUESTREO POR CONGLOMERADOS

21. Suponga que en el ejemplo 4.6 se plantea un plan con las siguientes caracterı́sticas:

Las muestras se tomarán secuencialmente.

La primera selección se tomará con probabilidad proporcional al área del supermercado,


la segunda y tercera selección se harán al azar y con reemplazamiento, sin tomar en
cuenta la primera selección.

Defina formalmente el diseño de muestreo asociado a este algoritmo.

22. Un ingeniero ambiental desea estimar el número total de árboles en un determinado


condado que han sido afectados por una enfermedad y cuál es el nivel de esta infección.
Hay 15 zonas forestales bien definidas en el condado, las cuales están divididas en parcelas
de aproximadamente el mismo tamaño. Cuatro equipos están disponibles para el estudio, el
cual deberá completarse en un dı́a. Con este propósito se diseñó un muestreo aleatorio por
conglomerados bietápico. En este se seleccionaron al azar y sin reemplazamiento 4 zonas y
6 parcelas. Los datos recopilados del número de árboles afectados y entre paréntesis de la
cantidad de ellos que tienen una infección avanzada se muestran en la siguiente tabla:

Zona Número de parcelas Número de árboles infectados (con infección avanzada)


1 12 15(5), 14(2), 21(8), 18(3), 9(1), 10(0)
2 16 4(0), 7(2), 10(1), 9(1), 8(3), 5(0)
3 14 10(3), 11(2), 14(2), 10(1), 9(0), 15(4)
4 21 6(2), 3(1), 4(1), 1(0), 2(0), 5(1)

a) Calcule la probabilidad de que una parcela particular de la zona 2 sea seleccionada.


b) Estime el número total de árboles infectados en la zona 1 y reporte su error estándar de
estimación estimado.
c) Estime el número total de árboles con infección severa en el condado y reporte su error
estándar de estimación estimado.
d) Estime la proporción de árboles afectados en el condado que tienen una infección severa.
e) Suponga que la distribución del área en metros cuadrados de las parcelas y del número
de árboles que estas contienen es, para la zona 2, la siguiente:

Parcela 1 2 3 4 5 6 7 8
Área 400 580 674 920 180 300 380 555
Num. de árboles 16 21 18 24 24 23 25 51

Parcela 9 10 11 12 13 14 15 16
Área 990 602 508 210 350 678 440 735
Num. de árboles 42 19 11 10 36 21 37 12
4.15. EJERCICIOS 143

Si usted toma una muestra de 8 parcelas con probabilidades proporcionales al área de estas,
¿cuál serı́a su estimación y cuál su error estándar de estimación estimado para el número de
árboles que contendrı́a esta zona? Use para su muestreo un esquema de Sampford.
f) Interprete la salida del siguiente código:

zona = rep(1:4,each=6)
M = rep(c(12,16,14,21),each=6)
N = rep(15,24)
ya = c(15,14,21,18,9,10,4,7,10,9,8,5,10,11,14,10,9,15,6,3,4,1,2,5)
ysa = c(5,2,8,3,1,0,0,2,1,1,3,0,3,2,2,1,0,4,2,1,1,0,0,1)
ps = ysa/ya
Bas = [Link](id=1:24,N,zona,M,ya,ysa,ps)
dis = svydesign(ids=~zona+id,fpc=~N+M,data=Bas)
svymean(~ps,dis)

23. Suponga que en el ejemplo 4.6, no es ya de interés tomar un muestreo ppt, sino considerar
iguales probabilidades de selección con excepción del supermercado D, el cual debe tener el
doble de probabilidad de ser seleccionado que los otros supermercados.
a) ¿Cuáles serı́an las probabilidades de inclusión de primer orden bajo este esquema?
b) Halle el estimador de Horvitz-Thompson para el total de ventas en la cadena si salieron
seleccionados, bajo este esquema, los supermercados A, D y E.
c) Si se seleccionan ahora al azar y sin reemplazamiento uno por uno cada uno de los 3
supermercados, utilizando en cada selección probabilidades proporcionales al tamaño, ¿con
qué probabilidad será seleccionado el supermercado D?
d) Tome su muestra ppt y estime el total de ventas de la cadena, si se decide que en caso
salga seleccionado el supermercado D, se medirá el total de ventas en 2 de sus 5 divisiones
seleccionadas al azar. Suponga que los totales de ventas en estas divisiones están en el orden
de los 40, 45, 68, 29 y 63 mil dólares.
Capı́tulo 5

Una introducción al muestreo


complejo

La gran mayorı́a de encuestas por muestreo sobre poblaciones grandes involucran varias
de las ideas analizadas: una encuesta puede estar segmentada en dominios, estratificada
con varias etapas de formación de conglomerados, las probabilidades de selección pueden
no ser iguales y es factible utilizar un muestreo sistemático en cualquiera de las etapas.
Generalmente, la estratificación forma la clasificación más gruesa, los estratos pudieran ser
áreas del paı́s o tipos de habitat. Se extraen de los estratos muestras de conglomerados (a
veces con varias etapas) y puede haber una post-estratificación o interés a posteriori sobre
algunos dominios. Todo esto hace, como se comprenderá, que las fórmulas para los errores
de estimación en este tipo de diseños sean prácticamente inmanejables. En este capı́tulo,
presentaremos una introducción a la obtención de estimadores y de sus varianzas en estos
tipos de diseños. Comenzaremos analizando los pesos de muestreo, el cálculo de estimadores
mediante estos pesos y la estimación de las varianzas de estos estimadores. Finalmente,
brindaremos una introducción al análisis estadı́stico bajo muestras complejas.
Para tener una idea de la magnitud de los problemas comentados, consideremos el censo
penitenciario 2016 como base de una encuesta futura por muestreo. Dadas las caracterı́sti-
cas y el tamaño de la población, pueden plantearse aquı́ varios diseños, uno de los cuales
expusimos al término del capı́tulo anterior. Aun cuando los diseños clásicos estudiados son
teóricamente factibles, en la práctica estos son inviables dadas las restricciones de costos y la
complejidad de la logı́stica subyacente. Una propuesta más realista para los penales podrı́a
ser, por ejemplo, optar por un diseño estratificado y por conglomerados bietápico. De manera
natural, los estratos pudieran estar definidos, como en el capı́tulo 3, por el género y nivel
de hacinamiento de las cárceles, las unidades primarias de muestreo (UPM) en cada estrato
podrı́an tomarse como los establecimientos penitenciarios (EP) y, finalmente, las unidades
secundarias de muestreo (USM) podrı́an ser los internos al interior de cada EP. Se puede
también pensar en tres etapas, si previamente a la selección de los internos se seleccionan

145
146 CAPÍTULO 5. UNA INTRODUCCIÓN AL MUESTREO COMPLEJO

al azar algunos pabellones. Otro punto que considerar es si se toman o no dominios en el


estudio. Estos podrı́an estar constituidos por las oficinas regionales que tienen a su cargo la
administración de un grupo de EP. Finalmente, no es necesario que en las distintas etapas se
tome un MASs. En varias encuestas similares sobre cárceles de la región se han considerado
muestreos sistemáticos en algunas de las etapas de selección (dada su simplicidad y logı́sti-
ca). Más aún, dada la inequidad de los tamaños de los EP, podrı́a resultar conveniente que
en una o más de las etapas se realicen muestreos ppt.

5.1. Pesos de muestreo


El peso base de muestreo para una unidad de observación se define como el inverso de
su probabilidad de selección. En un muestreo complejo, estos pesos requieren con frecuencia
algunos ajustes adicionales por motivos, tales como la elegibilidad desconocida, la no res-
puesta y el uso de data auxiliar tendiente a reducir la varianza o corregir deficiencias en el
marco muestral. En su forma definitiva, los pesos contienen prácticamente toda la informa-
ción necesaria para construir un estimador puntual. Nosotros agregaremos un supraı́ndice 0
a estos pesos para enfatizar que son los pesos base.
Consideremos, por simplicidad, que nuestro interés sea estimar un total poblacional τ de
una variable estadı́stica y en una población de tamaño N . Entonces, el estimador puntual
de τ tendrá la forma 
τ̂ = ωk0 yk δk ,
k

donde la suma va sobre todas las unidades de la población y las múltiples etapas de selección;
δk es una v.a. indicadora de si la unidad k es seleccionada o no en la muestra, y los ωk0 son
los pesos bases asociados a la selección de la unidad correspondiente a la medición yk . Este
estimador puede escribirse alternativamente como

τ̂ = ωi0 Yi ,
i∈S

donde la suma va sobre las unidades seleccionadas en la muestra bajo el diseño (que denotare-
mos por S y que es un subconjunto de la población P) e Yi denota a la v.a. correspondiente al
valor que y toma en la i-ésima selección. Veamos algunos ejemplos y por brevedad apelemos
por ahora a la primera notación.

En el MAS se tiene que


N

τ̂ = ωi0 yi δi ,
i=1
N
donde ωi0= es el inverso de la probabilidad de selección. Puesto que la suma de los
n
pesos de las unidades seleccionadas es N , el estimador natural de la media poblacional
5.1. PESOS DE MUESTREO 147

es µ; es decir, Ȳ puede escribirse como


N 0
ωi yi δi
Ȳ = i=1
N 0
.
i=1 ωi δi

En un MAE se tiene que


Nh
H 

0
τ̂ = ωih yih δih ,
h=1 i=1
0 Nh 1
donde ωih = nh
= P (δih =1) . Recordemos que por el hecho de que la suma de los pesos
de las unidades seleccionadas sea N , cada unidad en la muestra “representa” cierta
cantidad de unidades de la población de modo que toda la muestra “representa” la
población. La estimación de la media para el muestreo estratificado es
 H  Nh 0
h=1 i=1 ωih yih δih
Ȳ =  H  Nh 0
.
h=1 i=1 ωih δih

En un muestreo por conglomerados bietápico se tiene que


Mi
N 

τ̂ = ωij0 yij δij ,
i=1 j=1

N Mi
donde ωij0 = nni
, y la estimación de la media poblacional es
 N  Mi 0
i=1 j=1 ωij yij δij
Ȳ = N Mi 0 .
i=1 j=1 ωij δij

Es interesante notar que estos estimadores del total son por construcción insesgados y que
tales esquemas pueden utilizarse para obtener el estimador de un total en otros diseños
complejos. Consideremos, por ejemplo, el caso de un muestreo por conglomerados de tres
etapas o trietápico. Aquı́, la probabilidad conjunta de que la unidad terciaria k, de la unidad
secundaria j perteneciente a la unidad primaria i sea seleccionada, puede calcularse por

πijk = P (δijk = 1) = P(Seleccionar la unidad k | se seleccionaron las unidades i y j)

× P(Seleccionar la unidad j | se seleccionó la unidad i) × P(Seleccionar la unidad i).

Luego, el peso de muestreo para esta unidad de observación viene dada por

0 0 0
ωijk = ωk|i,j × ωj|i × ωi0 ,

0 0
siendo, respectivamente, ωk|i,j , ωj|i y ωi0 los inversos de las probabilidades arriba indicadas.
148 CAPÍTULO 5. UNA INTRODUCCIÓN AL MUESTREO COMPLEJO

5.1.1. Ajuste de pesos por no respuesta


Hasta el momento hemos implı́citamente asumido que contamos siempre con un marco
muestral perfecto y que toda unidad seleccionada en la muestra ha de responder a la encuesta
o al instrumento de recolección de información. En la práctica, como es de esperarse, esto
raramente ocurre, lo cual origina errores de no muestreo tanto en la cobertura como en la
no respuesta. Una manera de mitigar estos errores es efectuando algunos ajustes a los pesos
base (otra alternativa serı́a la imputación).
Supongamos que deseamos calcular la media µ de una variable estadı́stica y en una
población de tamaño N a la cual subdividiremos en dos grupos de tamaños Nr y Nm de
medias µr y µm para y. Estas subpoblaciones incluyen, respectivamente, a los que responden
y a los que no en la encuesta sobre la variable y. Puesto que solo µr podrı́a conocerse (bajo un
censo), el sesgo que uno cometerı́a al reportar esta media como la de la población vendrá dado
por
Nr Nm Nm
µr − µ = µr − ( µr + µm ) = (µr − µm ).
N N N
Ası́ incurriremos en un mayor sesgo mientras la proporción de no respuesta sea más grande
(o de respuesta menor) o las medias de y para los que responden y no difieran más. Tomada
la muestra, este sesgo podrı́a teóricamente estimarse por
nm
(Ȳr − Ȳm ),
n

donde nm es el número de unidades sin respuesta en la muestra e Ȳr y Ȳm son, respectiva-
mente, las medias muestrales de y para los que responden y no. La idea de una reponderación
o ajuste es tratar de que Ȳr e Ȳm sean lo más parecidos posibles, tarea ciertamente compli-
cada, pues en la práctica uno no conoce Ȳm ni, a priori, la proporción de unidades que han
de responder a la encuesta.
Antes de entrar propiamente en la ponderación, es bueno entender cómo se podrı́a generar
una no respuesta y como, según ello, se podrı́a especificar un elemento vital en todo este
análisis: la probabilidad φk de que una unidad k seleccionada responda. Para ello seguiremos
la terminologı́a dada por Little y Rubin (2002), quienes suponen un modelo para el vector de
variables de interés. Supongamos que en una encuesta tenemos para cada unidad k un vector
de variables de interés yk disponible solo si k responde y un vector de variables auxiliares xk
siempre disponible al margen de si la unidad k responde o no. Diremos que una no repuesta
será:

MCAR (de Missing Completely at Random). Si la probabilidad de respuesta para


la unidad k, φk , no depende de yk ni de xk . Ello ocurrirı́a, por ejemplo, cuando al
modelar la probabilidad φk de respuesta para los distintos elementos, estas resulten ser
aproximadamente las mismas.
5.1. PESOS DE MUESTREO 149

MAR (Missing at Random). Si la probabilidad de respuesta para la unidad k, φk ,


depende de todas o algunas de las variables auxiliares xk .

NINR (Nonignorable Nonresponse). Si la probabilidad de respuesta para la unidad k,


φk , depende de todas o algunas de las variables de interés yk y esta dependencia no
puede ser removida con un modelamiento sobre las xk .

Supongamos ahora que deseamos estimar, bajo un diseño complejo, un total para una
variable estadı́stica y en una población de tamaño N . Con el fin de incorporar la posibilidad
de no respuesta, definamos una variable aleatoria indicadora Rk que vale 1 si, y solamente
si, la unidad k responde condicionada, a que sea seleccionada. En caso contrario, Rk vale 0.
Tomada la muestra, y considerando solo las unidades con respuesta, un estimador de τ tiene
la forma

τ̂ = ωk yk δk Rk .
k

El valor esperado de este estimador puede calcularse por



E(τ̂ ) = E(E(τ̂ | δ)) = E( ωk yk δk E(Rk | δ))
k

 
= ωk yk E(δk )φk = ωk yk πk φk .
k k

Ası́, este estimador será insesgado si consideramos pesos iguales a

1 1
ωk = = ωk0 ,
πk φk φk

donde ωk0 es el peso base de muestreo para la unidad k.


La obtención de los pesos últimos implica, entonces, estimar las probabilidades de res-
puesta para cada unidad seleccionada, φk . Si asumimos que las no respuestas son MCAR
o MAR, estas probabilidades podrı́an estimarse identificando alguna o algunas variables
auxiliares bajo cuyos niveles se pueda predecir si la unidad k ha de responder o no. Ello
puede hacerse con cualquier técnica de clasificación, como, por ejemplo, la regresión logı́sti-
ca binaria. Si bien esto nos conducirá a una estimación probablemente distinta para cada
unidad, en la práctica se aconseja ajustar por grupos de unidades. Estos pueden formarse,
por ejemplo, si usamos una regresión binaria, ordenándose las probabilidades estimadas φk
y clasificándolas mediante cuantiles. Luego podrı́amos ajustar los pesos bases de cada grupo
con, por ejemplo, la inversa del promedio de las probabilidades φk dentro de cada grupo. Un
ejemplo de la aplicación de esta técnica, puede verse en el ejercicio 5.4.
150 CAPÍTULO 5. UNA INTRODUCCIÓN AL MUESTREO COMPLEJO

5.1.2. Ajuste de pesos por elegibilidad desconocida


Por más depuración hecha al marco muestral, es posible que este aún contenga unidades
cuya elegibilidad no pueda predeterminarse. Esto es, unidades que no son posibles de con-
tactar en la encuesta y, por tanto, su respuesta será incierta. Al igual que en el ajuste por no
respuesta, el ajuste por elegibilidad desconocida se hace con las mismas clases que en esta y
simplemente consiste en multiplicar el peso base por el cociente entre la suma de los pesos
base de la clase dividida entre la suma de los pesos base de las unidades en la clase cuya
elegibilidad sea conocida (sea que ellas respondan o no a la encuesta).

5.2. Estimadores no lineales


Si bien el uso de los pesos resuelve el problema de encontrar estimadores puntuales de
totales, medias o proporciones en un diseño complejo, ello no nos da información acerca de la
forma de determinar sus errores estándar. Las varianzas de los estimadores dependen de las
probabilidades de que cualquier pareja de unidades sea seleccionada para estar en la muestra
y requieren más conocimiento del diseño que el dado simplemente por los pesos.
Otro problema que surge con esta metodologı́a es que, en apariencia, ella está restringida
a la estimación de totales, medias o proporciones y no cubre a otros parámetros que podrı́an
ser de interés, tales como medianas, desviaciones estándar, cuantiles, correlaciones u otros.
Veremos a continuación que tal idea no es del todo cierta y que sı́ es posible estimar estas
(más no directamente sus errores estándar) sobre la base de los pesos de muestreo. Si N es
el tamaño de la población, la idea es aproximar con los pesos la verdadera proporción y la
verdadera proporción acumulada poblacional de los valores de la variable de interés y. Estas
vienen dadas respectivamente por
número de unidades cuyo valor es y
P (y) =
N
y
número de unidades cuyo valor ≤ y 
F (y) = = P (x).
N x≤y

Para ello definiremos, basándonos solo en la muestra, la función de probabilidad empı́rica



ωk 1yk =y δk
P̂ (y) = k

y su función de distribución empı́rica

F̂ (y) = P̂ (x).
x≤y

donde N̂ = k ωk δk es una estimación de N , basada solo en los pesos de muestreo de la
muestra.
5.2. ESTIMADORES NO LINEALES 151

En otras palabras, P̂ (y) es igual a la suma de los pesos de todas las observaciones en la
muestra que toman el valor y, dividida entre la suma de todos los pesos en la muestra; y,
por otro lado, F̂ (y) es la suma de los pesos para todas las observaciones en la muestra con
valores menores o iguales que y, divididas entre la suma de todos los pesos en la muestra.
Si ahora deseamos estimar ciertos parámetros poblacionales, deberemos, en primer lugar,
expresar estos en términos de su real proporción poblacional; por ejemplo, la media y varianza
se expresan respectivamente por
N

2 1  N  2
µ= yP (y) y σ = (yi − µ)2 = ( y P (y) − µ2 ).
y
N − 1 i=1 N −1 y

Hecho esto, la estimación procederá al sustituir N̂ , P̂ (y) o F̂ (y) en cada aparición de N ,


P (y) ó F (y).

Ejemplo 5.1. Considere, para la ECE 2019 de la DRE Amazonas, un diseño estratifica-
do de conglomerados de una etapa, donde la variable de estratificación será la definida por
el cruce de las variables de gestión y área, y los conglomerados serán los colegios. Nuestro
interés recaerá, en primer lugar, en seleccionar una muestra de 20, 20, 4 y 4 colegios en,
respectivamente, los estratos [Link], [Link], [Link] estatal y [Link]
estatal. y, en segundo lugar, en analizar cómo hace el paquete survey para estimar el rendi-
miento medio en Ciencia y Tecnologı́a, a partir de solo los pesos base de muestreo. Para lo
primero usaremos el comando mstage,el cual exige ordenar la base de datos por la variable
de estratificación. Los códigos son los siguientes:

library(survey)
library(sampling)
load("[Link]")
Pop = ece19Am
Pop$Estrato=interaction(Pop$area,Pop$gestion2)
Pop = Pop[order(Pop$Estrato),]
[Link](12345)
disl = list("stratified","cluster")
m=mstage(Pop,stage=disl,varnames=list("Estrato","ID_IE"),
size=list(size1=table(Pop$Estrato),size=c(20,20,4,4)),method=list("","srswor"))
mues = getdata(Pop,m)[[2]]
mues$w0 = 1/mues$Prob
aa = by(Pop$ID_IE,Pop$Estrato,unique)
aa = [Link](unlist(lapply(aa,length)))
mues$fpc = rep(aa,table(mues$Estrato))
152 CAPÍTULO 5. UNA INTRODUCCIÓN AL MUESTREO COMPLEJO

Note que a la base de datos muestral mues le hemos agregado, los pesos base de muestreo
ω0 y el número de colegios por estrato f pc. Para estimar el rendimiento medio en Ciencia y
Tecnologı́a debemos definir el diseño correspondiente. Ello podrı́a hacerse en R con cualquiera
de los siguientes dos comandos:

(disc0=svydesign(ids=~ID_IE,strata=~Estrato,fpc= ~fpc,data=mues,nest=T))

## Stratified 1 - level Cluster Sampling design


## With (48) clusters.
## svydesign(ids = ~ID_IE, strata = ~Estrato, fpc = ~fpc, data = mues,
## nest = T)

(disc1=svydesign(ids=~ID_IE,strata=~Estrato,data= mues,weights=~w0))

## Stratified 1 - level Cluster Sampling design (with replacement)


## With (48) clusters.
## svydesign(ids = ~ID_IE, strata = ~Estrato, data = mues, weights = ~w0)

La diferencia entre ambos es que el primero respeta estrictamente la forma en que se


obtuvo la muestra; mientras que el segundo considera los mismos pesos de la primera, pero
asume que cada selección de los colegios al interior de los estratos se hace mediante un
MASc; es decir, con reemplazamiento. Dado que los pesos no cambian, ambos nos brindarán
las mismas estimaciones (bajo el estimador de razón), pero no necesariamente los mismos
errores estándar de estimación estimados. Cabe recordar que cada vez que se omite el factor
de corrección para poblaciones finitas fpc en svydesign, uno implı́citamente está asumiendo
un muestreo con reemplazamiento. Al respecto, una pregunta de interés serı́a qué hacer si
deseamos llevar a cabo un esquema sin reemplazamiento en el cual se conozcan los pesos de
muestreo. El paquete survey permite esta posibilidad, pero para ello se deben realizar ciertas
aproximaciones o, en todo caso, debe proveerse al comando svydesign de las probabilidades
de inclusión y de la matriz de probabilidades de inclusión de segundo orden.
Viremos ahora, al otro objetivo de este ejemplo. La estimación del rendimento medio en
Ciencia y Tecnologı́a viene dada por

coef(svymean(~M500_CT,disc1,[Link]=T))

## M500_CT
## 444

Esta estimación es obtenida, precisamente, a través de la función de distribución empı́rica y


el código
5.2. ESTIMADORES NO LINEALES 153

h = by(mues$w0,mues$M500_CT,sum)
Phat = [Link](h/sum(h))
(meanCT = sum([Link](names(h))*Phat))

## [1] 444

Un tratamiento especial se da para el caso de la estimación del cuantil p ∈ [0, 1],

qp = mı́n{y / F (y) ≥ p}.

Si bien podrı́amos sustituir directamente aquı́ F (y) por F̂ (y), resulta más conveniente utilizar
en su lugar una interpolación lineal entre los valores muestrales que tengan una proporción
acumulada cercana a p. Esto nos conlleva al siguiente estimador para el cuantil p:

p − F̂ (y1 )
q̂p = y1 + (y2 − y1 ),
F̂ (y2 ) − F̂ (y1 )

donde y1 es el mayor valor y en la muestra que satisfaga F̂ (y) < p, e y2 es el menor valor y
en la muestra que cumpla F̂ (y) > p.

Ejemplo 5.2. Se desea implementar un programa para adultos mayores de una pequeña
comunidad. El programa se brindará al cuarto superior de las personas de mayor edad, por
lo cual es de interés estimar el cuantil 0.75 de esta población. Si suponemos que las edades
de todos los habitantes de la comunidad, segmentados en distritos, es la que se muestra en
el cuadro 5.1, tome un MASs 10 personas y luego realice un muestreo por conglomerados
bietápico de dos distritos y 10 personas en estos, con un número de USM proporcionales al
tamaño del distrito, a fin de estimar el cuantil requerido bajo ambos diseños. Realice estas
estimaciones con su propia rutina y usando el comando svyquantile del paquete survey.

Distrito A A A A A A A A A A B B B B B B
Edad 20 66 46 61 53 69 50 12 64 46 48 11 38 8 62 51
Distrito B B B B B B B B C C C C C C C C
Edad 38 11 35 65 59 90 19 11 54 56 11 47 54 63 33 17
Distrito C C C C C C C D D D D D D D D D
Edad 72 67 34 47 10 23 52 17 12 20 31 12 48 3 34 37
Distrito D D D D D D D D D D D D D D D D
Edad 1 6 28 11 36 2 10 45 1 10 51 11 18 57 23 17

Cuadro 5.1: Distritos de pertenencia y edades en años de todos los miembros de la comunidad
del ejemplo 5.3

Solución: Luego de crear el data frame Eje3cap5 mediante


154 CAPÍTULO 5. UNA INTRODUCCIÓN AL MUESTREO COMPLEJO

Distrito = c("A", "A","A","A","A","A","A","A","A","A","B","B","B","B","B",


"B","B","B","B","B","B","B","B","B","C","C","C","C","C","C","C","C","C","C",
"C","C","C","C","C","D","D","D","D","D","D","D","D","D","D","D","D","D","D",
"D","D","D","D","D","D","D","D","D","D","D")
Edad = c(20,66,46,61,53,69,50,12,64,46,48,11,38,8,62,51,38,11,35,65,59,90,
19,11,54,56,11,47,54,63,33,17,72,67,34,47,10,23,52,17,12,20,31,12,48,3,34,37,
1,6,28,11,36,2,10,45,1,10, 51,11,18,57,23,17)
Eje3cap5 = [Link](Distrito=Distrito,Edad=Edad)

La estimación del cuantil buscado bajo un MAS se hará mediante

[Link](12345)
N = dim(Eje3cap5)[1]
sampleMASs = Eje3cap5[sample(N,10),]
dise1 = svydesign(id=~1,fpc = rep(N,10),data = sampleMASs)
svyquantile(~Edad,dise1,0.75)

## 0.75
## Edad 45.5

quantile(Eje3cap5$Edad,0.75)

## 75%
## 52.2

Ella nos brinda una estimación bastante pobre del verdadero tercer cuartil que está entre 52
y 53 años. Por otro lado, para la estimación por el diseño bietápico, primero será necesario
definir los pesos de muestreo. Como recordamos, estos serán el producto del peso para la
primera etapa que es 2 por el peso para la segunda etapa que dependerá de los distritos
elegidos. Por las condiciones dadas, los tamaños de muestra posibles para la segunda etapa
los podremos calcular mediante

ms = combn(4,2,function(x){
h = [Link](table(Eje3cap5$Distrito))
round(10*h[c(x[1],x[2])]/sum(h[c(x[1],x[2])]))})
ms

## [,1] [,2] [,3] [,4] [,5] [,6]


## [1,] 4 4 3 5 4 4
## [2,] 6 6 7 5 6 6
5.2. ESTIMADORES NO LINEALES 155

Como se ve, estos son de 4 y 6 residentes casi siempre, salvo que se seleccionen los distritos
A y D o los distritos B y C. Al realizar el muestreo, obtuvimos

[Link](12345)
(s = sample(6,1))

## [1] 5

(m = ms[,s])

## [1] 4 6

los distritos B y D, donde cabe recordar que, en la medida de lo posible, estamos siempre
utilizando la semilla aleatoria 12345 para efectos de reproductibilidad. Esto implica que el
peso 2 de la primera etapa tendrá que multiplicarse por 3.5 para el distrito B y por 4.167
para el distrito D, quedando la muestra final y sus pesos dados por

[Link](12345)
m1 = sample(which(Eje3cap5$Distrito=="B"),4)
m2 = sample(which(Eje3cap5$Distrito=="D"),6)
Muestra2 = cbind(Eje3cap5[c(m1,m2),],Peso = c(rep(7,4),rep(8.33,6)))
(Muestra2 = cbind(Muestra2,fpc1 = rep(4,10),fpc2 = c(rep(14,4),rep(25,6))))

## Distrito Edad Peso fpc1 fpc2


## 21 B 59 7.00 4 14
## 22 B 90 7.00 4 14
## 20 B 65 7.00 4 14
## 23 B 19 7.00 4 14
## 51 D 28 8.33 4 25
## 43 D 31 8.33 4 25
## 47 D 34 8.33 4 25
## 64 D 17 8.33 4 25
## 55 D 10 8.33 4 25
## 59 D 51 8.33 4 25

La estimación pedida, que dejamos para que la trabaje manualmente como ejercicio, se ob-
tendrá finalmente a través de

dise2 = svydesign(ids=~Distrito+Edad,fpc=~fpc1+fpc2,data=Muestra2)
svyquantile(~Edad,dise2,0.75)
156 CAPÍTULO 5. UNA INTRODUCCIÓN AL MUESTREO COMPLEJO

## 0.75
## Edad 52.7

Ella, como se aprecia, nos da una mucho mejor estimación del tercer cuartil pedido. 

5.3. Efectos de diseño y consideraciones prácticas para


obtener tamaños de muestra
Obtener tamaños de muestra en un muestreo complejo es una labor complicada, pues
pocas veces es posible obtener una formulación explı́cita para la varianza del estimador. En
tal situación, como lo sugirió Kish (1965), es mejor usar las estimaciones de los efectos de
diseño.
Como recordamos, el efecto de diseño está definido como el cociente entre la varianza
del estimador bajo un muestreo complejo y la varianza de este estimador bajo un muestreo
aleatorio simple, que según nuestra convención es sin reemplazamiento. En el caso de la
media, este efecto viene dado por
Vmc (Ȳ )
def f = 2 ,
(1 − Nn ) σn
donde Vmc denota la varianza del estimador bajo el muestreo complejo. En la práctica, este
efecto se desconoce al depender de caracterı́sticas poblacionales, pero es factible de estimarse
mediante
f = V̂mc (Ȳ ) 2 .
def
(1 − N̂n ) σ̂n
Claramente, obtener esta cantidad requiere de una estimación de la varianza del estimador
bajo el muestreo complejo, punto que detallaremos en la siguiente sección. Será también ne-
cesario obtener la estimación σ̂ 2 de la varianza de la variable en estudio y. El problema con
esta última es que nosotros no hacemos un MASs sino un muestreo complejo, por lo cual esta
estimación solo debe basarse en este último diseño. Por fortuna, contamos, como lo detalla-
mos en la sección anterior, con una manera de estimar esta varianza basándonos solo en los

datos del muestreo complejo. Si bien esta estimación es en teorı́a: σ̂ 2 = N̂N̂−1 ( y y 2 P̂ (y)− µ̂2 ),

donde µ̂ = y y P̂ (y) y P̂ denota la función de probabilidad empı́rica, uno obtendrá esti-
n
madores más fiables, sobre todo si n es pequeño, si reemplazamos el cociente N̂N̂−1 por n−1 .
Esta es precisamente la metodologı́a utilizada por el paquete survey de R para estimar los
efectos de diseño. El siguiente ejemplo ilustra la estimación de este efecto.

Ejemplo 5.3. Retomemos el ejemplo 5.1 y supongamos que nos piden estimar el efecto de
diseño en la estimación del rendimiento medio en Ciencia y Tecnologı́a. Los códigos del caso
vienen dados por
5.3. EFECTOS DE DISEÑO Y TAMAÑOS DE MUESTRA 157

(mCT = svymean(~M500_CT,disc1,[Link]=T,deff=T))

## mean SE DEff
## M500_CT 443.9 15.5 22.1

o por

h = by(mues$w0,mues$M500_CT,sum)
Phat = [Link](h/sum(h))
(meanCT = sum([Link](names(h))*Phat))

## [1] 444

sum2 = sum([Link](names(h))^2*Phat)
n = sum([Link](mues$M500_CT)==0)
N = sum(h)
sigma2_e = (n/(n-1))*(sum2-meanCT^2)
(deff_e = (SE(mCT)^2)/((1 - n/N)*sigma2_e/n))

## M500_CT
## M500_CT 22.1


Supongamos ahora, asumiendo que contamos con una estimación del efecto de diseño, que
deseamos determinar el tamaño de muestra necesario n a utilizar en un muestro complejo,
de tal manera que el error en la estimación de la media sea no mayor que e con un nivel de
confianza de 100(1 − α) %; es decir:

e = z1− α2 V̂mc (Ȳ ).

De la fórmula para estimar el efecto de diseño podrı́amos, entonces, despejar la estimación


de la varianza V̂mc (Ȳ ) y reemplazarla en esta última para obtener

2
f (1 − n ) σ̂ .
e = z1− α2 def
N̂ n
Ası́, despejando
2
z1− f σ̂ 2 N̂
α def
2
n= .
2
N̂ e2 + z1−  2
α def f σ̂
2

Note que si el tamaño de la población N o N̂ es grande, se tendrá que aproximadamente


f n0 ,
n = def
158 CAPÍTULO 5. UNA INTRODUCCIÓN AL MUESTREO COMPLEJO

donde n0 es el tamaño de muestra para un MASs con poblaciones infinitas. En la práctica,


el cálculo de estos tamaños de muestra debe aún corregirse ante la posibilidad de no res-
puestas. Las tasas de no respuestas tnr son fácilmente estimables de experiencias pasadas
y se miden como la proporción de sujetos en estudio que no respondieron al estudio. Esta
tasa obviamente incrementará el tamaño de muestra anterior y conllevará a un tamaño de
muestra final igual a
n
nf = ,
1 − tnrˆ
siendo tnrˆ la tasa de no respuesta estimada. Ası́, si se calculó n = 500 y se estima una tasa
de no respuesta del 7 %, el tamaño de muestra final que deberı́a considerarse es de nf = 538
unidades.
El desarrollo hasta el momento descrito constituye la metodologı́a más común para el
cálculo de los tamaños de muestra en muestras complejas. El lector interesado puede indagar
esto en diversos estudios. Un ejemplo se puede ver en

[Link]
Informe%20Diseno%20Muestral_Revision_13sep12.pdf.

Este es un informe que describe el diseño muestral de la Encuesta de Caracterización Socio-


económica Nacional (Casen) 2011 realizada en Chile.
Otro punto importante, al planificar una muestra sobre una gran población, es si se
van a considerar dominios de estudio o no. Recordemos que los dominios conforman, en
general, una partición de la población para las que se toman muestras independientes a fin
de controlar la precisión de las estimaciones sobre cada dominio y sobre toda la población.
Calculado el tamaño de muestra para la población, digamos n, una pregunta de interés serı́a
saber cómo distribuir estos en los D dominios de estudio si es que estos existieran. Un criterio
podrı́a ser tomándolos de forma proporcional al tamaño Nd de cada dominio; sin embargo,
ello podrı́a resultar oneroso o producir estimaciones poco confiables en algunos de ellos, con
márgenes de error superiores a los diseñados para el dominio. En su lugar, Bankier (1988)
propuso minimizar alguna función criterio sobre el error relativo que se cometerı́a bajo cierta
asignación. Nosotros extenderemos esta idea considerando también la incorporación de costos
unitarios cd por selección en los dominios y el uso de efectos de diseño. Concretamente, si
estamos interesados en estimar la media de una variable y para la población, buscaremos la
asignación de la muestra total a los dominios que minimize la función
D

(Xdα CV (Ȳd ))2 (5.1)
d=1

o que minimize el costo total de muestreo, sujeto a la condición de que los tamaños de muestra

por dominio nd satisfagan la restricción n = D d=1 nd . Aquı́ Xd denota la importancia del
dominio d, que por lo usual es su tamaño, y α ∈ [0, 1] es un valor que queda a criterio
5.4. ESTIMACIÓN DE LA VARIANZA 159

del investigador y que modela la relevancia de la importancia que se le dé a cada dominio.
Mientras α sea más pequeño, los dominios más pequeños, o de menor importancia, tenderán
a tener una mejor representación. Un valor de compromiso es α = 0.5.
El estimador del coeficiente de variación en (5.1) viene dado por
 
V̂ (Ȳd ) V̂ (Ȳd )
ˆ (Ȳd ) =
CV × 100 = × 100,
µ̂d Ȳd

donde µd es la media poblacional del dominio d y se asume que Ȳd es un estimador insesgado
de µd . El problema con este coeficiente es que si el muestreo es complejo la desviación estándar
de Ȳd es difı́cil de obtener, por lo cual podrı́amos usar los efectos de diseño estimados def ˆf
d
para los dominios a fin de reescribir (5.1) como

D Xdα defˆ f d 2 σ̂ 2
mı́n ( ) (1 − Nndd ) ndd ,
d=1
DȲd (5.2)
s.a. d=1 nd = n

siendo σ̂d2 la varianza estimada en el dominio d. Si se sigue literalmente la prueba de la


proposición 3.2, no es difı́cil mostrar que la solución de (5.2) o de la minimización del costo
total de muestreo, fijado un nivel para (5.1) o para el costo total, viene dado por

α
Xd ˆ f σ̂
def d
√d
Ȳd cd
nd = √ n.
D Xjα ˆ f σ̂
def j j
j=1 √
Ȳj cj

En el caso particular de que los costos de muestreo y efectos de diseño por dominio sean los
mismos, esta fórmula se simplifica a
Xdα σ̂d
Ȳd
nd = D Xjα σ̂j n.
j=1 Ȳj

Obviamente, para calcular esta cantidad será necesario contar con estimaciones de los distin-
tos parámetros y efectos de diseño por dominio, los cuales pueden provenir de algún estudio
pasado o una muestra piloto.

5.4. Estimación de la varianza


Si bien los pesos de muestreo son de gran utilidad para incorporar el diseño en la ob-
tención de la mayorı́a de estimaciones de interés, ellos no nos dicen mucho acerca de sus
varianzas y errores estándar de estimación. En esta sección abordaremos el problema de es-
timar estas varianzas; para ello se han considerado en la literatura dos enfoques: uno clásico
de linealización y otro a través de métodos de remuestreo.
160 CAPÍTULO 5. UNA INTRODUCCIÓN AL MUESTREO COMPLEJO

5.4.1. El método de linealización


Consideremos una población en la que nos interese estimar un parámetro θ expresable
como una función suave (es decir, con derivadas continuas) de q totales de la población; vale
decir,
θ = h(τ1 , τ2 , . . . , τq ).
Si τ̂1 , τ̂2 , . . . , τ̂q son estimadores insesgados de, respectivamente, τ1 , τ2 , . . . , τq , entonces un
estimador natural de θ viene dado por

θ̂ = h(τ̂1 , τ̂2 , . . . , τ̂q ).

Con el fin de encontrar la varianza de este estimador, podemos usar una expansión lineal
basada en el teorema de Taylor y aproximar θ̂ alrededor de su verdadero valor θ mediante
q
 ∂h
θ̂ = h(τ̂1 , τ̂2 , . . . , τ̂q )  h(τ1 , τ2 , . . . , τq ) + (τ̂j − τj ) (τ1 , τ2 , . . . , τq ).
j=1
∂τj

Note que este es un estimador aproximadamente insesgado de θ, ya que τ̂j es un estimador


∂h
insesgado de τj , y que de tomarse aj = ∂τ j
(τ1 , τ2 , . . . , τq ), se cumple que
q

θ̂  θ + aj (τ̂j − τj ).
j=1

Tomándose la varianza a la última expresión se tiene que


q q q
  
V (θ̂)  a2j V ar(τ̂j ) + 2 aj ah Cov(τ̂j , τ̂h ). (5.3)
j=1 j=1 h=j+1

Luego, una estimación de esta varianza puede obtenerse estimando los aj y las varianzas y
covarianzas de los estimadores de los totales.

5.4.2. El estimador de razón y regresión


Como ilustración de la técnica de linealización, pensemos en un estimador que ha sido
recurrentemente utilizado a lo largo del texto. Este viene dado por el cociente o la razón de
la estimación de totales o medias de dos variables x e y
τ̂y Ȳ
θ̂ = =
τ̂x X̄
y por ello recibe el nombre de estimador de razón. La fórmula (5.3) nos provee, entonces, de
la siguiente aproximación para la varianza de este estimador:
 
V (τ̂x ) V (τ̂y ) 2Cov(τ̂x , τ̂y )
V (θ̂) = θ2 + − , (5.4)
τx2 τy2 τx τy
5.4. ESTIMACIÓN DE LA VARIANZA 161

donde el parámetro θ = ττxy = µµxy es el cociente de los totales o medias de las variables x e y
en la población.
En muchos casos es común que el interés al utilizar un estimador de este tipo se centre en
alguna de sus variables; por decir, y, y que la otra variable x actúe como una variable auxiliar
que si estuviera correlacionada con y y su total poblacional τx fuese conocido, nos podrı́a
ser de mucha utilidad para mejorar las estimaciones de la media o del total de y (mediante
τ̂ry = θ̂τx ) e incluso del mismo estimador de razón. El hecho que τx , o la media poblacional
de la potencial variable predictora x, µx , se conozca puede parecer extraño; pero podrı́a
ocurrir (y sucede usualmente) que tal información esté consignada en el marco muestral o
sea de fácil acceso. Puede también ocurrir que se disponga de esta información de un censo
o estudio previo sobre la misma población. Explicitemos seguidamente la varianza de este
estimador en el caso de un MASs de tamaño n de una población de tamaño N . Dado que
µy = θµx , la ecuación (5.4) podrá reescribirse como
 
V (X̄) V (Ȳ ) 2Cov(X̄, Ȳ )
V (θ̂) = θ2 + −
µ2x θ2 µ2x µx θµx
 
1 n σ2 n σy2 n σxy 1 n  
= 2 θ2 (1 − ) x + (1 − ) − 2θ(1 − ) = 2
(1 − ) σy2 + θ2 σx2 − 2θσxy
µx N n N n N n nµx N
Ası́, un estimador de esta varianza puede obtenerse mediante
1 n
V̂ (θ̂) = 2
(1 − )(Sy2 + θ̂2 Sx2 − 2θ̂Sxy ),
nµx N

o, alternativamente, de definirse ẑi = yi − θ̂xi , mediante


1 n σ̂ 2
V̂ (θ̂) = 2
(1 − ) z , (5.5)
µx N n
1
N
donde σ̂z2 = n−1 ˆ2 ˆ
i=1 (ẑi − z̄ ) δi y z̄ es la media muestral de los ẑi . En ambas expresiones, si
la media poblacional µx no se conociese, ella podrı́a reemplazarse por X̄.
Es interesante observar que podrı́amos haber también deducido la varianza del estimador
de razón, si hubiéramos considerado que el sesgo del estimador puede aproximarse por
Ȳ − θX̄ Ȳ − θX̄
θ̂ − θ =  .
X̄ µx
1
Luego, al tomársele la varianza a esta expresión se obtiene la aproximación V (θ̂) = µ2x
V (Z̄) =
1 n σz2
µ2x
(1 − ) ,
N n
donde σz2 denota la varianza de los zi = yi − θxi en la población y Z̄ = Ȳ − θX̄.
En un MAE, el argumento anterior requiere de cierto cuidado. La mayorı́a de softwares
estadı́sticos y textos en la literatura sugieren utilizar un estimador de razón combinado, esto
es, un estimador de la forma H Nh
Ȳ Ȳh
θ̂ = = Hh=1 NN ,
X̄ h=1 N X̄h
h
162 CAPÍTULO 5. UNA INTRODUCCIÓN AL MUESTREO COMPLEJO

el cual difiere de uno separado en que los ratios por estrato se promedian ponderadamente
 H Nh Ȳh
a través de θ̂s = H Nh
h=1 N θ̂h = h=1 N X̄h . Una comparación entre estos estimadores puede
revisarse en Cochran (1977). Nosotros, a falta de aclaración, utilizaremos siempre el primero.
La varianza aproximada del estimador de razón combinado se puede obtener por un argu-
mento similar al del MASs; esto es, tomándose la varianza a la siguiente aproximación del
sesgo del estimador
H N h H Nh
Ȳ − θX̄ h=1 N (Ȳh − θ X̄h ) (Ȳh − θX̄h )
θ̂ − θ = =  h=1 N .
X̄ X̄ µx
Ası́, uno obtiene que aproximadamente
H
1  Nh 2 2
nh σhz
V (θ̂) = ( ) (1 − ) , (5.6)
µ2x h=1 N Nh n h
 h
2
siendo σhz = Nh1−1 N 2
i=1 (zhi − µhz ) la varianza de todos los zhi = yhi − θxhi en el estrato h.
Un estimador de esta última varianza viene dado por
H
1  Nh 2 2
nh σ̂hz
V̂ (θ̂) = ( ) (1 − ) , (5.7)
µ2x h=1 N Nh n h
 h
2
siendo σ̂hz = Nh1−1 N 2
i=1 (zhi − µhz ) δhi la varianza muestral de todos los zhi = yhi − θ̂xhi , con
i = 1, 2 . . . , nh , en el estrato h. Similarmente, de no conocerse µx , este podrı́a reemplazarse
por X̄.

5.4.3. Métodos de remuestreo


Otro enfoque para la estimación de varianzas se basa en el uso de técnicas de remuestreo.
La idea aquı́ es obtener varias estimaciones del parámetro de interés θ mediante replicación
de partes comparables de la muestra original y usar la variabilidad de tales estimaciones
para estimar la varianza del estimador θ.
Para tener una idea de cómo funciona ello consideremos m estimadores insesgados y no
correlacionados θ̂1 , θ̂2 , . . . , θ̂m de θ. La media aritmética de estos estimadores
m
1 
θ̄ = θ̂r
m r=1

es claramente otro estimador insesgado de θ, y su varianza viene dada por


m
1 
V (θ̄) = V (θ̂r ).
m2 r=1

La siguiente proposición nos brinda un estimador insesgado de esta varianza.


5.4. ESTIMACIÓN DE LA VARIANZA 163

Proposición 5.1. Un estimador insesgado de V (θ̄) viene dado por


 m
1
V̂ (θ̄) = (θ̂r − θ̄)2 .
m(m − 1) r=1

Demostración: Tomándose el valor esperado al estimador propuesto, se tiene que


 m
1
E(V̂ (θ̄)) = E((θ̂r − θ̄)2 ).
m(m − 1) r=1

Restando y sumando θ al interior del valor esperado a derecha resulta que

E((θ̂r − θ̄)2 ) = E((θ̂r − θ)2 ) + E((θ̄ − θ)2 ) − 2E((θ̂r − θ)(θ̄ − θ))


m m
1  1  2
= V (θ̂r ) + V (θ̄) − 2Cov(θ̂r , θ̂r ) = V (θ̂r ) + 2 V (θ̂r ) − V (θ̂r ).
m r=1 m r=1 m
Ası́,
m m m
1 2  1  1 
E(V̂ (θ̄)) = ((1 − ) V (θ̂r ) + V (θ̂r )) = 2 V (θ̂r ) = V (θ̄). 
m(m − 1) m r=1 m r=1 m r=1

Exploraremos seguidamente tres de las técnicas de remuestreo más utilizadas: el muestreo


por mitades balanceadas o BRR (de balanced repeated replication), el método Jacknife y el
método Bootstrap.

5.4.4. El muestreo por mitades balanceado


Esta técnica es aplicable, en principio, a diseños estratificados en donde se seleccionan
al azar y con reemplazamiento nh = 2 unidades primarias (usualmente conglomerados) de
las Nh en cada estrato h. Ella fue propuesta por McCarthy (1969), quién se inspiró en los
diseños multifactoriales propuestos por Plackett y Burman (1946). Si H denota el número
de estratos y el interés radica en estimar la media poblacional µ, sabemos por lo estudiado
en el capı́tulo 3 que el estimador insesgado de este viene dado por
H
 Nh
Ȳst = Ȳh ,
h=1
N
H 1
donde N = h=1 Nh , Ȳh = 2 (Yh1 + Yh2 ) e Yh1 , Yh2 denotan el valor que tendrá y en las
unidades seleccionadas del estrato h, las que, sin pérdida de generalidad, asumiremos que
son secuencialmente tomadas. Recordemos también que el estimador natural de la varianza
de este estimador viene dado por
H H
Nh 2 Sh2 1  Nh 2 2
V̂ (Ȳst ) = ( ) = ( ) Dh ,
h=1
N 2 4 h=1 N
164 CAPÍTULO 5. UNA INTRODUCCIÓN AL MUESTREO COMPLEJO

donde Dh = Yh1 − Yh2 .


Note que Ȳst puede también escribirse como Ȳst = 12 (Ȳst,r + Ȳst,rc ), donde Ȳst,r =
 H Nh H Nh
h=1 N Yh1 e Ȳst,rc = h=1 N Yh2 son también estimadores insesgados e independientes
de µ. En tal sentido, podrı́amos invocar la proposición 5.1 y obtener el siguiente estimador
insesgado de V (Ȳst ):
1 1
V̂r (Ȳst ) = ((Ȳst,r − Ȳst )2 + (Ȳst,rc − Ȳst )2 ) = (Ȳst,r − Ȳst )2 = (Ȳst,r − Ȳst,rc )2 . (5.8)
2 4

Como se ve, este estimador es más simple que V̂ (Ȳst ), pero menos eficiente. A fin de mejorar
su eficiencia optaremos por considerar la metodologı́a de replicación por mitades. La idea
es generar réplicas al dividir la muestra tomada en dos mitades, las cuales estamos deno-
tando por r y rc. Estas réplicas se construyen asignando una de las dos unidades primarias
seleccionadas de cada estrato a la primera mitad y dejando la unidad primaria restante pa-
ra la otra mitad. Observe que existen un total de 2H asignaciones posibles o réplicas por
mitades como esta. De modo resumido, el muestreo por mitades balanceados o BBR nos
brindará un estimador de V (Ȳst ) resultante de promediar los estimadores (5.8) para todas
las distintas réplicas (o como más delante veremos, para un subconjunto apropiado de ellas).
Este estimador viene dado por
2 H 2 H
1  1 
V̂BRR (Ȳst ) = H V̂r (Ȳst ) = H (Ȳst,r − Ȳst )2 . (5.9)
2 r=1 2 r=1

Ejemplo 5.4. Para una mejor comprensión consideremos el siguiente ejemplo de un MAE
con 4 estratos, en el que se han observado los siguientes resultados:

Estrato (h) Tamaño del estrato (Nh ) yh1 yh2 ȳh dh = yh1 − yh2
1 300 235 179 185 56
2 100 525 483 504 42
3 50 950 1350 1150 - 400
4 200 759 990 875 -231

Trabajando con una precisión de tres decimales, la media estimada de la población resulta
ser ȳst =530.615; mientras que la estimación de la varianza V (Ȳst ) por MAE resulta ser
1677.112. Este será nuestro valor de referencia. Lo primero a notar es que la estimación
(5.8) nos da un valor de 1208.899 que es distinto a 1677.112. El número de réplicas por
mitades para este problema es 24 = 16, siendo una réplica distinta a la anterior, por ejemplo,
{y11 , y21 , y32 , y42 } = {235, 525, 1350, 990} para la primera mitad, que aquı́ la denotaremos por
A. A la otra mitad la denotaremos por B. Con esta réplica, la estimación (5.8) resulta ser
4499.314. Como se aprecia, hay bastante diferencia en esta estimación con la de la réplica
anterior y son, precisamente, estas distintas estimaciones las que nos permitirán obtener
una mejor estimación de V (Ȳst ) al promediarlas como en (5.9). La figura 5.1 muestra las 16
5.4. ESTIMACIÓN DE LA VARIANZA 165

!"#$ % &% '%( '%) '*$+% ,% &%-&


( ( .// ).0 (12 )/1 03 /453)
) ) (// 0)0 56. 0/5 5) /4(05 789":$,;+<=#>8"=;<,?<#$<:?,"$<@< 0./43(0
. . 0/ 20/ (A.0/ (A(0/ B5// /4/11
5 0 )// 102 22/ 610 B).( /4./6
0 789":$,;+ 30/ 5204653 0304.60
3 ,?<#$<C$+"$DE$<FG7 (3114(()
1 ,?<#$<C$+"$DE$<=;D<HD$<+IJ#"=$ ()/64622
6
2 KIJ#"=$8
(/ 789+$9;8 ( ) . 5 0 3 1 6 2 (/ (( () (. (5 (0 (3
(( ( ( ( ( ( B( ( ( B( ( B( B( ( B( B( B( B(
() ) ( ( ( B( ( ( B( B( B( ( ( B( ( B( B( B(
(. . ( ( B( ( ( B( B( ( ( ( B( B( B( ( B( B(
(5 5 ( B( ( ( ( B( ( ( B( B( ( B( B( B( ( B(
(0 789+$9;8
(3 ( ).0 ).0 ).0 ).0 (12 ).0 ).0 (12 ).0 (12 (12 ).0 (12 (12 (12 (12
(1 ) 0)0 0)0 0)0 56. 0)0 0)0 56. 56. 56. 0)0 0)0 56. 0)0 56. 56. 56.
(6 . 20/ 20/ (.0/ 20/ 20/ (.0/ (.0/ 20/ 20/ 20/ (.0/ (.0/ (.0/ 20/ (.0/ (.0/
(2 5 102 22/ 102 102 102 22/ 102 102 22/ 22/ 102 22/ 22/ 22/ 102 22/
)/
)( F?,"$<+IJ#"=$<:"9$,
)) G 5204653 03342). 0)343(0 5624.60 51/4/// 021432) 0)/4(05 53.40.6 03/453) 05(4/11 0//4132 02(4).( 01(4653 0.543(0 5254./6 0304.60
). L 0304.60 5254./6 0.543(0 01(4653 02(4).( 53.40.6 05(4/11 021432) 0//4132 0)/4(05 03/453) 51/4/// 5624.60 0)343(0 03342). 5204653
)5 C+ ()/64622 (.(64)52 (34/// (3224213 .3154))0 55224.(5 (/24555 55224.(5 62/412. (/24555 62/412. .3154))0 (3224213 (34/// (.(64)52 ()/64622
)0 0./43(0
)3 C$+LKK<@< (3114(()

Figura 5.1: Muestreo por mitades balanceado para cuatro estratos


166 CAPÍTULO 5. UNA INTRODUCCIÓN AL MUESTREO COMPLEJO

réplicas por mitades existentes para este problema, donde en la fila 24 se tiene la estimación
(5.8) para cada réplica. En la fila 25 se aprecia que el promedio de las medias para las réplicas
de la mitad A coincide con la estimación por MAE de la media y, lo más sorprendente, el
promedio (5.9) de las varianzas para las 16 réplicas es exactamente igual al valor de referencia
en la estimación por el MAE. 

Con el fin de generalizar los resultados del ejemplo anterior, introduzcamos para cada
réplica r la variable auxiliar δhr , que toma el valor 1 si la unidad Yh1 del estrato h está en la
primera mitad de esta réplica. En caso contrario, δhr valdrá 0. Ası́, el estimador de la media
poblacional para la r-ésima réplica en su primera mitad viene dado por
H
 Nh
Ȳst,r = (Yh1 δhr + Yh2 (1 − δhr )).
h=1
N

Definamos ahora la variable aleatoria



(r) 1 si Yh1 está en la mitad A de la réplica r
δh = 2δhr − 1 =
−1 si Yh2 está en la mitad A de la réplica r

 2H (r)
Note que estas variables satisfacen por construcción que r=1 δh =0y

2H
 (r) (r)
δh δ = 0 (5.10)
r=1

para cualesquiera de los estratos h =  en la población. Más aún, se cumple que


H
 Nh (r) Dh
Ȳst,r − Ȳst = δh .
h=1
N 2

Estamos ya entonces en condiciones de establecer la siguiente proposición que formaliza lo


visto en nuestro ejemplo.

Proposición 5.2. En un MAE con reemplazamiento de dos unidades seleccionadas por


estrato se cumple que

a)
2 H
1 
Ȳst,r = Ȳst
2H r=1

b)
V̂BRR (Ȳst ) = V̂ (Ȳst )
5.4. ESTIMACIÓN DE LA VARIANZA 167

Demostración: Puesto que


2 H

δhr = 2H−1 ,
r=1

se tiene que

2 H H 2 H 2 H H
1  1  Nh 
H
  Yh1 + Yh2
H
Ȳ st,r = H
(Y h1 ( δ hr ) + Yh2 (2 − δ hr )) = ( ) = Ȳst .
2 r=1 2 h=1 N r=1 r=1 h=1
2

Más aún,
H H H
Nh D2   Nh N (r) (r) Dh D
(Ȳst,r − Ȳst )2 = ( )2 h + δ δ
h=1
N 4 h=1 =1
N N h  2
=h

y, por tanto, podemos escribir (5.9) como

2 H 2 H
1  1 
V̂BRR (Ȳst ) = V̂ r ( Ȳst ) = (Ȳst,r − Ȳst )2
2H r=1 2H r=1

H H H 2 H
 Nh D2 1   Nh N Dh D  (r) (r)
= ( )2 h + H ( δh δ )
h=1
N 4 2 h=1 =1 N N 2 r=1
=h

Consecuentemente, una aplicación directa de (5.10) nos conduce a que


H
1  Nh 2 2
V̂BRR (Ȳst ) = ( ) Dh = V̂ (Ȳst ). 
4 h=1 N

Claramente, una desventaja del estimador BRR es que cuando H es grande, este resulta
inmanejable. Afortunadamente, es posible mostrar que para algunos valores de H, en concreto
para valores enteros múltiplos de 4, una selección adecuada de tan solo k = H de estas
réplicas nos permitirá obtener exactamente el mismo estimador V̂ (Ȳst ) que si consideramos
todas las 2H réplicas. Como la ecuación (5.10) y la demostración de la proposición anterior
lo sugieren, para este subconjunto de k réplicas se deberá cumplir que
k
 (r) (r)
δh δ = 0,
r=1

cualesquiera sean los estratos h =  en la población. En tal caso se dice que las réplicas están
en balance ortogonal, ya que la matriz cuadrada de orden H × H, [δhr ], llamada también
matrix de Hadamard, es ortogonal. Estas matrices se encuentran tabuladas en distintos
textos y se conjetura que existen para todo orden múltiplo de 4; siendo la de orden 200 la
mayor hasta el momento construida.
168 CAPÍTULO 5. UNA INTRODUCCIÓN AL MUESTREO COMPLEJO

Ejemplo 5.5. Mostraremos para el ejemplo 5.4. un balance ortogonal con H = 4 estratos.
Este y su estimación se muestran a continuación:

Réplicas Réplicas
Estratos 1 2 3 4 1 2 3 4
1 1 1 1 1 235 235 235 235
2 1 -1 1 -1 525 483 525 483
3 1 1 -1 -1 950 950 1350 1350
4 1 -1 -1 1 759 990 990 759
Media primera mitad 495.846 560.462 597.692 520.154
d2h 1208.899 890.793 4499.314 109.444
Varianza estimada BRR = 1677.112

Como se aprecia, la varianza estimada de la media bajo estas 4 réplicas coincide con
la estimación de referencia del MAE. La implementación en R del método BRR para este
ejemplo viene dada por

mR = [Link](y = c(235,525,950,759,179,483,1350,990),
Estrato = rep(1:4,2),Nh = rep(c(300,100,50,200),2))
mR$w = mR$Nh/2
(dism = svydesign(ids=~1, strata=~Estrato,weights =~w,data=mR))

## Stratified Independent Sampling design (with replacement)


## svydesign(ids = ~1, strata = ~Estrato, weights = ~w, data = mR)

# Convirtiendo el dise~
no para remuestreo
(dBRR = [Link](design=dism,type="BRR"))

## Call: [Link](design = dism, type = "BRR")


## Balanced Repeated Replicates with 8 replicates.

(mm = svymean(~y,design=dBRR))

## mean SE
## y 531 41

# Varianza estimada
SE(mm)^2

## [1] 1677


5.4. ESTIMACIÓN DE LA VARIANZA 169

Observaciones:

En la práctica, el número de estratos H no necesariamente es múltiplo de 4, por lo


cual la existencia de una matriz de Hadamard no está garantizada. Afortunadamente,
se pueden implementar sobre la base de los diseños de Plackett y Burman (1946) y,
tal como se hace en R, algoritmos que generan un número k de réplicas igual al menor
múltiplo de 4 que sea mayor que H, generándose con ellas una matriz de pesos de réplica
de orden H × k, cuyas columnas no necesariamente son ortogonales, pero satisfacen
aun la propiedad de brindar la correcta estimación de la varianza.

El tamaño de muestra de unidades primarias por estrato no necesita ser exactamente


nh = 2. Si este fuera el caso, se podrı́a forzar la situación anterior segmentando, por
ejemplo, el estrato h en estratos artificiales de, aproximadamente, igual tamaño y
tomándose luego al azar y con reemplazamiento 2 de estos pseudoestratos.

Si bien el método BRR nos brinda una estimación exacta en la estimación de la va-
rianza de estimadores como la media o el total, bajo reemplazamiento, esto solo se
cumplirá aproximadamente para otros estimadores no lineales θ̂. El cómputo del esti-
mador para cada réplica r se hace en la práctica con los pesos de réplica, los cuales
ajustan a los pesos de muestreo ω. El ajuste para toda unidad i seleccionada en el
estrato h se hace mediante

2ωhi si la unidad i está en la primera mitad de la réplica r
ωhi (r) =
0 en caso contrario,

desde que existe igual probabilidad de que la unidad i sea asignada o no a la primera
mitad. Estos pesos se usan luego para construir la correspondiente función de proba-
bilidad empı́rica y el estimador θ̂(r) que tiene la misma forma que θ̂, pero con pesos
distintos. El estimador de varianza BRR para la varianza de θ̂ viene, similarmente a
(5.9), dado por
k
1
V̂BRR (θ̂) = (θ̂(r) − θ̂)2 . (5.11)
k r=1

Cabe comentar que el código del ejemplo 5.5 ha usado el comando [Link] a fin
de convertir el diseño original en uno de remuestreo. Alternativamente, uno podrı́a definir
de forma directa el diseño de remuestreo con el comando svrepdesign. Ello es útil cuando
la base de datos incluye como información los pesos de réplica y los pesos de muestreo. Los
pesos de muestreo se usan para el cálculo del estimador puntual y los de réplica para el de
su varianza. Los pesos de réplicas en el ejemplo 5.5 pueden obtenerse mediante
170 CAPÍTULO 5. UNA INTRODUCCIÓN AL MUESTREO COMPLEJO

(Wr = weights(dBRR))

## [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8]


## [1,] 2 0 2 0 2 0 2 0
## [2,] 2 2 0 0 2 2 0 0
## [3,] 2 0 0 2 2 0 0 2
## [4,] 2 2 2 2 0 0 0 0
## [5,] 0 2 0 2 0 2 0 2
## [6,] 0 0 2 2 0 0 2 2
## [7,] 0 2 2 0 0 2 2 0
## [8,] 0 0 0 0 2 2 2 2

Note aquı́ que solo se muestran los pesos de réplica sin el ajuste a los pesos. Esta matriz es
siempre de orden 2H × k, pues contiene en las columnas las réplicas ortogonales o generadas
por R (véase la primera observación); y, en las filas, las unidades consideradas para ambas
mitades. Si deseamos utilizar el comando svrepdesign para obtener los mismos resultados
que en el ejemplo 5.5, podrı́amos escribir indistintamente cualquiera de las siguientes lı́neas:

(dBRRa<-svrepdesign(data=mR,type="BRR",repweights=Wr,weights=~w,
[Link]=FALSE))

## Call: [Link](data = mR, type = "BRR", repweights = Wr,


## weights = ~w, [Link] = FALSE)
## Balanced Repeated Replicates with 8 replicates.

(dBRRb<-svrepdesign(data=mR, type="BRR", repweights=Wr*mR$w,weights=~w))

## Call: [Link](data = mR, type = "BRR", repweights = Wr *


## mR$w, weights = ~w)
## Balanced Repeated Replicates with 8 replicates.

donde en el segundo caso los pesos se dan en su forma ajustada o combinada ωhi (r). En
efecto, se cumple que

svymean(~y,dBRRa)

## mean SE
## y 531 41

svymean(~y,dBRRb)
5.4. ESTIMACIÓN DE LA VARIANZA 171

## mean SE
## y 531 41

brindan las mismas estimaciones que las obtenidas en el ejemplo 5.5. Estos resultados podrı́an
también obtenerse sin usar el paquete survey. Si empleamos las mismas réplicas aquı́ utili-
zadas, el código correspondiente serı́a

mRB = cbind(mR,Wr) # Base de datos con pesos de replica


mer = 0
for(i in 1:8){
r = by(mRB$w*mRB[,4+i],mRB$y,sum)
Phat = [Link](r/sum(r))
mer[i] = sum([Link](names(r))*Phat)}
c(mean(mer),sqrt(mean((mer-mean(mer))^2)))

## [1] 531 41

Una limitación de la metodologı́a BRR es que una de las muestras por mitades es siempre
eliminada al formar una réplica. Ello podrı́a ocasionar inestabilidad en la estimación de la
varianza del estimador en el caso de que se consideren, por ejemplo, dominios de estudio,
pues podrı́a ocurrir que todo el dominio ocurra precisamente en las mitad eliminada de
una réplica particular. Para evitar situaciones como esta, Fay (1984) y Dippo et al. (1984)
propusieron modificar el método incluyendo todas las observaciones en cada réplica mediante
la asignación de pesos de réplica ωhi (r) = (2−ρ)ωhi , si la unidad i del estrato h es seleccionada
en la primera mitad de la réplica r, y pesos ωhi (r) = ρωhi , en caso contrario. Aquı́ ρ ∈ [0, 1[
es un parámetro por fijar, siendo ρ = 0.3 una elección común.
Diversas extensiones de la metodologı́a BRR puede consultarse en Wolter (2007). Allı́ se
estudia, por ejemplo, cómo modificar el remuestreo si la selección se hace sin reemplaza-
miento, cómo seleccionar más de dos unidades primarias por estrato y cómo adaptar estos
procedimientos a diversos esquemas de muestreo complejo.

5.4.5. El método Jackknife


Esta técnica, introducida inicialmente por Quenouille (1949) para la reducción de sesgo
en series temporales y desarrollada posteriormente por Tukey (1958), consiste en particionar
la muestra de tamaño n en J grupos y estimar igual cantidad de veces el parámetro de interés
θ después de haberse eliminado o cortado en cada ocasión a uno de los grupos. La variabi-
lidad entre estas estimaciones pueden entonces usarse luego para estimar la variabilidad del
estimador original propuesto para θ.
172 CAPÍTULO 5. UNA INTRODUCCIÓN AL MUESTREO COMPLEJO

Como ejemplo, consideremos un diseño multietápico estratificado con H estratos y en


los que se seleccionen con reemplazamiento nh UPM de cada estrato h. Si θ es el parámetro
de interés y θ̂ su estimador basado en la totalidad de la muestra, denotemos por θ̂(hj) al
estimador de θ basado en la muestra luego de omitir a (toda) la UPM j del estrato h. El
estimador Jackknife de la varianza de θ̂ viene dado por

H
 nh
nh − 1 
V̂JKn (θ̂) = (θ̂(hj) − θ̂)2 . (5.12)
h=1
nh j=1

En la práctica, este estimador se calcula con los pesos de réplica. Si se remueve la UPM j
para formar la réplica (hj) en el estrato h y ωi0 es el peso (base) de una unidad no primaria
i, entonces los pesos de réplicas ajustan estos mediante


 0 si i está en la UPM j del estrato h
nh
ωi(hj) = ω0
nh −1 i
si i está en el estrato h pero no en la UPM j

 ωi0 si i no está en el estrato h

Estos pesos ajustados se emplean luego para construir la correspondiente función de proba-
bilidad empı́rica y el cálculo de θ̂(hj) . Finalmente, estos pesos se reemplazan en (5.12) para
calcular la estimación de la varianza.
Cabe comentar un caso particular del estimador Jacknife al que se suele denotar en R por
JKn; este es el no estratificado JK1 que se obtiene cuando H = 1. Para este, el estimador
toma la forma
n
n−1
V̂JK1 (θ̂) = (θ̂(j) − θ̂)2 .
n j=1

En el caso de la estimación de la media θ = µ mediante un MASc, se tiene que para θ̂ = Ȳ


1
n 1
se cumple que θ̂(j) = n−1 i=j Yi = Ȳ − n−1 (Yj − Ȳ ). Ası́,

n
n−1 1 S2
V̂JK1 (Ȳ ) = (Ȳ − (Yj − Ȳ ) − Ȳ )2 = ,
n i=1 n−1 n

el cual es, por las proposiciones 2.1 y 2.2, el estimador natural insesgado de la varianza de
Ȳ en un MASc, y de allı́ la inclusión del término n−1
n
en el estimador.

Ejemplo 5.6. Para ilustrar esta técnica y compararla con la anterior retomemos el MAE
del ejemplo 5.4 para el cual creamos en el ejemplo 5.5 el diseño dism. Este diseño clásico
se podrá convertir en uno de remuestreo Jackknife y nos calculará el estimador (5.12) para
la media mediante
5.4. ESTIMACIÓN DE LA VARIANZA 173

(dJKn = [Link](design=dism,type="JKn"))

## Call: [Link](design = dism, type = "JKn")


## Stratified cluster jackknife (JKn) with 8 replicates.

(mm = svymean(~y,design=dJKn))

## mean SE
## y 531 41

# Estimacion (5.12)
SE(mm)^2

## [1] 1677

Al igual que con el método BRR, dos maneras alternativas de obtener esta estimación
serán con el comando svrepdesign o programándola directamente en R a través del desa-
rrollo anterior. Los códigos son:

# Pesos no ajustados de replicas con Jackknife


(Wr = weights(dJKn))

## [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8]


## [1,] 0 2 1 1 1 1 1 1
## [2,] 1 1 0 2 1 1 1 1
## [3,] 1 1 1 1 0 2 1 1
## [4,] 1 1 1 1 1 1 0 2
## [5,] 2 0 1 1 1 1 1 1
## [6,] 1 1 2 0 1 1 1 1
## [7,] 1 1 1 1 2 0 1 1
## [8,] 1 1 1 1 1 1 2 0

(dJKna<-svrepdesign(data=mR,type="JKn",repweights=Wr,weights=~w,scale=1,
rscales=0.5,[Link]=FALSE))

## Call: [Link](data = mR, type = "JKn", repweights = Wr,


## weights = ~w, scale = 1, rscales = 0.5, [Link] = FALSE)
## Stratified cluster jackknife (JKn) with 8 replicates.

(dJKnb<-svrepdesign(data=mR, type="JKn",repweights=Wr*mR$w,weights=~w,
scale=1,rscales=0.5))
174 CAPÍTULO 5. UNA INTRODUCCIÓN AL MUESTREO COMPLEJO

## Call: [Link](data = mR, type = "JKn", repweights = Wr *


## mR$w, weights = ~w, scale = 1, rscales = 0.5)
## Stratified cluster jackknife (JKn) with 8 replicates.

svymean(~y,dJKna)

## mean SE
## y 531 41

svymean(~y,dJKnb)

## mean SE
## y 531 41

mRJ = cbind(mR,Wr) # Base con los pesos de replica


mer = 0
for(i in 1:8){
r = by(mRJ$w*mRJ[,4+i],mRJ$y,sum)
Phat = [Link](r/sum(r))
mer[i] = sum([Link](names(r))*Phat)}
c(mean(mer),sqrt(sum((mer-mean(mer))^2)/2))

## [1] 531 41

5.4.6. El método Bootstrap


Esta es una técnica de remuestreo cuya lógica subyace en pensar la muestra como una
población de la cual se extraen un gran número de submuestras bajo reemplazamiento, a
las que llamamos réplicas. Estas réplicas finalmente se usan para estimar la varianza del
estimador.
Existen distintas variantes de este método para poblaciones finitas; pero solo algunas
como la de Rao y Wu (1988), que aquı́ discutiremos, están implementadas en un software
estadı́stico. Esta variante se aplica en la estimación de un parámetro θ mediante un estimador
θ̂, no necesariamente lineal, bajo una muestra por conglomerados estratificada. Se recomienda
usar entre R = 500 y R = 1000 réplicas y el método sigue los siguientes pasos:

1. Para cada estrato, seleccionar las R réplicas mediante un MASc de nh − 1 UPM a


partir de la muestra inicial de tamaño nh de cada estrato h. Sea mhj (r) el número
de veces que la j-ésima UPM del estrato h es seleccionado en la réplica r.
5.4. ESTIMACIÓN DE LA VARIANZA 175

2. Para cada réplica r = 1, 2, . . . , R y para cada unidad i tomada de la UPM j del


estrato h, reajustar los pesos como
0 nh
ωhji (r) = ωhji × mhj (r),
nh − 1
0
donde ωhji es el peso base para la unidad i perteneciente a la UPM j del estrato h.

3. Calcular el estimador θ̂r∗ para la r-ésima réplica usando los pesos ωhji (r).

4. El estimador de varianza bootstrap viene dado por


R
1  ∗
V̂B (θ̂) = (θ̂ − θ̂)2 .
R − 1 r=1 r

Una de las ventajas de este método recae en su propiedad de generar aproximadamente la


distribución de θ̂, lo cual nos permitirá determinar intervalos de confianza en forma directa.
Para obtener un intervalo de confianza al 95 % podrı́amos, por ejemplo, considerar tan solo
los percentiles 2.5 y 97.5 a partir de θ̂1∗ , θ̂2∗ , . . . , θ̂R

. Otras técnicas alternativas para obtener
estos intervalos pueden encontrarse en Efron y Tibshirani (1993).

Ejemplo 5.7. Con el propósito de ilustrar y comparar los diferentes métodos de estimación
de la varianza mostrados, consideraremos el problema de la estimación de la varianza del
rendimiento medio en Matemáticas para la DRE Amazonas en la ECE 2019 bajo un muestreo
aleatorio por conglomerados estratificado. Para tal efecto, usaremos los mismos estratos que
en el ejemplo 5.1 y seleccionaremos dos conglomerados (colegios) por estrato. Seguidamente
se muestran los códigos

Pop = ece19Am
Pop$Estrato=interaction(Pop$area,Pop$gestion2)
Pop = Pop[order(Pop$Estrato),]
[Link](12345)
m=mstage(Pop,stage=list("stratified","cluster"),varnames=list("Estrato","ID_IE")
,size=list(size1=table(Pop$Estrato),size2 =c(2,2,2,2)),method=list("","srswor"))
mues = getdata(Pop,m)[[2]]
mues$w0 = 1/mues$Prob

Comparemos ahora las estimaciones del rendimiento medio en Matemáticas en Amazonas


y de sus errores estándar de estimación bajo los cuatro métodos desarrollados.

dis19 = svydesign(id=~ID_IE, strata=~Estrato, nest=T,data=mues, probs=~Prob)


#Estimación por el método de linealización
176 CAPÍTULO 5. UNA INTRODUCCIÓN AL MUESTREO COMPLEJO

r1 = svymean(~M500_CT,design=dis19,[Link]=T)
# Estimación BRR
brr19 = [Link](design=dis19,type="BRR")
r2 = svymean(~M500_CT,design=brr19,[Link]=T)
#Estimación Jacknife
jkn19 = [Link](design=dis19,type="JKn")
r3 = svymean(~M500_CT,design=jkn19,[Link]=T)
#Estimación Bootstrap
boot19 = [Link](design=dis19,type="subbootstrap",replicates=1000)
r4 = svymean(~M500_CT,design=boot19,[Link]=T)
list(r1,r2,r3,r4)

## [[1]]
## mean SE
## M500_CT 520 18.2
##
## [[2]]
## mean SE
## M500_CT 520 18.2
##
## [[3]]
## mean SE
## M500_CT 520 18.3
##
## [[4]]
## mean SE
## M500_CT 520 18.6

5.5. Una introducción al análisis estadı́stico con mues-


tras complejas
Hasta el momento hemos estudiado algunos estimadores puntuales de una variable. En
una encuesta, sin embargo, uno no solo está interesado en cuestiones univariadas, sino en
estudiar las distintas relaciones que se pudieran dar entre las variables incluidas en la en-
cuesta. En esta sección exploraremos tres de las áreas de mayor relevancia en el estudio de
estas relaciones: el análisis de datos categóricos, el análisis de regresión y la comparación de
5.5. INTRODUCCIÓN AL ANÁLISIS CON MUESTRAS COMPLEJAS 177

una o más poblaciones

5.5.1. Análisis de datos categóricos con muestras complejas


Ya vimos que una distribución fundamental para el análisis de datos categóricos (es
decir, de variables que solo pueden medirse en escala nominal u ordinal, como género, reli-
gión, ansiedad, nivel socioeconómico, etc.) es la distribución multinomial. Hipótesis sobre los
parámetros de esta distribución se pueden traducir en distintos procedimientos estadı́sticos
como las pruebas de independencia, la igualdad de proporciones o las pruebas de bondad de
ajuste.
Si (X1 , X2 , . . . , Xk ) ∼ M ul(n, p1 , p2 , . . . , pk ), la prueba asintótica estándar para contras-
tar a nivel α
H0 : p1 = p01 , p2 = p02 , . . . , pk = p0k vs H1 : ∃i / pi = p0i

donde los valores p01 , . . . , p0k son conocidos, es la prueba chi-cuadrado, cuya región crı́tica o
de rechazo para H0 viene dada por

k
 (xi − E 0 )2 i
RC: U0 = > χ21−α (k − 1),
i=1
Ei0

donde xi es el valor observado de Xi y Ei0 = np0i su frecuencia esperada bajo H0 . En


muchas situaciones, sin embargo, las probabilidades pi no son directamente especificadas
en la hipótesis nula y dependen de otros parámetros poblacionales que requieren estimarse.
Uno de estos casos se da en los contrastes sobre la independencia de dos variables categóricas
X e Y , cuyos valores se encuentran tabulados en un tabla de contingencia. Pensemos, para
contextualizar, que se ha tomado una encuesta por MASs a 500 de un total de 5000 hogares de
cierto municipio para averiguar si la opinión acerca de la labor del alcalde distrital (variable
Y ) está asociada o no a que la familia posea un auto (variable X). Tomada la encuesta al
jefe de hogar, supongamos que sus respuestas se hayan resumido en la siguiente tabla de
contingencia:

Y
Posee auto 1 = Opinión desfavorable 2 = Opinión favorable Total
X 1 = No n11 = 105 n12 = 188 n1. = 207
2 = Sı́ n21 = 88 n22 =119 n2. = 293
Total n.1 = 193 n.2 = 307 n = 500

Las pruebas asintóticas más populares para contratar a nivel α

H0 : X e Y son independientes vs. H1 : X e Y no son independientes


178 CAPÍTULO 5. UNA INTRODUCCIÓN AL MUESTREO COMPLEJO

son la prueba chi-cuadrado y la prueba de razón de verosimilitud. Ambas son asintótica-


mente equivalentes y sus regiones crı́ticas para, en general, una tabla de contingencia con a
categorı́as de X y b categorı́as de Y vienen dadas por
a 
 b
(nij − Êij0 )2
R.C: χ20 = > χ21−α ((a − 1)(b − 1))
i=1 j=1 Êij0

y
a 
 b
nij
R.C: G0 = 2 nij log( ) > χ21−α ((a − 1)(b − 1))
i=1 j=1 Êij0
donde:
ni. n.j
Êij0 = np̂0i. p̂0.j =
n
es la estimación máxima verosı́mil de la frecuencia esperada en la celda (i, j) bajo H0 .
En nuestro ejemplo, los estadı́sticos de prueba correspondientes observados son χ20 =2.281
y G0 = 2.275; mientras que el valor en tabla de la distribución chi-cuadrado para α = 0.05
es χ20.95 (1) = 3.84. El valor p de este contraste es, por tanto, 0.131. Consecuentemente, no
encontramos evidencia, en el municipio, de que la opinión hacia el alcalde tenga relación con
el hecho de que la familia tenga o no un auto. Estos análisis y las correspondientes salidas
en R se muestran seguidamente:

Auto <-c(rep('No',193),rep('Si',307))
Opinion <- c(rep("Desfavorable",105),rep("Favorable",88),
rep("Desfavorable",188),rep("Favorable",119))
tt = table(Auto,Opinion)
summary(tt)

## Number of cases in table: 500


## Number of factors: 2
## Test for independence of all factors:
## Chisq = 2.3, df = 1, p-value = 0.1

Una manera equivalente de plantear contrastes de independencia es mediante las razones


de odds. En una tabla de contingencia 2 × 2 la razón de odds se define como

P (Y = 1 | X = 1)
θ= .
P (Y = 1 | X = 2)

Este parámetro poblacional puede tomar valores menores, iguales o mayores que 1. Un θ
igual a 1 indica que no hay asociación y, por tanto, el contraste de independencia anterior
equivale a plantear
5.5. INTRODUCCIÓN AL ANÁLISIS CON MUESTRAS COMPLEJAS 179

H0 : θ = 1

contra una alternativa que incluso puede ser unilateral. Para una tabla de contingencia
general a × b, podrı́amos definir el vector columna θ = [θ11 , θ12 , . . . , θ(a−1)(b−1) ] con

θij = P (X = i, Y = j) − P (X = i)P (Y = j) ≡ pij − pi. p.j

y escribir la hipótesis de independencia como

H0 : θ = 0.

Todo lo expuesto hasta el momento es válido bajo un MAS. Si el muestreo es complejo, las
distribuciones de χ20 y G0 no serán más chi-cuadrado, lo cual nos podrı́a llevar a conclusiones
erróneas. En particular, la conglomeración tiene un fuerte efecto sobre estas distribuciones
nulas. Para ilustrarlo retomemos el ejemplo previo, pero en el que no solo hayamos pregun-
tado la opinión al jefe del hogar sino también la de su cónyugue (note que ambos pertenecen
a un mismo conglomerado, que es el hogar) y supongamos, exagerando (aunque la verdad
no tanto), que ambos comparten la misma opinión sobre el alcalde; más explı́citamente, que
contamos con la siguiente tabla de contingencia:

Y
Auto particular 1 = Opinión desfavorable 2 = Opinión favorable Total
X 1 = No n11 = 210 n12 = 376 n1. = 414
2 = Sı́ n21 = 176 n22 =238 n2. = 586
Total n.1 = 386 n.2 = 614 n = 1000

Note que se tiene aquı́ una correlación intraclase de 1.


Si evaluamos en este nuevo contexto nuestros estadı́sticos, obtendremos χ20 = 4.562 y
G0 = 4.55 que duplican a sus valores anteriores. Más aún, obtendremos un valor p de 0.03269
y, por tanto, podrı́amos estar tentados a concluir, equı́vocamente, de que sı́ existe asociación
entre la opinión sobre el alcalde y la tenencia de un auto. Note también que esto no es un
fenómeno particular de este ejemplo, ya que, en general, bajo una correlación intraclase de
1 (por la duplicidad de respuestas en las unidades primarias) los estadı́sticos

a  b
(pij − p̂0i. p̂0.j )2
χ20 = n
i=1 j=1
p̂0i. p̂0.j

y
a 
 b
pij
G0 = 2n pij log( ),
i=1 j=1
p̂0i. p̂0.j

siendo pij la proporción observada de respuestas en la celda (i, j), duplican su valor.
180 CAPÍTULO 5. UNA INTRODUCCIÓN AL MUESTREO COMPLEJO

Veamos ahora dos procedimientos para incorporar el diseño en la prueba de independen-


cia. Para ser más breves, nos centraremos en la prueba chi-cuadrado de Pearson, procedi-
mientos similares existen para la prueba de razón de verosimilitud.
Para empezar, sea (X11 , X12 , . . . , Xab ) el vector aleatorio en el que cada Xij denota el
número de unidades en la muestra de tamaño n que toman valores en la celda (i, j), siendo
pij la probabilidad de que cualquier elemento de la muestra tome valores en esta celda. Sea,
por otro lado, p = [p11 , p22 , . . . , pab−1 ] y sea p̂ un estimador de p bajo el diseño complejo.
Supongamos ahora que se cumple que
√ D
n(p̂ − p) → N (0, Vdis ),

donde Vdis es la varianza asintótica del vector (X11 , X12 , . . . , Xab−1 ). Note que si nuestro
esquema de muestreo fuese un MAS, (X11 , X12 , . . . , Xab−1 ) tendrı́a distribución multinomial
y la matriz de varianza-covarianza del diseño tomarı́a la forma Vdis = P0 = diag(p) − pp .
Dado que θ es una función de p, podrı́amos utilizar el método delta para justificar que
√ D
n(θ̂ − θ) → N (0, HVdis H  ),

donde H = H(θ) es la matriz de orden (a − 1)(b − 1) × (ab − 1) conformada por las derivadas
parciales de las componentes de θ con respecto a las componentes de p.
Uno de los primeros procedimientos para contrastar independencia en datos categóricos
con muestras complejas fue desarrollado por Koch y Freeman (1975). Este test de tipo Wald
contrasta la hipótesis de independencia

H0 : θ = 0

usando el estadı́stico

χ2W 0 = θ̂ (Ĥ V̂dis Ĥ  )−1 θ̂,

donde Ĥ = H(θ̂) y V̂dis es un estimador consistente de Vdis . Este estadı́stico tiene asintótica-
mente una distribución chi-cuadrado con (a − 1)(b − 1) grados de libertad. Aquı́ cabe aclarar
que si se dispusiera de un estimador consistente de la varianza de θ̂, por alguna técnica de
remuestreo, este podrı́a usarse también en lugar de Ĥ V̂dis Ĥ  para definir el estadı́stico de
tipo Wald.
Un problema con el procedimiento anterior es que si la tabla es grande, el número de
unidades primarias deberı́a ser realmente grande como para poder estimar todas las compo-
nentes en Vdis . Algunos ajustes y procedimientos posteriores que buscan resolver este y otros
problemas asociados a este test se revisan en Thomas y Rao (1990).
Una alternativa más usada y eficiente fue formulada a través de los trabajos de Rao y Scott
(1984), quienes propusieron corregir el estadı́stico chi-cuadrado de Pearson multiplicándolo
por una constante adecuada. La metodologı́a se basa en el siguiente resultado asintótico
5.5. INTRODUCCIÓN AL ANÁLISIS CON MUESTRAS COMPLEJAS 181

de Rao y Scott (1981). Ellos mostraron que, bajo H0 , el estadı́stico χ20 de Pearson puede
descomponerse como
(a−1)(b−1)

χ20 = λi W i ,
i=1

donde los λ1 ≥ λ2 ≥ . . . ≥ λ(a−1)(b−1) > 0 denotan los autovalores de la matriz de diseño


generalizada D = (HP0 H  )−1 (HVdis H  ), y W1 , W2 , . . . , W(a−1)(b−1) son variables aleatorias
independientes con distribuciones chi-cuadrado de un grado de libertad. La corrección de
primer orden sugerida por Rao y Scott postula, entonces, como estadı́stico de prueba a,

χ20
χ2I = ,
δ̄
donde:
(a−1)(b−1)
1  T r(D)
δ̄ = δi = .
(a − 1)(b − 1) i=1
(a − 1)(b − 1)
De esta manera, el estadı́stico χ2I
tiene media (a − 1)(b − 1) y, aproximadamente, una dis-
tribución chi-cuadrado con estos grados de libertad, de no existir mucha variación en los
δi .
Rao y Scott mostraron, posteriormente, que de no disponerse de estimaciones de la ma-
triz Vdis (y, en consecuencia, de los autovalores en D para poder estimar δ̄), uno podrı́a
utilizar estimaciones de los efectos de diseño dˆij , dˆi. y dˆ.j en las estimaciones de pij , pi. y p.j ,
respectivamente, a fin de obtener la siguiente aproximación:
a 
 b a
 b

δ̄ˆ = (1 − p̂ij )dˆij − (1 − p̂i. )dˆi. − (1 − p̂.j )dˆ.j .
i=1 j=1 i=1 j=1

Años después, Thomas y Roberts (1996) derivaron correcciones de segundo orden al


estadı́stico de Pearson con el fin de incorporar la variabilidad de los autovalores en la matriz
D. Ellos propusieron el estadı́stico
χ2I
χ2II = ,
1 + â2
donde â representa el coeficiente de variación de los autovalores en la matriz D estimada.
Concretamente, utilizando una aproximación de Satterwaite, ellos mostraron que
(a−1)(b−1)
 δ̂i2
â2 = − 1.
i=1 (a − 1)(b − 1)δ̄ˆ2

Bajo la corrección de segundo orden, el estadı́stico χ2II tiene una distribución asintótica
chi-cuadrado con (a−1)(b−1)
1+â2
grados de libertad.
Retornando a la parte práctica, es interesante comentar que la librerı́a survey de R posee
el comando svychisq que realiza las pruebas chi-cuadrado aquı́ expuestas. El método por
182 CAPÍTULO 5. UNA INTRODUCCIÓN AL MUESTREO COMPLEJO

defecto para este análisis es el de Thomas y Roberts (1996) con la corrección de segundo
orden. Como ilustración, reconsideremos nuestro problema sobre la relación entre la opinión
sobre el alcalde y la tenencia de auto particular en el contexto del muestreo por conglome-
rados cuando la correlación intraclase es de 1. Los códigos siguientes, como se apreciarán en
los resultados, nos proveen de un procedimiento válido para realizar este contraste.

cluster = vector()
for (i in 1:500) cluster = c(cluster,i,i)
[Link] = [Link](Auto, Opinion, cluster)
cluster_design = svydesign(ids=cluster,fpc=rep(5000,1000),data=[Link])
svychisq(~Auto+Opinion,cluster_design)

##
## Pearson's X^2: Rao & Scott adjustment
##
## data: svychisq(~Auto + Opinion, cluster_design)
## F = 3, ndf = 1, ddf = 500, p-value = 0.1

5.5.2. Análisis de regresión


En el análisis de regresión lineal múltiple uno busca expresar una v.a. dependiente Y
como una función lineal de p variables independientes o predictoras x1 , x2 , . . . , xp , las cuales
se asumirán, como es usual, fijas. El modelo se plantea como

Y = β0 + β1 x1 + β2 x2 + . . . + βk xp + ,

donde es común asumir que el error  es una variable aleatoria con distribución normal de
media 0 y varianza σ 2 , y estos errores se asumen independientes para distintas observaciones.
Uno de los objetivos centrales de este modelo es estimar el valor medio de Y dado el vector
x = (x1 , . . . , xp ) de variables independientes en un elemento no observado de la población.
Para ello, uno debe contar con mediciones de la variable aleatoria Y para n elementos
seleccionados al azar de la población. Dada esta m.a., el modelo puede escribirse como

Yi = β0 + β1 xi1 + β2 xi2 + . . . + βk xip + i , ∀i = 1, 2, . . . , n

o matricialmente como
Yn = Xn β + En ,
donde Yn es un vector columna de orden n × 1; Xn es una matriz n × (p + 1) cuya primera
columna es de unos; β es el vector columna de orden p + 1 de coeficientes de regresión, y En
es un vector n × 1 que contiene a los errores i .
5.5. INTRODUCCIÓN AL ANÁLISIS CON MUESTRAS COMPLEJAS 183

El método de mı́nimos cuadrados nos provee de un estimador de β que se obtiene de


resolver p
n
 n
 
mı́n 2i = mı́n (Yi − β0 − βj xij )2 , (5.13)
i=1 i=1 j=1

siendo su solución
β̂ M CO = (X −1 
n Xn ) Xn Y n .

Luego, la estimación buscada del valor medio de Y para un x dado, al cual llamamos también
el hiperplano de regresión, viene dada por

ŷx = [1, x ]β̂ M CO .

En el contexto de una población finita de tamaño N , β̂ M CO es formalmente un estimador


del vector de parámetros β que resuelve (5.13), pero para todos los posibles pares

(x1 , y1 ), (x2 , y2 ), . . . , (xN , yN )

del vector de variables independientes y la variable dependiente y en la población; esto es de

β N = (X X)−1 X YN ,

donde X es un matrix N × (p + 1) que contiene a las variables independientes e YN es el


vector columna de orden N × 1 que contiene a todas los valores de la variable dependiente en
la población. Si el muestreo es complejo y no simple, podrı́amos naturalmente considerar de
manera alternativa al estimador β̂ de β, cuyas componentes resuelvan la siguiente versión
ponderada de (5.13):
p
 
mı́n ωi (Yi − β0 − βj xij )2 , (5.14)
i∈S j=1

donde los ωi son los pesos asociados a la i-ésima unidad seleccionada en la muestra. A esta
se le llama precisamente una inferencia basada en el diseño, la cual difiere de la del modelo
en el sentido de que la última realiza la inferencia sobre el proceso que pensamos genera a la
población real. En tal caso, aun los coeficientes del modelo ajustado para toda la población
estarán sujetos a una incertidumbre estadı́stica y se podrı́an pensar que provienen de una
P
superpoblación, de tal manera que se cumpla que cuando n, N → ∞, Nn → c y β N → β ∗ ,

para algún c ∈ [0, 1[ y un vector β .
Como se sabe, la solución de (5.14) es estándar en el análisis de regresión y se conoce
como un estimador de mı́nimos cuadrados ponderado. Ella viene dada por

β̂ = (X −1 
n Wn Xn ) Xn Wn Yn ,

donde Wn = diag(ωi ) es una matriz diagonal de orden n que contiene solo los pesos asociados
a cada una de las unidades seleccionadas; Xn es una matriz n × p + 1 que contiene a las
184 CAPÍTULO 5. UNA INTRODUCCIÓN AL MUESTREO COMPLEJO

variables predictoras con una primera columna de unos, e Yn es un vector columna de


orden n que contiene los valores de la variable dependiente, ambos incluyen solo las unidades
seleccionadas.
Si bien los estimadores de mı́nimos cuadrados ponderados poseen una formulación para
su varianza, ella no es aquı́ válida, pues la matriz de pesos Wn surge de considerar el diseño y
no de asumir heterogeneidad como usualmente se plantea para este tipo de estimadores. Para
estimar la varianza de β̂ utilizaremos, al igual que en Wolter (2007), técnicas de linealización.
Note, en primer lugar, que nuestro estimador puede escribirse como

β̂ = (X −1   −1 
n Wn Xn ) Xn Wn (Xn β + En ) = β + (Xn Wn Xn ) Xn Wn En ,

donde En = Yn − Xn β.
Consideremos ahora la función F (ω) = (X WX)−1 , que tiene como argumento al vector
ω de orden N × 1 que define a la matriz de orden N × N , W = diag(ω). Sea ω n un vector
N × 1 cuyas componentes contienen los pesos de muestreo de las unidades seleccionadas y
valen 0 en caso contrario. Un desarrollo de Taylor de primer orden para esta función F en
el vector ω n alrededor del vector columna de unos de orden N , ω 0 = 1N , nos brinda la
aproximación
F (ω n ) = (X
n Wn X n )
−1
= (X X)−1 + dFω 0 (ω n − ω 0 ).

Más aún, dado que por propiedad de diferenciación de matrices dFω 0 (ω n − ω 0 ) =


−1
−F (ω 0 )dFω 0
(ω n − ω 0 )F (ω 0 ), se cumplirá aproximadamente que
  
β̂ = β + (X X)−1 − (X X)−1 ((X  
n Wn Xn ) − (X X))(X X)
−1
Xn Wn En
  −1  
= β + (X X)−1 X   
n Wn En − X X) ((Xn Wn Xn ) − (X X))(X X)
−1
Xn Wn En .

Despreciando el último término de esta expresión, se tendrá entonces que aproximadamente

β̂ = β + (X X)−1 X
n Wn En .

Ası́, considerándose que E(X


n Wn En ) = 0, la varianza de este término resulta ser

V (β̂) = E((β̂ − β)(β̂ − β) ) = (X X)−1 Gn (X X)−1 ,

siendo Gn = V (Xn Wn En ) una matriz (p + 1) × (p + 1) de varianzas-covarianzas.


Dado que tanto los residuales En como el término (X X)−1 son usualmente desconocidos,
podrı́amos estimarlos por Ên = Yn − Xn β̂ y (Xn Wn Xn ) , respectivamente. Ello nos brinda,
−1

finalmente, un estimador tipo “sandwich” de la forma

V̂ (β̂) = (X −1  −1
n Wn Xn ) Ĝn (Xn Wn Xn ) , (5.15)
5.5. INTRODUCCIÓN AL ANÁLISIS CON MUESTRAS COMPLEJAS 185

requiriéndose para su término central una estimación Ĝn de la varianza del vector X
n Wn Ên ,
el cual será particular del diseño empleado; es decir, de la matriz de varianzas-covarianzas
V (Xn Wn Ên ), cuya entrada rs viene dada por
  
grs = Cov( xrk ˆk ωk δk , xs ˆ ω δ ) = xrk xs ˆk ˆ Cov(δk , δ ), (5.16)
k  k 

donde las sumas recorren las distintas etapas o estratos del diseño. La estimación de estos
términos dependerá del diseño particular empleado.

Ejemplo 5.8. Con el fin de precisar mejor la estimación de la varianza del vector de coe-
ficientes de regresión, pensemos en un diseño estratificado por conglomerados bietápico en
el que la i-ésima UPM al interior del estrato h = 1, 2, . . . , H es seleccionada con una pro-
babilidad πhi , i = 1, 2, . . . , Nh y la j-ésima USM dentro de la i-ésima UPM del estrato h
es seleccionada con probabilidad (condicional) πj|hi , j = 1, 2, . . . , Mhi , siendo Mhi el número
de USM dentro la i-ésima UPM. Como es usual, asumiremos que el muestreo en cualquier
UPM es independiente del muestreo en cualquier otra UPM. En este contexto, (5.16) viene
dada por
 H  Nh 
Mhi H Nh  Mhi
xrhij ˆhij δhi δj|hi   xshij ˆhij δhi δj|hi
grs = Cov( , )
h=1 i=1 j=1
π hi π j|hi
h=1 i=1 j=1
πhi πj|hi

Nh
H 
 H Nh
δhi   δhi
= Cov( Zhi|r , Zhi|s ),
h=1 i=1
πhi h=1 i=1 πhi

donde:
Mhi
 xrhij ˆhij
Zhi|r = δj|hi .
j=1
πj|hi

Para mejor explicar la expresión anterior, podrı́amos utilizar la proposición 1.1, al con-
dicionar sobre el arreglo δ = [δhi ] de las variables aleatorias indicadoras de inclusión de la
primera etapa dentro de los estratos. Ello resulta en

 Nh
H  H Nh
δhi δhi
grs = Cov(E( Zhi|r | δ), E( Zhi|s | δ))
h=1 i=1
πhi h=1 i=1
π hi

Nh
H 
 H Nh
δhi   δhi
+E(Cov( Zhi|r , Zhi|s | δ)).
h=1 i=1
πhi h=1 i=1 πhi

Puesto que, por un lado,

 Nh
H   hH N  h H N
δhi δhi δhi
E( Zhi|r | δ) = E(Zhi|r ) = zrhi. ,
h=1 i=1
πhi h=1 i=1
π hi
h=1 i=1
π hi
186 CAPÍTULO 5. UNA INTRODUCCIÓN AL MUESTREO COMPLEJO
Mhi
donde zrhi. = j=1 xrhij ˆhij y ,por otro lado,

Nh
H 
 H Nh H Nh
δhi   δhi  2
δhi
Cov( Zhi|r , Zhi|s | δ) = Cov(Zhi|r , Zhi|s ),
h=1 i=1
πhi h=1 i=1 πhi π2
h=1 i=1 hi

donde:
Mhi 
 Mhi
xrhij ˆhij xshij  ˆhij 
Cov(Zhi|r , Zhi|s ) = Cov(δj|hi , δj  |hi ),
j=1 j  =1
πj|hi πj  |hi

se tiene que
Nh 
H 
 Nh H Nh Mhi 
Mhi
zrhi. z shi . 1  xrhij ˆhij xshij  ˆhij 
grs = Cov(δhi , δhi )+
 Cov(δj|hi , δj  |hi )
h=1 i=1 i =1
πhi πhi h=1 i=1
πhi j=1  πj|hi πj  |hi
j =1

Nh
H 
 Nh 
H 
 Nh
zrhi. zshi. (1 − πhi ) zrhi. z 
shi .
= + (πhi,hi − πhi πhi )
h=1 i=1
πhi h=1 i=1 i =1
πhi πhi

i=i

H Nh Mhi H Nh Mhi 


Mhi
1  (1 − πj|hi )   1  xrhij ˆhij xshij  ˆhij 
+ xrhij ˆ2hij xshij + (πj,j  |hi −πj|hi πj  |hi ).
h=1 i=1
π hi j=1 π j|hi
h=1 i=1
π hi j=1  πj|hi πj  |hi
j =1
j=j 

Al igual que en el caso de los estimadores de Horvitz-Thompson, un estimador insesgado de


grs vendrá dado por
Nh
H 
 Nh 
H 
 Nh
zrhi. zshi. (1 − πhi ) zrhi. zshi .
ĝrs = δhi + (π  − πhi πhi )δhi δhi
h=1 i=1
2
πhi h=1 i=1 i =1
πhi πhi πhi,hi hi,hi

i=i

H Nh
M 
 1  hi
(1 − πj|hi )
+ xrhij ˆ2hij xshij δj|hi δhi
π2
h=1 i=1 hi j=1
2
πj|hi
 
H Nh
1 Mhi 
Mhi
xrhij ˆhij xshij  ˆhij  
 
+ 2  (πj,j  |hi − πj|hi πj  |hi )δj|hi δj  |hi  δhi .
π
h=1 i=1 hi
 j=1  πj|hi πj  |hi πj,j  |hi 
j =1
j=j 

Al igual que en los estimadores de Horvitz-Thompson, no resulta difı́cil probar que el


término grs se puede escribir también como
Nh 
H 
 Nh H Nh
zrhi. zrhi . zshi. zshi . 1
grs = (πhi πhi − πhi,hi )( − )( − )+ Cov(Zhi|r , Zhi|s ).
h=1 i=1 i >i
πhi πhi πhi πhi h=1 i=1
πhi
5.5. INTRODUCCIÓN AL ANÁLISIS CON MUESTRAS COMPLEJAS 187

Por tanto, un estimador tipo Sen-Yates-Gundy puede implementarse en este caso y viene
dado por
H Nh Nh H Nh
πhi πhi − πhi,hi zrhi. zrhi . zshi. zshi . 1 ˆ
ĝrs = ( )( − )( − )δhi δhi + 2
Cov(Zhi|r , Zhi|s )δhi ,
h=1 i=1 
π hi,hi  π hi π hi  π hi π hi  π
h=1 i=1 hi
i >i
(5.17)
ˆ
donde Cov(Zhi|r , Zhi|s ) es una estimación que se realiza sobre la base de las USM seleccio-
nadas al interior de las UPM escogidas. Este es el estimador implementado por defecto en
el comando svyglm. 
Ejemplo 5.9. Consideremos la base de datos api y supongamos que deseamos estimar,
bajo un muestreo estratificado de conglomerados de una etapa, el rendimiento medio por
colegio en el 2000 en base a su porcentaje de profesores completamente calificados (full),
padres con estudios de posgraduación ([Link]), estudiantes que están aprendiendo inglés
(ell), estudiantes que tienen comidas subsidiadas (meals) y estudiantes para los que este
es su primer año en la escuela (mobility). Dado que api es una base de datos poblacional,
podrı́amos teóricamente calcular el vector de parámetros β del modelo. Este, descartando los
casos perdidos en las variables de interés, viene dado por

data(api)
N0 = dim(apipop)[1]
Pob = apipop[order(apipop$stype,apipop$dnum),] # apipop ordenado
Pob$cod0 = 1:N0
Pob$b0 = rep(1,N0)
M = [Link]([Link](Pob[,c(38,39,34,32,21,20,23,12)]))
index = [Link](M[,1]) # indice de casos validos
X = M[,2:7]
Y = M[,8]
beta = solve(crossprod(X))%*%crossprod(X,Y)
beta

## [,1]
## b0 600.989
## full 1.753
## [Link] 2.547
## ell -0.896
## meals -1.957
## mobility -0.101

Para la muestra consideraremos como antes el tipo de escuela (stype) como variable
de estratificación y los distritos escolares (dnum) como conglomerados. Optaremos por una
188 CAPÍTULO 5. UNA INTRODUCCIÓN AL MUESTREO COMPLEJO

muestra de, aproximadamente, 30 distritos escolares, los cuales los distribuiremos propor-
cionalmente a la cantidad de colegios por estrato. Ello nos llevará a consignar 14 colegios
elementales, 9 high schools y 7 colegios medios. El diseño y la toma de la muestra se presentan
a continuación

[Link](12345)
Pob = Pob[index,]
N1 = dim(Pob)[1]
tt = table(Pob$stype)
ls1 = list([Link](tt),c(14,9,7))
Pob$Nh = rep(ls1[[1]],tt)
Pob = cbind(cod = 1:N1,Pob)
mues=mstage(Pob,stage=list("stratified","cluster"),
varnames=list("stype","dnum"),
size=ls1,method=list("","srswor"),description=T)

## STAGE 1
## Number of strata: 3
## STAGE 2
## Number of selected clusters: 14
## Number of units in the population and number of selected units: 4417 112
## Number of selected clusters: 9
## Number of units in the population and number of selected units: 753 23
## Number of selected clusters: 7
## Number of units in the population and number of selected units: 1018 11

mues = getdata(Pob,mues)[[2]]
dmuesr<-svydesign(id=~dnum, strata=~stype, fpc=~Nh,nest=T,data=mues)
dmuesr

## Stratified 1 - level Cluster Sampling design


## With (30) clusters.
## svydesign(id = ~dnum, strata = ~stype, fpc = ~Nh, nest = T, data = mues)

El análisis de regresión bajo el diseño se realizará con el comando svyglm mediante

summary(svyglm(api00~full+[Link]+ell+meals+mobility, design=dmuesr))

##
## Call:
5.5. INTRODUCCIÓN AL ANÁLISIS CON MUESTRAS COMPLEJAS 189

## svyglm(formula = api00 ~ full + [Link] + ell + meals + mobility,


## design = dmuesr)
##
## Survey design:
## svydesign(id = ~dnum, strata = ~stype, fpc = ~Nh, nest = T, data = mues)
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 667.021 88.812 7.51 1.7e-07 ***
## full 1.295 0.707 1.83 0.080 .
## [Link] 2.234 1.031 2.17 0.041 *
## ell -0.825 0.728 -1.13 0.269
## meals -2.123 0.728 -2.92 0.008 **
## mobility -0.411 0.799 -0.51 0.612
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for gaussian family taken to be 2647)
##
## Number of Fisher Scoring iterations: 2

Como se aprecia, solo las proporciones de profesores completamente capacitados y de padres


con estudios de posgrado parecen tener un efecto positivo y significativo en el rendimiento
medio de la escuela; por otro lado, solo la proporción de estudiantes con comidas subsidia-
das pareciera tener un efecto negativo en el rendimiento medio de la escuela. Note que los
coeficientes de regresión podrı́amos haberlos también obtenido en R con

Xn = cbind(rep(1,dim(mues)[1]),mues$full,mues$[Link],mues$ell,mues$meals,
mues$mobility)
Yn = mues$api00
w = weights(dmuesr)
Wn = diag(w)
Hn = solve((t(Xn)%*%Wn%*%Xn))
(betah = Hn%*%t(Xn)%*%Wn%*%Yn)

## [,1]
## [1,] 667.021
## [2,] 1.295
## [3,] 2.234
190 CAPÍTULO 5. UNA INTRODUCCIÓN AL MUESTREO COMPLEJO

## [4,] -0.825
## [5,] -2.123
## [6,] -0.411

La matriz de varianzas-covarianzas de estos estimadores se pueden también obtener usan-


do las ecuaciones (??) y (5.17 ), que en este diseño se traducen en
Nh
H 
 Nh 
H 
 Nh
zrhi. zshi. (1 − πhi ) zrhi. zshi .
ĝrs,HT = δhi + (π  − πhi πhi )δhi δhi
h=1 i=1
2
πhi h=1 i=1 i =1
πhi πhi πhi,hi hi,hi

i=i

y
H Nh Nh
πhi πhi − πhi,hi zrhi. zrhi . zshi. zshi .
ĝrs,SGY = ( )( − )( − )δhi δhi ,
h=1 i=1 
π hi,hi  π hi π hi  π hi π hi 
i >i

donde:
nh nh (nh − 1)
πhi = y πhi,hi = .
Nh Nh (Nh − 1)
Una evaluación de los errores estándares de estimación estimados, a partir de estos estima-
dores, se muestra en la siguiente tabla:

Parámetro β0 β1 β2 β3 β4 β5
Intercepto full [Link] ell meals mobility
Estimado 667.0213 1.2951 2.2344 -0.8253 -2.1226 -0.4114
[Link] (HT) 89.1709 0.7025 1.0434 0.7199 0.7391 0.7861
[Link] (SGY) 88.8118 0.7068 1.0307 0.7282 0.7276 0.7993

Como se observa, las estimaciones de los errores estándar para los coeficientes son muy
similares y la última coincide con el de la salida del comando svyglm.
Si no consideráramos los pesos de muestreo, el análisis nos brindarı́a la siguiente salida:

summary(glm(api00~full+[Link]+ell+meals+mobility, data=mues))

##
## Call:
## glm(formula = api00 ~ full + [Link] + ell + meals + mobility,
## data = mues)
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -217.34 -35.74 0.76 38.25 165.16
5.5. INTRODUCCIÓN AL ANÁLISIS CON MUESTRAS COMPLEJAS 191

##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 562.584 50.800 11.07 <2e-16 ***
## full 1.858 0.501 3.71 0.0003 ***
## [Link] 3.723 0.692 5.38 3e-07 ***
## ell -1.459 0.526 -2.77 0.0063 **
## meals -0.991 0.394 -2.51 0.0130 *
## mobility -0.556 0.485 -1.15 0.2536
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for gaussian family taken to be 3722)
##
## Null deviance: 1718868 on 145 degrees of freedom
## Residual deviance: 521065 on 140 degrees of freedom
## AIC: 1623
##
## Number of Fisher Scoring iterations: 2

Se aprecia, entonces, una mı́nima diferencia en ambos análisis. Note también los menores
errores de estimación de los estimadores de mı́nimos cuadrados. 

La extensión del análisis de regresión lineal múltiple para otro tipo de respuestas, co-
mo binarias, de conteo o no negativas, puede realizarse a través de los modelos lineales
generalizados. En estos, el método de estimación no es el de mı́nimos cuadrados sino el de
máxima verosimilitud. Este método requiere la maximización de la función de probabilidad
o densidad conjunta de las respuestas, o de su logaritmo, las últimas que se asumen que son
independientes y que se asocian al predictor lineal mediante funciones pre definidas de enlace
g que dependen del tipo de respuesta. Se asume que el modelo lineal general de trabajo en
cuestión pertenece a una familia exponencial, la cual relaciona para cada observación i su
media o media condicional con un predictor lineal mediante

g(µi ) = x
i β

y que su varianza marginal por


V (Yi ) = φV (µi ),

donde φ es un parámetro de dispersión.


192 CAPÍTULO 5. UNA INTRODUCCIÓN AL MUESTREO COMPLEJO

En el caso, por ejemplo, de la regresión logı́stica para respuestas binarias, la función de


log-verosimilitud viene dada por
n

l(β) = log L(β) = yi log(π(xi )) + (1 − yi ) log(1 − π(xi )),
i=1

donde:
exp(x
i β)
π(xi ) = = µi
1 + exp(x
i β)
representa el valor que se espera tome la variable respuesta binaria Yi y corresponde a la
µi
inversa de la función de enlace logı́stico g(µi ) = log( 1−µ i
) = x
i β.
En el muestreo complejo, la asunción de independencia entre las distintas respuestas
raramente se cumple y, por tanto, este procedimiento podrı́a resultar inválido. Para suplir
ello se ha propuesto en la literatura una metodologı́a de pseudo máxima verosimilitud asistida
por el modelo que incorpora los pesos de muestreo a la función última. La función de log-
pseudo-máxima verosimilitud a optimizar en la regresión logı́stica es

lP (β) = log P L(β) = ωi (yi log(π(xi )) + (1 − yi ) log(1 − π(xi ))).
i∈S

Una vez obtenidos los estimadores, la estimación de sus varianzas pueden obtenerse ya sea
por los métodos de linealización o replicación estudiados.
En R, el procedimiento para el ajuste e inferencia de estos modelos se encuentra imple-
mentado en el comando svyglm del paquete survey.
En este texto introductorio no discutiremos al detalle todos los modelos de regresión
lineal generalizados ni su análisis de ajuste, desarrollos que cabe comentar son en muchos
casos aún temas de actual investigación. Para mayores detalle, el lector interesado puede
consultar el texto de Heeringa y Berglund (2010) y el artı́culo de Binder (1983). Lo que
sı́ vale la pena comentar es el proceso de inferencia. En general, si estamos interesados en un
IC al 100(1 - α) % o en una prueba de significación sobre cualesquieras de los coeficientes de
regresión βi del modelo, estos vienen caracterizados por

ˆ β̂1 ), β̂i + t1− α (gl)SE(


[β̂i − t1− α2 (gl)SE( ˆ β̂1 )]
2

β̂i
y la estadı́stica de prueba t = SE( ˆ β̂i ) , la cual tiene distribución t de Student con gl =

h ah − H grados de libertad, siendo el primer término el número de conglomerados y el
segundo el número de estratos, ambos de la primera etapa del diseño. Naturalmente, t1− α2 (gl)
denota aquı́ el cuantil 1 − α2 de la distribución t de Student.
Por otro lado, las conocidas pruebas F sobre un grupo de regresores pueden sustituirse
por las pruebas de Wald a través del estadı́stico
1 
FW = β̂ q Σ̂−1
q β̂ q ,
q
5.5. INTRODUCCIÓN AL ANÁLISIS CON MUESTRAS COMPLEJAS 193

donde β̂ q denota el estimador de cualquier vector de coeficientes de regresión estimados de


dimensión 1 ≤ q ≤ p que sean un subconjunto del vector de todos los p coeficientes de
regresión en el modelo y Σ̂q es su correspondiente matriz de varianzas-covarianzas estimada.
Bajo la hipótesis nula H0 : β q = 0, se cumple que asintóticamente FW tiene distribución F de
Fisher con q grados de libertad en el numerador y gl grados de libertad en el denominador.
Todas estas pruebas se encuentran implementadas en R bajo el comando regTermTest del
paquete survey.
Lumley y Scott (2014) argumentan, sin embargo, que en lugar de las pruebas de Wald
serı́a preferible usar pruebas de razón de verosimilitud, ya que estas son, a diferencia de las
primeras, invariantes a transformaciones de los parámetros y muestran mejores propiedades
en muestras pequeñas. Para ello, ellos extienden las pruebas de Rao y Scott vistas en el
capı́tulo anterior a un contexto mucho más general. Recordemos que en las pruebas de razón
de verosimilitud es de interés particionar el vector de parámetros β de dimensión p como
β = (β 0 , β 1 ), donde β 0 tiene dimensión q ≤ p y contrastar la hipótesis nula H0 : β 0 = 0. En
este modelo más general, la función de pseudo-log-verosimilitud viene dada por

lP (β) = ωi log f (yi | xi ; β),
i∈S

donde f (yi | xi ; β) denota la función de densidad o probabilidad de las respuestas en función


de las covariables y del vector de parámetros. Si θ̂ 0 denota la la solución de
∂lP (β)  1
U (β) = = ωi  (yi − µi ) = 0
∂β i∈S
g (µi )V (µi )

bajo la restricción que β 0 = 0, Lumley y Scott (2014) muestran que bajo H0 y ciertas
condiciones de regularidad se cumple que, conforme n, N → ∞,
q
D

Λn = 2(lP (θ̂) − lP (θ̂ 0 )) → δi Zi2 ,
i=1

donde Z1 , Z2 , . . . Zq es una m.a. de variables normales estándar independientes y δ1 , δ2 , . . . , δq


−1
son los autovalores de la matriz de Λ = (I11 − I12 I22 I21 )V11 en las que V11 denota la matriz
√ ∗
de varianza-covarianza asintótica de n(β̂ 0 − β 0 ) e
 
2 ∗
∂ l P (β ) I 11 I 12
I(β ∗ ) = E(− )= .
∂ββ  I21 I11

Estos autores muestran también una aproximación de Satterthwaite para la distribución de


Λ dada por q
Λ δ2
∼ χ2 (ν), con ν = qi=1 i 2 ,
δ̄ ( i=1 δi )
recomendable cuando los δi son muy heterogéneos.
194 CAPÍTULO 5. UNA INTRODUCCIÓN AL MUESTREO COMPLEJO

Ejemplo 5.10. Consideremos el siguiente ejemplo tomado del material suplementario que
acompaña al texto de Fox y Weisberg (2018), donde es de interés estudiar la actitud de las
personas hacia la prohibición del aborto. Para ello consideraremos la CES 2011, la cual fue
una encuesta electoral realizada durante el perı́odo de la campaña 2011 en Canadá. Esta
base de datos se encuentra disponible en los paquetes car y carData de R que acompañan
al texto de Fox y Weisberg (2018). Mayores detalles sobre la encuesta se pueden encontrar
en Fournier y Stolle (2013). En el CES 2011 el paı́s fue dividido en estratos conformados
por las 10 provincias de Canadá. Dentro de cada estrato h se tomó un MASs basándose
en un marco muestral de los números telefónicos de los hogares. Dado que las provincias
en Canadá son bastante distintas en tamaño y con vistas a facilitar la comparación entre
provincias, las provincias más pequeñas fueron sobremuestradas. Como consecuencia, dife-
rentes hogares tuvieron una desigual aunque conocida probabilidad de selección dentro de la
muestra. Por otro lado, los hogares seleccionados fueron contactados por teléfono y allı́ se
determinó el número de votantes elegibles en cada hogar. En una segunda etapa de muestreo
solo un individuo fue seleccionado al azar entre los individuos elegibles en el hogar. Por tal
razón, los individuos que pertenecen a hogares numerosos tendrán una menor probabilidad
de ser seleccionados en la muestra que aquellos que viven en hogares pequeños. La base de
datos CES11 posee la siguiente estructura:

library(carData)
library(car)
data("CES11")
CES11[1:8,2:9]

## province population weight gender abortion importance education urban


## 1 BC 3267345 4288 Female No somewhat somePS urban
## 2 QC 5996930 9231 Male No not bachelors urban
## 3 QC 5996930 6154 Male Yes somewhat college urban
## 4 NL 406455 3430 Female No very somePS urban
## 5 ON 9439960 8978 Male No not higher rural
## 6 ON 9439960 8978 Female No not higher urban
## 7 NL 406455 3430 Female Yes very lessHS rural
## 8 NL 406455 1715 Female Yes notvery college urban

En orden correlativo, la primera columna de la base de datos CES11 identifica al hogar


seleccionado, la segunda al estrato o provincia (province), la tercera al número de individuos
en la provincia donde el entrevistado vive (population), la cuarta al peso de muestreo (weight),
la quinta al sexo del individuo entrevistado (gender), la sexta a su respuesta a la pregunta
central del estudio: ¿Deberı́a prohibirse el aborto? (abort), la séptima a su calificativo en
escala de Likert de la importancia que le da a religión en su vida (importance), la octava a
5.5. INTRODUCCIÓN AL ANÁLISIS CON MUESTRAS COMPLEJAS 195

su nivel de educación (education) y la última a si vive en una zona rural o urbana (urban).
Antes de realizar una regresión binaria sobre la actitud de la población canadiense hacia
el aborto en función del género, nivel de educación, zona donde vive (rural o urbana) e
importancia dada a la religión, serı́a interesante describir primero cómo se comporta nuestra
variable dependiente. El siguiente código muestra este análisis y la definición del diseño.

dCES11 = svydesign(ids=~id,strata = ~province, fpc=~population,


weights = ~weight, data=CES11)
svymean(~abortion,design=dCES11)

## mean SE
## abortionNo 0.815 0.01
## abortionYes 0.185 0.01

Como se ve, el 81.5 % de las personas encuestadas se oponen a prohibir el aborto.


Comparemos seguidamente los análisis de regresión logı́stica, bajo el diseño y el modelo

dreg = svyglm(abortion~importance+gender+education+urban, design=dCES11,


family=quasibinomial)
mreg = glm(abortion ~ importance + gender + education + urban, data=CES11,
family=binomial)
compareCoefs(dreg,mreg,zvals=T,pvals=T)

## Calls:
## 1: svyglm(formula = abortion ~ importance + gender + education + urban,
## design = dCES11, family = quasibinomial)
## 2: glm(formula = abortion ~ importance + gender + education + urban,
## family = binomial, data = CES11)
##
## Model 1 Model 2
## (Intercept) -3.578 -3.446
## SE 0.324 0.280
## z -11.03 -12.30
## Pr(>|z|) < 2e-16 < 2e-16
##
## importancenotvery 0.458 0.442
## SE 0.348 0.310
## z 1.32 1.43
## Pr(>|z|) 0.1880 0.1539
##
196 CAPÍTULO 5. UNA INTRODUCCIÓN AL MUESTREO COMPLEJO

## importancesomewhat 1.327 1.203


## SE 0.271 0.235
## z 4.89 5.12
## Pr(>|z|) 1.0e-06 3.1e-07
##
## importancevery 3.141 2.977
## SE 0.262 0.225
## z 12.00 13.21
## Pr(>|z|) < 2e-16 < 2e-16
##
## genderMale 0.328 0.375
## SE 0.148 0.127
## z 2.21 2.95
## Pr(>|z|) 0.0270 0.0032
##
## educationcollege 0.418 0.393
## SE 0.229 0.198
## z 1.83 1.99
## Pr(>|z|) 0.0676 0.0468
##
## educationhigher 0.3048 -0.0359
## SE 0.2994 0.2642
## z 1.02 -0.14
## Pr(>|z|) 0.3087 0.8920
##
## educationHS 0.536 0.579
## SE 0.230 0.194
## z 2.33 2.99
## Pr(>|z|) 0.0198 0.0028
##
## educationlessHS 0.980 0.901
## SE 0.250 0.208
## z 3.92 4.32
## Pr(>|z|) 8.9e-05 1.5e-05
##
## educationsomePS 0.128 0.250
## SE 0.282 0.234
## z 0.45 1.07
5.5. INTRODUCCIÓN AL ANÁLISIS CON MUESTRAS COMPLEJAS 197

## Pr(>|z|) 0.6501 0.2859


##
## urbanurban -0.283 -0.306
## SE 0.166 0.136
## z -1.70 -2.25
## Pr(>|z|) 0.0885 0.0241
##

Como se aprecia, las estimaciones obtenidas son bastante similares. Manteniendo los otros
predictores fijos, se aprecia que la oposición al aborto se incrementa con la mayor impor-
tancia que se le dé a la religión; esta, además, es mayor en hombres que en mujeres y, en
general, mayor en los niveles educativos más bajos, aunque no monótonamente. Finalmente,
la oposición a prohibir el aborto es marginalmente más baja en residentes urbanos que en
rurales. 

5.5.3. Contrastes de medias para una, dos o más poblaciones.


Los contrastes paramétricos clásicos de medias para una, dos o más poblaciones se realizan
con las conocidas estadı́sticas t, normales y F , las cuales involucran a las medias y varianzas
muestrales de las variables de interés en el estudio. Si bien, en un diseño complejo, podrı́amos
adaptar tales estadı́sticas incorporando la varianza de la media bajo el diseño y ajustando sus
grados de libertad, resulta mucho más práctico utilizar más bien un enfoque de regresión y las
pruebas de Wald vistas en la subsección 5.5.2. Esta es precisamente la estrategia empleada
por el paquete survey a través de su comando svyttest, el cual nos permite contrastar la
hipótesis nula de que la media de la población toma un valor preespecificado µ0 o que la
media de dos poblaciones es o no la misma.

Ejemplo 5.11. Suponga que para el diseño del ejemplo 5.9 sea de interés analizar la hipótesis
de trabajo que el rendimiento medio del ı́ndice api 2000 es significativamente distinto al de
1999. Ello se podrı́a realizar mediante el comando svyttest o, alternativamente, con el
comando svyglm como seguidamente se muestra

svyttest(I(api00-api99)~0,dmuesr)

##
## Design-based one-sample t-test
##
## data: I(api00 - api99) ~ 0
## t = 7, df = 30, p-value = 3e-07
## alternative hypothesis: true mean is not equal to 0
198 CAPÍTULO 5. UNA INTRODUCCIÓN AL MUESTREO COMPLEJO

## sample estimates:
## mean
## 36

summary(svyglm(api00-api99~1, design=dmuesr))

##
## Call:
## svyglm(formula = api00 - api99 ~ 1, design = dmuesr)
##
## Survey design:
## svydesign(id = ~dnum, strata = ~stype, fpc = ~Nh, nest = T, data = mues)
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 36.01 5.29 6.81 2.6e-07 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for gaussian family taken to be 803)
##
## Number of Fisher Scoring iterations: 2

Ambos análisis, descartando redondeos, brindan los mismos resultados y muestran que
sı́ existen diferencias significativas entre las medias de los ı́ndice api 1999 y 2000.
Otra hipótesis de interés es que el ı́ndice api00 este relacionado con el nivel de educación
promedio de los padres de los alumnos en estos colegios. Para esto, recordemos que la variable
[Link] recoge el número promedio de años de estudios de los padres en cada colegio. Para
simplificar, supongamos que realizamos una clasificación del nivel educativo de los padres por
colegio, asignando a cada colegio solo una de 3 categorı́as creadas al segmentar los puntajes
promedios en 3 intervalos de más o menos igual longitud. La distribución de frecuencias y
el análisis de esta variable, que llamaremos Ed, se muestra a continuación:

table(cut(Pob$[Link],3))

##
## (0.996,2.33] (2.33,3.67] (3.67,5]
## 1771 3478 761

dmuesr = update(dmuesr,Ed = cut([Link],3))


5.5. INTRODUCCIÓN AL ANÁLISIS CON MUESTRAS COMPLEJAS 199

Si bien la prueba correspondiente es, formalmente, un ANOVA, sabemos que esta se puede
también desarrollar desde un enfoque de regresión, como

summary(svyglm(api00~Ed, design=dmuesr))

##
## Call:
## svyglm(formula = api00 ~ Ed, design = dmuesr)
##
## Survey design:
## update(dmuesr, Ed = cut([Link], 3))
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 596.8 38.9 15.34 3.1e-14 ***
## Ed(2.08,3.15] 64.7 41.7 1.55 0.13
## Ed(3.15,4.23] 211.3 42.2 5.01 3.7e-05 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for gaussian family taken to be 5402)
##
## Number of Fisher Scoring iterations: 2

Ası́, solo se aprecian diferencias significativas entre el rendimiento medio de los colegios que
tienen padres con un alto nivel educativo en comparación con colegios en los que los padres
tienen un bajo nivel. Si bien los padres con niveles altos o intermedios de educación tienen una
influencia positiva en el rendimiento de las escuelas, la diferencia de rendimientos entre los
colegios con padres de nivel educativo intermedio y bajo es muy marginal y no significativa.
Esto también puede apreciase al pedir un reporte del rendimiento de las escuelas según el
nivel educativo de los padres.

svyby(~api00,~Ed,dmuesr,svymean)

## Ed api00 se
## (0.997,2.08] (0.997,2.08] 597 38.9
## (2.08,3.15] (2.08,3.15] 662 27.3
## (3.15,4.23] (3.15,4.23] 808 15.0


200 CAPÍTULO 5. UNA INTRODUCCIÓN AL MUESTREO COMPLEJO

5.6. Ejercicios
1. En cierto estudio se empleó un diseño complejo con el fin de estimar, entre otras cosas,
el ı́ndice de pobreza de una región. Para ello se seleccionaron, bajo este diseño, 10 familias,
cuyos ı́ndices de pobreza y pesos base de muestreo se muestran a continuación:

Índice 34.8 49.7 23.8 65.4 55.2 38.8 43.7 44.8 59.7 60.3
Peso 167.10 68.04 22.31 167.10 419.81 120 100 54.31 22.54 58.79

a) Un objetivo del estudio fue determinar los cuartiles de pobreza en esta población. Estime
tales cuartiles en base al diseño utilizado.
b) Estime la varianza de los ı́ndices de pobreza de la región.

2. Un embarque contiene 60 containers, los cuales transportan un total de 6000 cajas de


fruta. Para inspeccionar este embarque se decidió, en una primera etapa, seleccionar al azar
y con reemplazamiento 4 containers y luego, de cada container seleccionado (aunque sea
repetido), seleccionar al azar y sin reemplazamiento 3 cajas para registrar sus pesos. Si el
muestreo arrojó los siguientes resultados:

Container Número de cajas Peso (en kg) de las cajas en los


seleccionado en el container containers seleccionados
23 100 10.3, 12.2, 9.8
12 80 11.2, 13.1, 9.9
8 114 8.95, 15.3, 14.4
44 93 11.60, 10.53, 11.8

a) Muestre que la probabilidad de que un container cualquiera sea seleccionado en esta


inspección es 1 − ( 59
60
)4 .
b) Halle los pesos base de muestreo para cada caja seleccionada en la muestra.
c) Estime el peso promedio de las cajas de este embarque.
d) Estime el tercer cuartil de los pesos de todas las cajas de este embarque. Muestre en este
caso un código que le permita hallar tal cuartil sin usar uso del paquete survey.

3. Considere el diseño de la población penal dado en la sección 4.14.


a) Tome la muestra correspondiente y halle los pesos de muestreo para cada unidad selec-
cionada.
b) Una de las variables importantes en esta población es la situación jurı́dica del interno.
Estime, bajo este diseño, la proporción de internos sentenciados y el efecto de diseño corres-
pondiente.
c) Ajuste, de ser posible, los pesos en b) por no respuesta y estime, bajo estas nuevas
ponderaciones, la proporción de internos sentenciados.
5.6. EJERCICIOS 201

4. En data de dominio público es común, por cuestiones de confidencialidad u otros, no re-


portar la información completa del diseño y tan solo presentar (pseudo) estratos o conglome-
rados, cuyo análisis válido solo podrá hacerse a través de los pesos de muestreo consignados.
Como ejemplo consideremos la National Health Interview Survey del 2013, encuesta nacio-
nal de salud por entrevistas realizada en Estados Unidos. Una versión abreviada de ella se
encuentra en el archivo [Link] del paquete PracTools del libro de Valliant et al. (2013).
Esta contiene información de 18 variables sobre un total de 21 588 registros (personas) que
respondieron a la encuesta de salud. Más información sobre esta encuesta se encuentra en

[Link]

Al no tenerse información precisa sobre este diseño, podrı́amos considerar que la data pro-
viene de un diseño por conglomerados unietápico estratificado con 2 UPM por estrato. Un
aspecto de esta base es que hay varios casos sin respuesta para la variable [Link], la cual
reporta el ingreso categorizado de la familia del encuestado en dólares. Puesto que el porcen-
taje de casos perdidos para esta variable podrı́a ser alto, serı́a de interés ver cómo realizar
los ajustes de los pesos estimando las probabilidades de no respuesta.
a) Incluyendo solo a personas menores de 18 años, estime, mediante una regresión logı́stica,
las probabilidades de no respuesta para la variable de ingresos. Asuma que los pesos dados
son los pesos base y utilice 5 grupos para los ajustes.
b) Estime la distribución etárea en esta población, y para estimar sus errores estándar de
estimación utilice el método de linealización y todos los métodos de remuestreo estudiados.

5. Para la Encuesta Nacional de Ingresos y Gastos de los Hogares (ENIGH) del 2014 llevada
a cabo en México se empleó un diseño probabilı́stico, estratificado y por conglomerados
polietápico. Las unidades primarias de muestreo fueron constituidas por agrupaciones de
viviendas con caracterı́sticas diferenciadas dependiendo del estrato donde se ubicaban, las
unidades secundarias fueron las viviendas y la unidad de observación fue el hogar. Determine
el número de hogares a considerar en la ENIGH-2014 si se estimó que el número de hogares
para el 2014 en México fue de 31 374 724. Para ello considere como variable de referencia al
ingreso corriente total del hogar y que se desea estimar este con un error no mayor a los
1,068 pesos a un nivel de confianza del 90 %. Tome en cuenta que en la ENIGH-2012 se
utilizó un diseño similar y que en ella se estimó la desviación estándar de los ingresos por
hogar en 44 157.8329 pesos, un efecto de diseño de 3.73 y una tasa de no respuesta del 15 %.

6. Se desea realizar una encuesta por muestreo complejo para averiguar, entre otras cosas,
con un error no mayor a 0.07 y una confianza del 95 %, la proporción de satisfacción de los
trabajadores en su centro laboral para un determinado sector. Un estudio similar se realizó el
año pasado, y para este se reportó un efecto de diseño de 2.4 y un porcentaje de satisfacción
del 73 %. Si el marco actualizado de trabajadores del sector cuenta con 12 378 trabajadores,
¿cuál deberı́a ser el tamaño de muestra a considerar?
202 CAPÍTULO 5. UNA INTRODUCCIÓN AL MUESTREO COMPLEJO

7. Suponga que en el Casen 2011 estuviéramos interesados en estimar la tasa de pobreza


por región con un error de estimación de 0.5 puntos porcentuales menor al tomado en el
diseño Casen 2011. Calcule los tamaños de muestra que deberı́an tomarse para esta nueva
especificación. Utilice un nivel de confianza del 95 %.
8. Considere los siguientes resultados de una muestra con probabilidades proporcionales al
stock tomada para el problema 19 del capı́tulo 4:

Tienda Núm. de celulares Núm. de celulares Total de ventas Núm. de celulares


YTRON en stock vendidos del celular vendidos con rebaja
1 55 22 15 395 17
6 120 60 44 230 35
9 35 18 13 440 6
13 30 19 13 470 13
Estime la proporción de celulares YTRON vendidos con rebaja y el monto recaudado por
las ventas de estos celulares. Reporte, en el último caso, el error estándar de estimación
estimado.
9. En el siguiente ejemplo tomado de Lohr (2000) es de interés estimar la edad promedio de
los árboles de un parque. La manera más precisa de medir la edad de un árbol es contando el
número de anillos de crecimiento en su tronco. Este método, sin embargo, es complicado, por
lo cual alternativamente podrı́amos simplemente medir el diámetro del árbol. Un guardabos-
ques ha tomado la medida del diámetro de todos los 1132 árboles del parque y encontrado
una media de 10.3 pulgadas. Si, por otro lado, seleccionó al azar y sin reemplazamiento 20
árboles del parque para realizar la medición clásica y encontró lo siguiente:

Árbol N o . 1 2 3 4 5 6 7 8 9 10
Diámetro 12.0 11.4 7.9 9.0 10.5 7.9 7.3 10.2 11.7 11.3
Edad 125 119 83 85 99 117 69 133 154 168
Árbol N o . 11 12 13 14 15 16 17 18 19 20
Diámetro 5.7 8.0 10.3 12.0 9.2 8.5 7.0 10.7 9.3 8.2
Edad 61 80 114 147 122 106 82 88 97 99

a) Muestre un diagrama de dispersión del diámetro de los árboles seleccionados y la edad


obtenida por el método de los anillos.
b) Estime, sin tomar en cuenta el diámetro, la edad media de los árboles del parque.
c) Utilice un estimador de razón para estimar la edad media de los árboles del parque.
d) Ajuste un modelo de regresión entre la edad y el diámetro y use este modelo para la
estimación de interés. Compare esta estimación con la de las anteriores.
e) Use el método Jackknife para estimar la varianza del coeficiente de regresión en d). ¿Cómo
se compara este estimador con el obtenido con el método de linealización?
5.6. EJERCICIOS 203

10. Un parámetro de interés en la base de datos muestral apistrat del paquete survey es el
número total de estudiantes que tomaron el test api (variable [Link]).
a) Obtenga la estimación de Horvitz-Thompson del número de estudiantes que tomaron el
test api, ası́ como su error estándar de estimación.
b) Obtenga la estimación en a) con los métodos jackknife y bootstrap.
c) Obtenga a), pero ahora con un estimador de razón que utilice como variable auxiliar el
número total de alumnos matriculados.
d) Indique cuál de las dos estimaciones anteriores elegirı́a y por qué. Más aún, dado que
conoce la base de datos poblacional, compare también las dos estimaciones con el verdadero
valor del parámetro de interés.

11. En la subsección 5.4.2 describimos el estimador de razón y una aproximación de la


varianza de este estimador vı́a linealización.
a) Indique cuál cree que sea la la razón por la que el paquete survey, en la estimación de una
media bajo un muestreo por conglomerados bietápico, utiliza por defecto para la estimación
del error estándar la fórmula de un estimador de razón.
b) Muestre la validez de la fórmula (4.3) para la varianza del estimador de razón de la media
bajo un diseño por conglomerados bietápico.

12. Murgia (2018) realizó el primer estudio de adopción BIM en proyectos de edificación
en Lima y Callao. El BIM es un nuevo método de trabajo que integra a todos los agentes
que intervienen en un proceso de edificación, como arquitectos, ingenieros, constructores,
promotores, etc., y establece un flujo de comunicación trasversal entre ellos, generando un
modelo virtual que incluye toda la información relacionada con la edificación a lo largo de
su ciclo de vida. El estudio se basó en un muestreo por conglomerados bietápico, tomándose
como marco muestral el 22o . estudio “El Mercado de las Edificaciones Urbanas de Lima
Metropolitana y El Callao”(CAPECO, 2017) y una proyección y actualización del número
de obras para el tiempo de recolección de los datos. El marco muestral, unidades primarias
seleccionadas y unidades secundarias consideradas se muestran en la figura 5.2. Como se
aprecia, el universo de edificaciones en Lima y Callao se dividió en siete sectores urbanos
(estratos), que, a su vez, se subdividieron en distritos y zonas. Como se puede ver, Miraflores
y San Isidro se ubican en el sector urbano Lima Top. Sin embargo, Miraflores está dividido
en 2 zonas al igual que San Isidro. Los conglomerados de primera etapa fueron las zonas y
los de segunda las obras en cada una de las zonas. Si las repuestas en la encuesta acerca de
si en la obra se habı́a adoptado o no la metodologı́a BIM fueron, respectivamente, para cada
una de las obras mostradas en la figura 5.2 las siguientes: No No No Sı́ No Sı́ No No No Sı́ No
No No No No No No No Sı́ Sı́ Sı́ No No Sı́ No No Sı́ No Sı́ Sı́ No No No No No Sı́ No Sı́ No No No
Sı́ Sı́ No No No No No No Sı́ Sı́ No No No Sı́ No No Sı́ No No No No No No No Sı́ No No No No
No No No No Sı́ No No Sı́ No No No No No No No No No No Sı́ No No No Sı́ No No No No No
Sı́ No No No No No No No No No Sı́ No No Sı́ No No No Sı́ No No No No No No No No No No
No No No No Sı́ No No Sı́ No No No Sı́ No No No No No No Sı́ No No No Sı́ No Sı́ No Sı́ No No
5.6. EJERCICIOS 205

13. Suponga que en el 2016 el gobierno de la región de Cajamarca tenı́a interés en conocer,
entre otras cosas, la proporción de internos sentenciados, de reos que consumı́an drogas y
la distribución de tipos de delito cometidos por los internos de sus penales. Para ello se
diseñó una encuesta por muestreo que consideró a cada establecimiento penal como un do-
minio. El diseño definió como variable de estratificación al género de los internos del penal.
Por otro lado, dado que los penales en la región son bien diferenciados, siendo de lejos el de
Cajamarca el más grande (los otros dominios son Chota, Jaén y San Ignacio), el diseño consi-
deró seleccionar aquı́ una muestra ppt (proporcional al número de internos de cada pabellón)
de 4 pabellones para internos hombres (de un total de 9 pabellones que deberı́a considerar)
y solo 2 pabellones de internas mujeres. Finalmente, para los pabellones seleccionados de
hombres se tomó un MASs de 10 internos y en el de las de mujeres se entrevistaron a todas
las mujeres de los dos pabellones. Dado que los otros dominios contaban, con tan solo un
pabellón, en estos se procedió a tomar un MASs de 30 reos hombres por penal y censar a las
mujeres en estos penales. Tomándose la muestra correspondiente y considerándose el censo
penal del 2016 solo como marco muestral,
a) Estime para el dominio de Chota la proporción de internos sentenciados y su error estándar
de estimación.
b) Estime para el dominio de Cajamarca la proporción de internos sentenciados y su error
estándar de estimación.
c) Dé una estimación de los otros dos parámetros de interés tanto en Cajamarca como en
Chota.
d) ¿Cuál serı́a la estimación y el error estándar de estimación estimado para la proporción
de sentenciados en toda la región de Cajamarca?
e) ¿Podrı́a concluir, a un nivel de significación de α = 0.05 que en esta región existe asociación
entre el consumo de drogas de los internos y el tipo de delito cometido?

14. En un terreno se ha resembrado una especie de árbol y se desea estimar, entre otras cosas,
la altura promedio de estos árboles pasados 5 años de iniciada la reforestación. El terreno
se dividió en 50 lotes de tamaños similares, donde 30 lotes están bajo la administración de
una compañı́a privada y 20 bajo la administración de una compañı́a estatal. Suponga que
le brindan la información que aparece en el cuadro 5.2, donde se consignan las alturas en
centı́metros de un conjunto de árboles seleccionados mediante un MASs en cada uno de 5
lotes también seleccionados por un MASs dentro de cada administración, ası́ como el número
de árboles en cada lote seleccionado que mostraron ya algún signo de floración
a) Estime la altura promedio de los árboles en el terreno y su error de estándar de estimación.
¿Cuál serı́a la estimación de la desviación estándar de las alturas de estos árboles?
b) Estime la proporción de árboles en el terreno que muestran signos de floración y su error
de estándar de estimación.
c) Estime los efectos de diseño en las estimaciones anteriores.
206 CAPÍTULO 5. UNA INTRODUCCIÓN AL MUESTREO COMPLEJO

Administración Núm. Núm. Núm. Altura


de de árboles de árboles de los
árboles con floración muestreados árboles
Privada 52 30 5 32.72, 26.68, 29.42, 24.52, 34.04
Privada 56 35 6 25.43, 23.30, 18.32, 23.08, 20.68, 24.24
Privada 51 28 5 35.47, 37.18, 31.32, 29.08, 34.24
Privada 49 39 5 24.10, 27.50, 34.30, 30.88, 31.26
Privada 45 33 6 30.88, 27.78, 27.84,32.23, 28.83, 30.03
Estatal 60 26 6 16.47, 12.77, 17.28, 13.14, 15.53, 10.13
Estatal 46 25 5 17.62, 20.20, 17.73,18.21, 15.32
Estatal 50 37 5 14.86, 18.36, 14.82, 21.37, 17.09
Estatal 61 33 6 23.53, 26.66, 21.30, 22.76, 23.48, 23.26
Estatal 60 34 6 18.09, 25.29, 20.80, 22.96, 24.03, 25.23

Cuadro 5.2: Datos del diseño para el ejercicio 14

15. Se desea estimar el rendimiento medio en lectura de los estudiantes del segundo año
de educación secundaria de la provincia constitucional del Callao. Considere, como marco
muestral, la ECE 2019 y utilice un muestreo estratificado de conglomerados bietápico. Los
estratos estarán definidos por el tipo de gestión del colegio (Estatal y No estatal). En cada
estrato se considerarán conglomerados de primera etapa a los colegios y de segunda etapa
a los alumnos. Para simplificar, puede suponer que dispone de un presupuesto limitado que
solo alcanza para seleccionar a 30 colegios y a un máximo de 20 alumnos por colegio.
a) Obtenga una estimación del rendimiento medio en lectura de los estudiantes del segundo
año de secundaria del Callao, ası́ como su error estándar de estimación.
b) Obtenga una estimación del rendimiento medio en lectura de los estudiantes del segundo
año de secundaria por cada estrato, ası́ como sus errores estándares de estimación.
c) Si para el estrato estatal utiliza un muestreo con probabilidades proporcionales al número
de estudiantes, en la primera etapa, y un MASs de estudiantes en la segunda etapa, mejorı́a
su estimación del rendimiento medio en lectura?
d) Obtenga el número total estimado de profesores en los colegios del Callao. No tiene
que hacer aquı́ un trabajo de campo para obtener tal información, pero sı́ puede utilizar,
por ejemplo, la página web ESCALE del Ministerio de Educación que tiene información
actualizada de todos los colegios en el paı́s. Reporte aquı́ el intervalo de confianza al 95 %
para este total y estime el efecto de diseño.
5.6. EJERCICIOS 207

16. Suponga que para estimar el ı́ndice de rendimiento medio api para el año 2000 en la
población api, usted decide realizar un muestreo complejo que consiste en utilizar primero
un MAE usando como variable de estratificación el tipo de colegio y tomando luego, con
probabilidades proporcionales al tamaño (de la variable enroll), un muestreo por conglo-
merados de, respectivamente, 10 distritos con colegios de tipo elemental, 5 con colegios de
tipo medio y 5 con colegios de tipo alto.
a) Estime el ı́ndice de rendimiento medio api del 2000 para la población de escuelas públicas
de California y de sus estratos, ası́ como el ı́ndice que deberı́a haber obtenido una escuela en
ese año para ser considerado en el tercio superior.
b) Use, bajo este diseño, un análisis de regresión para analizar si la variable emer afecta al
ı́ndice api del 2000.
17. En el paquete survey de R tiene disponible la base de data poblacional elections, en donde
se muestran la cantidad de votos que los tres candidatos Bush, Kerry y Nader alcanzaron en
cada uno de los 4600 condados en su postulación para la presidencia de los Estados Unidos
en el 2004.
a) Use el método de Tillé para seleccionar una muestra sin reemplazamiento de 40 condados
con probabilidades proporcionales al número de votos alcanzados en estos. Adicione luego a
esta base de datos ppsample las probabilidades de selección y los pesos de muestreo wt.
b) Basándose en la muestra anterior y el diseño

ppsr <- svydesign(id=~1,weight=~wt, data = ppsample),

estime el total de votos que cada uno de estos candidatos alcanzó en las elecciones del 2004.
Indique qué es lo que este diseño asume.
c) Realice un pequeño estudio de simulación al replicar b) 1000 veces. Compare luego la
media de los totales estimados con los reales y obtenga intervalos de confianza al 95 % para
los totales poblacionales calculando la cobertura sobre los verdaderos valores.
d) Obtenga las estimaciones de Horvitz-Thompson para los totales pedidos y sus errores
estándar de estimación estimados. Compare estas con las estimaciones en b).
Apéndice A

Sugerencias o respuestas a los


ejercicios pares

Este apéndice incluye algunas sugerencias o soluciones a los ejercicios pares del texto. Para
efectos de reproducibilidad usaremos, en lo posible, la semilla aleatoria [Link](12345).
En caso de que esta semilla no sea consistente con su version particular de R, podrı́a tratar
antes con el comando RNGkind(sample_kind="Rounding").

Capı́tulo 1
2. a) Si X denota el número de vales de 50 soles que Juan obtendrá y la selección es
con reemplazamiento, entonces X ∼ B(4, 15 ). Si no hay reemplazamiento, X ∼ H(5, 1, 4).
Ası́ P (X ≥ 1) es mayor en el segundo caso, pues en R 1-dbinom(0,4,0.2)= 0.5904 y
1-dhyper(0,1,4,4)= 0.8.
b) Sea (X1 , X2 , X3 , X4 , X5 ) ∼ M ul(4; 0,2, 0,2, 0,2, 0,2, 0,2) el vector aleatorio que denota el
número de veces que ganarán 50 soles, respectivamente, Juan, Pepe, Rosa, Luis y Marı́a.
Entonces, marginalizando P (X1 = 1, X3 = 2) = 0.0576. Esta no coincide con la probabilidad
P (X1 = 3) = 0.0256 de que Juan gane 300 soles.
c) Considerando a Rosa y Luis como una sola categorı́a, su distribución para el número de
vales ganados entre los dos es binomial y, por tanto, la probabilidad de que ellos ganen los
4 sorteos es ( 25 )4 = 0.0256.
d) El monto que Juan obtendrá es M = 50X1 y su esperado es de 40 soles.
4. a) Sea (X1 , X2 , X3 ) el vector aleatorio cuyas componentes denotan, respectivamente, el
número de artı́culos con defectos de tipo A, B y sin defecto en la muestra de los 20 artı́culos
de la producción. Por construcción, (X1 , X2 , X3 ) ∼ HM ul(20; 12, 8, 180) y la utilidad por
vender estos artı́culos es U = 25X3 − 5X1 − 10X2 . Se pide

P (U = 400) = P (25(20 − X1 − X2 ) − 5X1 − 10X2 = 400) = P (500 − 30X1 − 35X2 = 400)

209
210 APÉNDICE A. RESPUESTAS A LOS EJERCICIOS PARES

= P (6X1 + 7X2 = 20) = P (X1 = 1, X2 = 2, X3 = 17).


Esto se calcula en R por

choose(12,1)*choose(8,2)*choose(180,17)/choose(200,20)

## [1] 0.0587

b) Por otro lado, el valor esperado de U en soles es


180 12 8
E(U ) = 25E(X3 ) − 5E(X1 ) − 10E(X2 ) = 25 × 20 × − 5 × 20 × − 10 × 20 × = 436,
200 200 200
mientras que la varianza de U es igual a

V (U ) = 625V (X3 )+25V (X1 )+100V (X2 )−250Cov(X3 , X1 )−500Cov(X3 , X2 )+100Cov(X1 , X2 )


3600
= (625(180)(20) + 25(12)(188) + 100(8)(192) + 250(180)(12)
7 960 000
+500(180)(8) − 100(12)(8)) = 1678.07.
Por tanto, la desviación estándar de las utilidades es de 40.96426 soles.
6. El número de personas entrevistadas en la encuesta más pequeña, que ya habı́an sido
entrevistadas en la encuesta más grande, X, satisface X ∼ H(50, 20, 10). Por tanto, su valor
esperado y varianza vienen dados, respectivamente, por E(X) = 4 y V (X) = 1.959.
8. a) Denotemos a Xi como la v.a. que nos dice cuántas cápsulas del medicamento genérico
contiene la caja i, i = 1, 2, 3, 4. Naturalmente, X1 ∼ H(24, 4, 6).
b) Se nos pide P (X3 = 4). Dado que la selección se hace secuencialmente, podrı́amos rees-
cribir esta probabilidad como

P (X3 = 4) = P (X3 = 4 | X1 = 0, X2 = 0)P (X2 = 0 | X1 = 0)P (X1 = 0)

C44 C28 C04 C614 C04 C620 C44 C220


= × × = = 0.001411632.
C612 C618 C624 C624
Esta probabilidad es la misma de considerarse la caja 1 o cualquier otra caja.
c) Vimos que X1 ∼ H(24, 4, 6), consecuentemente su distribución de probabilidades es

dhyper(0:4,4,20,6)

## [1] 0.28797 0.46076 0.21598 0.03388 0.00141

Por otro lado, la función de probabilidad de X2 se puede hallar al condicionar sobre X1


mediante
211

P2 <-function(x){
x1 = c(0,1,2,3,4)
sum(dhyper(x,4-x1,14+x1,6)*dhyper(x1,4,20,6))}

Similarmente, condicionándose a las selecciones previas, las funciones de probabilidad de


X3 y X4 se obtienen mediante las funciones

P3 <-function(x){
A = matrix(0,5,5)
for(x1 in 0:4){
for(x2 in 0:(4-x1)){
ax1 = dhyper(x,4-x1-x2,8+x1+x2,6)*dhyper(x2,4-x1,14+x1,6)
A[x1+1,x2+1]=ax1*dhyper(x1,4,20,6)}}
sum(A)}

P4 <-function(x){
A = array(0,dim = c(5,5,5))
for(x1 in 0:4){
for(x2 in 0:(4-x1)){
for(x3 in 0:(4-x1-x2)){
ax2 = dhyper(x,4-x1-x2-x3, 2+x1+x2+x3,6)*dhyper(x3,4-x1-x2,8+x1+x2,6)
A[x1+1,x2+1,x3+1]=ax2*dhyper(x2,4-x1,14+x1,6)*dhyper(x1,4,20,6)}}}
sum(A)}

Como se comprueba con, por ejemplo, X4

c(P4(0),P4(1),P4(2),P4(3),P4(4))

## [1] 0.28797 0.46076 0.21598 0.03388 0.00141

todas estas funciones nos brindan la misma distribución que la de la variable aleatoria X1 .
d) Como el rango del vector (X1 , X2 , X3 , X4 ) son los números naturales cuya suma es 4, se
tiene que

PX1 X2 X3 X4 (x1 , x2 , x3 , x4 ) = P (X4 = x4 | X1 = x1 , X2 = x2 , X3 = x3 )P (X3 = x3 | X2 = x2 , X1 = x1 )

×P (X2 = x2 | X1 = x1 )P (X1 = x1 )
1 −x2 8+x1 +x2 14+x1
Cx4−x C6−x Cx4−x 1
C6−x C 4 C 20 C6 C6 C6 C6
= 1x4 (x4 ) 3
12
3
× 2
18
2
× x1 246−x1 = x1 x2 24x3 x4 .
C6 C6 C6 C4
212 APÉNDICE A. RESPUESTAS A LOS EJERCICIOS PARES

e) Sea Y la v.a. que denota el número de cajas que contienen alguna cápsula genérica. El
rango de esta v.a es RY = {1, 2, 3, 4} y se tiene que

P (Y = 1) = P (X1 = 4)+P (X2 = 4)+P (X3 = 4)+P (X4 = 4) = 4P (X1 = 4) = 0.005646527.

P (Y = 2) = C24 P (X1 = 2, X2 = 2, X3 = 0, X4 = 0) + C24 P (X1 = 1, X2 = 3, X3 = 0, X4 = 0)


+C24 P (X1 = 3, X2 = 1, X3 = 0, X4 = 0) = 0.2625635.
P (Y = 4) = P (X1 = 1, X2 = 1, X3 = 1, X4 = 1) = 0.121965
y, por complemento, P (Y = 3) = 0.609825.
10. Formalmente, (Xi , Xj , Xm , Xo ) ∼ Hmul(n; Mi , Mj , Mm , N − Mi − Mj − Mm ), donde Xo
denota los elementos seleccionados en la muestra que no pertenecen a las clases i, j, ni m;
sin embargo, para cualquier x1 , x2 y x3 entero, siempre se cumple que
3

P (Xi = x1 , Xj = x2 , Xm = x3 ) = P (Xi = x1 , Xj = x2 , Xm = x3 , Xo = n − xi )
i=1

M N −M −Mj −Mm
CxM1 i Cx2 j CxM3 m Cn−3i
i=1 xi
= .
CnN
Decir, por tanto, que el vector aleatorio (Xi , Xj , Xm ) tiene distribución hipergeométrica
multivariada no es en verdad cierto, aun cuando su distribución se derive de esta última. La
función de probabilidad del vector (Xi , Xj , Xm ) viene dada por la expresión anterior.
6
12. Para encontrar el estimador, propongamos uno lineal de la forma p̂ = i=1 ci Xi δi .
1
6 n i Mi
Condicionando al vector (δ1 , δ2 , . . . , δ6 ), E(p̂) = 6 i=1 ci Ni . El valor de la constante ci

que hace que este sea insesgado es, por tanto, ci = nNi N̄i , donde N̄ = 16 6i=1 Ni . El estimador
insesgado de p es por tanto,
6
1 
p̂ = Ni p̄i δi .
N̄ i=1
La varianza de este estimador viene, por la proposición 1.5, dada por

V (p̂) = E (V (p̂ | δ1 , . . . , δ6 )) + V (E(p̂ | δ1 , . . . , δ6 )) .

Como las muestras a tomar en cada caja se pueden asumir independientes, se tendrá que
6 6
1  2 2 1  1 Mi Mi Ni − ni 2 2
V (p̂ | δ1 , . . . , δ6 ) = V (p̄ i )Ni δ i = (1 − )( )N δ
2
N̄ i=1 2
N̄ i=1 ni Ni Ni Ni − 1 i i

y ası́,
6 6
1  1 Mi Mi Ni − ni 2 1 1  Mi (Ni − Mi )(Ni − ni )
E (V (p̂ | δ1 , . . . , δ6 )) = 2 (1− )( )N = .
N̄ i=1 ni Ni Ni Ni − 1 i 6 6N̄ 2 i=1 ni (Ni − 1)
213

1
6
Por otro lado, como E(p̂ | δ1 , . . . , δ6 ) = N̄ i=1 Ni pi δi , se tiene que
 
6 6  6
1  

V (E(p̂ | δ1 , . . . , δ6 )) = N 2 2
p V (δ ) + Ni Nj pi pj Cov(δi , δj )
N̄ 2  i=1 
i i i
i=1 j=1
i=j
 
6
 6 
 6
1  5

= Ni2 p2i − Ni Nj p i p j 
.
36N̄ 2  i=1 i=1 j=1
i=j

Por tanto, la varianza pedida viene dada por


 
6
 6
 6 
 6
1   Mi (Ni − Mi )(Ni − ni ) 5 1 
V (p̂) =  + Ni2 p2i − Ni N j p i p j 
.
6N̄ 2
i=1
ni (Ni − 1) 6 i=1
6 i=1 j=1
i=j

14. a) Si X denota la cantidad de personas encuestadas de las tres primeras instituciones,



entonces X ∼ H(M, M1 + M2 + M3 , n), donde M = N i=1 Mi . Se pide

CnM1 +M2 +M3


P (X = n) = .
CnM
b) Similarmente, sea Y la v.a. que denota el número de personas encuestadas de la primera
M1
institución. Entonces Y ∼ H(M, M1 , n) y P (N e = 1) = P (Y = n) = CCnM , donde M1 ≥ n.
n
N
c) Como se sugiere, la v.a. N e se puede escribir como N e = 1 , don-
Ni=1 {Xi >0}
de (X1 , X2 , . . . , XN ) ∼ Hmul(M ; M1 , M2 , . . . , MN ). Ası́, E(N e) = i=1 E(1{Xi >0} ) =
N N N M −Mi
Cn
i=1 P (Xi > 0) = i=1 (1 − P (Xi = 0)) = i=1 (1 − Cn M ).
d) La probabilidad de que la muestra esté constituida solo por participantes de las tres
28
C16
primeras instituciones es P (X = 16) = C 100 = 2.26 × 10−11 . Por otro lado, P (N e = 1) =
16
17
C16
100
C16
= 1.263 × 10−17 . Se espera, por otro lado, entrevistar a personas de aproximadamente

x = c(17 , 8 , 3 , 4 , 6 , 9 , 12 , 14 , 1 , 2 , 1 ,4 , 2 , 10 , 2 , 5)
round(sum(1-choose(100-x,16)/choose(100,16)))

## [1] 9

instituciones, donde x denota el vector del número de personas por institución. Finalmente,
para que N e = 2 deberı́an seleccionarse cualesquiera de los siguientes conjuntos de institu-
ciones {8, 10}, {8, 13}, {8, 15}, {7, 4}, {7, 12} y {14, 5}. Por tanto, utilizándose la distribución
hipergeométrica multivariada, se tendrá que

P (N e = 2) = P (X8 = 14, X10 = 2, X0 = 0) + P (X8 = 14, X13 = 2, X0 = 0)


214 APÉNDICE A. RESPUESTAS A LOS EJERCICIOS PARES

+P (X8 = 14, X15 = 2, X0 = 0) + P (X7 = 12, X4 = 4, X0 = 0)


+P (X7 = 12, X12 = 4, X0 = 0) + P (X14 = 10, X5 = 6, X0 = 0),
donde X0 denota el número de personas encuestadas de las otras instituciones no considera-
das al interior de las probabilidades. Note que todas estas probabilidades son las mismas e
1 6
iguales a C 100 y, por tanto, P (N e = 2) = C 100 = 4.458 × 10−18 .
16 16

16. a) Si X denota el número de parqueos que tendrá que pagar el turista, se tiene que
X ∼ H(12, 9, 4) y, por tanto, su valor esperado es E(X) = 4×9
12
= 3.
b) Para simular se puede usar la función rhyper

[Link](12345)
rhyper(1,9,3,4)

## [1] 3

Otra manera es mediante

[Link](12345)
min(which(phyper(0:4,9,3,4)>runif(1)))-1

## [1] 3

c) No es adecuada, pues la selección de parques en el lazo (for) es con reemplazamiento y se


dice que el turista elige 4 de los 12 parques.

Capı́tulo 2
2. a) Note que X ∼ H(N, m, n). Un desarrollo de Taylor de segundo orden para N̂1 alrededor
de la media de X, µ = E(X) = nmN
, nos da la aproximación
nm nm 2nm
N̂1 = − 2 (X − µ) + 3 (X − µ)2 .
µ µ µ
Tomando el valor esperado obtendremos la primera expresión a probar. En cuanto a la
varianza de N̂1 , podrı́amos considerar solo el desarrollo de primer orden y obtener, tomando
varianzas a esta, la aproximación
n2 m2 N4 m m N −n N 2 (N − m)(N − n)
V (N̂1 ) = V (X) = n (1 − ) = .
µ4 n2 m2 N N N −1 nm(N − 1)
m m mr
b) Note que Y ∼ BN (r, p = N
), luego E(N̂2 ) = r
E(Y )= r p
= N . Similarmente,

m2 m2 r(1 − p) N (N − m)
V (N̂2 ) = 2
V (Y ) = 2 = .
r r p2 r
215

Por otro lado,

m2 2 m2 r(1 − p) r2 r2 N (N − m)
E(V̂ (N̂2 )) = 2
(E(Y ) − rE(Y )) = 2
( 2
+ 2 − )= .
r (r + 1) r (r + 1) p p p r

Una desventaja del muestreo inverso es que el número de selecciones hasta obtener los r
elementos marcados puede ser grande, lo cual hace que este sea costoso y tome mucho
tiempo.
c) N̂1 = 500 y N̂2 = 508. Reemplazando en V (N̂1 ), N por su estimación N̂1 y usando V̂ (N̂2 ),
obtendremos
V̂ (N̂1 ) = 48 097.95 y V̂ (N̂2 ) = 41 318.95.
En esta aplicación, el muestreo inverso parece ser más preciso.
4. a) Si es un estimador insesgado.
σ2 2nc2
b) V (Ȳc ) = (1 − Nn )( Nn−1 + N −1
).
c) No hay contradicción.
6. Recordemos que toda muestra en un MASc puede representarse por un vector
(δ1 , δ2 , . . . , δN ), donde δi denota el número de veces que la unidad i es seleccionada. Es-
tas v.a. toman valores en el conjunto {0, 1, 2, . . . , n} y satisfacen

δ1 + δ2 + . . . + δN = n.

Si identificamos ahora a cada valor entero positivo por igual número de barras verticales
y mantenemos los signos +, podrı́amos, entonces, identificar cada muestra por una única
secuencia de barras verticales y signos +. Por ejemplo, si N = 9 y n = 6 una posible muestra
es que la primera unidad sea elegida 3 veces, la cuarta 2 veces y la octava una vez; esto es:

(3, 0, 0, 2, 0, 0, 0, 1, 0),

pues
3 + 0 + 0 + 2 + 0 + 0 + 0 + 1 + 0 = 6.
Ası́, esta muestra se representará por la secuencia

||| + + + || + + + +|+

Consecuentemente, el número total de muestras que se podrán obtener en un MASc es igual


al número de maneras que podrı́amos ordenar estas secuencias, donde se tienen n caracteres
repetidos de tipo | y N − 1 caracteres repetidos de tipo +. Esto es bien conocido y viene
dado por la cantidad de permutaciones con elementos repetidos; es decir, por

(N + n − 1)!
= CnN +n−1 .
n!(N − 1)!
216 APÉNDICE A. RESPUESTAS A LOS EJERCICIOS PARES

8. a) Usando la regla conservadora p̄ = 0.5, se tiene que n = 86.


b) (XA , XB , XC , XD ) ∼ HM ul(86; 10, 20, 8, 682) denota el número de fábricas que serán
seleccionadas de cada consorcio y D para los que no están en un consorcio. En particular,
XB ∼ H(720, 20, 86) y P (XB > 0) = 1 − P (XB = 0) = 0.9242674.
c) El valor esperado es 107.75 o aproximadamente 108.
10. a) Nn .
b) NM−n .
c) Definiendo los eventos Ai y Bi como, respectivamente, yo y mis padres seamos seleccio-
nados en el i-ésimo dı́a, se nos pide

P (A1 ∩ B1 ) + P (A2 | Ac1 ∩ B1 )P (Ac1 ∩ B1 ) + P (B2 | A1 ∩ B1c )P (A1 ∩ B1c )

+P (A2 ∩ B2 | Ac1 ∩ B1c )P (Ac1 ∩ B1c ).


Condicionando aquı́ las probabilidades condicionales del segundo dı́a con respecto a la v.a.
X =número de viviendas que no responden el primer dı́a ∼ B(n, q), se sigue que esta
probabilidad viene dada por N (Nn−1) (n − 1 + 4nq + (n − 1)q 2 ).
d) Podrı́amos agregar la v.a Y = número de viviendas que responden el segundo dı́a. Note
que Y | X = x ∼ B(x, 1 − q). Ası́, la probabilidad de que se complete el tamaño de muestra
planificado viene dada por
n

P (Y = x | X = x)P (X = x) = (1 − q 2 )n
x=0

y la probabilidad pedida es 1 − (1 − q 2 )n .
e) 0.3027767.
12. a) Considere la primera caracterización de S 2 y sume y reste Ȳ al interior de (Yi − Yj )2 .
Desarrollando el cuadrado y operando es inmediato llegar a la fórmula tradicional de S 2 .
b) En un MASc,

 n n  n n
2 1 1
E(S ) = E(Yi − Yj )2 = V (Yi − Yj )2 .
2n(n − 1) i=1 j=1 2n(n − 1) i=1 j=1
i=j i=j

n n  n n
1 1
= (V (Yi ) + V (Yj ) − 2Cov(Yi , Yj )) = 2σ 2 = σN
2
.
2n(n − 1) i=1 j=1 2n(n − 1) i=1 j=1 N
i=j i=j

Por otro lado, en un MASs,


 n n  n n
1 1 σ2
E(S 2 ) = (V (Yi )+V (Yj )−2Cov(Yi , Yj )) = 2
(σN +2N +2 N −1 )
2n(n − 1) i=1 j=1 2n(n − 1) i=1 j=1 N
i=j i=j
217

2
2 σN −1 2
= σN + = σN −1 .
N
c) Basta tomar el lı́mite cuando N → ∞.
14. a) La función de probabilidad de X es PX (x) = CxN ( N1 )5 ax , donde

ax = 11x=1 (x) + 301x=2 (x) + 1501x=3 (x) + 2401x=4 (x) + 1201x=5 (x).

b) Podrı́a definir la variable dicotómica δi∗ = 1δi >0 , donde δi ∼ B(5, N1 ), y expresar el esti-

mador como τ̂ ∗ = C N ∗
i=1 yi δi . Sobre la base de ello, la constante que hace a este estimador
insesgado es C = 1−q , donde q = (1 − N1 )5 .
1

c) La varianza de este estimador viene dada por


N N N
∗ q  2 (1 − N2 )5 − q 2  
V (τ̂ ) = y +( ) yi yj .
1 − q i=1 i (1 − q)2 i=1 j=i

d) El código

F = (1:15)/15
u = c(0.327, 0.894, 0.131, 0.289, 0.643)
m = NULL
for(i in 1:5) m[i] = min(which((F>u[i]) == TRUE))
m

## [1] 5 14 2 5 10

nos dice que la muestra está conformada por 4 personas distintas.


 N ∗
16. a) Sea yi∗ = yi γi , entonces E(τ̂d ) = Nn N ∗
i=1 yi E(δi ) = i=1 yi = τd .
b) Dado que los datos de y ∗ los podemos particionar en dos subconjuntos de tamaños Nd y
N − Nd , donde el primero contiene los datos del dominio y el segundo son todos 0, la media
µ∗d de estos datos es µ∗d = NN d µd
y su varianza satisface

2 1
σ∗d = ((Nd − 1)σd2 + (N − Nd − 1) × 0 + Nd µ2d + (N − Nd ) × 0 − N µ2∗d )
N −1
1
= ((Nd − 1)σd2 + qd Nd µ2d ).
N −1
c) Como τ̂d = N Ȳd , donde Ȳd es la media muestral en la población estadı́stica Py∗ , se tiene
por la proposición 2.2 que
n σ2
V (τ̂d ) = N 2 (1 − ) ∗d ,
N n
2
siendo σ∗d la varianza poblacional de Py∗ .
218 APÉNDICE A. RESPUESTAS A LOS EJERCICIOS PARES

d) Basta reemplazar b) en c) y considerar la fórmula del tamaño de muestra de un total


2
z1− 2 2
α σ∗d N
sobre la población Py∗ : n = N z2 2α σ2 +e2 , la cual se obtiene del de la media, redefiniendo el
1− 2 ∗d
error.
e) Solo considerar en la fórmula anterior que e = Nd µd z1− α2 CV0 y aproximar de manera
natural las fracciones de los tamaños en la población total y del dominio.
f) Se nos brindan las estimaciones µ̂d = 5100 y σ̂d = 380, con lo cual la estimación actual del
consumo total de agua en la zona será de 15 millones y 300 000 litros. Dado que desconocemos
Nd (asumiendo que en el trabajo de campo no hubo presupuesto para obtener este valor),
podrı́amos usar la aproximación dada en d) con las estimaciones anteriores y p̄d = 0.6. Ası́,
el tamaño de muestra requerido será de n = 204 viviendas.
18. a) El tamaño de muestra requerido se calculará sobre la base de las estimaciones del
mismo ı́ndice en 1999 como:

N = dim(apipop)[1]
z = qnorm(0.975)
mu0 = mean(apipop$api99)
s0 = sd(apipop$api99)
e = mu0*z*0.03
n = (N*(z*s0)^2)/((z*s0)^2 + N*e^2)
(n = ceiling(n))

## [1] 49

El diseño y las estimaciones son

[Link](12345)
muestra = apipop[sample(N,n),]
dism = svydesign(ids= ~1,fpc= rep(N,n),data = muestra)
(m = svymean(~api00,dism))

## mean SE
## api00 646 17.9

(svytotal(~enroll,dism,[Link]=T))

## total SE
## enroll 3853806 395991

(svyby(~api00, ~stype, dism, svymean))


219

## stype api00 se
## E E 650 20.4
## H H 665 38.1
## M M 581 66.5

siendo los verdaderos valores de estos parámetros los siguientes:

mean(apipop$api00)

## [1] 665

sum(apipop$enroll,[Link]=T)

## [1] 3811472

[Link](by(apipop$api00,apipop$stype,mean))

## apipop$stype
## E H M
## 672 634 656

Note que el error de estimación en la estimación del api00 es |645.65 − 664.7126| = 19.0626,
que es menor al preestablecido de 37.1558 puntos. Por otro lado, se tiene el CV estimado y
el intervalo de confianza al 95 % para la media siguientes:

(CV = [Link](100*SE(m)/coef(m)))

## [1] 2.76

confint(m)

## 2.5 % 97.5 %
## api00 611 681

último que contiene a la verdadera media del ı́ndice api 2000.


20. a) Basta desarrollar
N N N N
1 1 1 
Cov( xi δ i , yj δ j ) = 2 ( xi yj Cov(δi , δj )),
n i=1 n j=1 n i=1 j=1

recordando que (δ1 , δ2 , . . . , δN ) ∼ Hmul(n; 1, . . . , 1).


220 APÉNDICE A. RESPUESTAS A LOS EJERCICIOS PARES

b) Un estimador natural para esta covarianza estará dada por

ˆ X̄, Ȳ ) = (1 − n ) Sxy ,
Cov(
N n
donde:
N
1 
Sxy = (xi − X̄)(yi − Ȳ )δi
n − 1 i=1
es la covarianza muestral entre x e y. No es difı́cil mostrar que este es un estimador insesgado
de la covarianza anterior.
22. a) Utilizando el paquete survey

[Link](12345)
(index1 = sample(100,20))

## [1] 73 87 75 86 44 16 31 48 67 91 4 14 65 1 34 40 33 97 15 78

Las áreas de los rectángulos seleccionados son

aream=c(10,48,8,12,40,24,54,54,56,40,10,8,14,12,50,20,3,42,6,30)
areas1 = [Link](aream)

y las estimaciones pedidas las calculamos mediante

disMASs = svydesign(id=~1,fpc = rep(100,20),data=areas1)


(m1 = svytotal(~aream, disMASs))

## total SE
## aream 2705 379

confint(m1,level=0.98)

## 1 % 99 %
## aream 1823 3587

b) Para el MASc tenemos

[Link](12345)
(index2 = sample(100,20,replace=TRUE))

## [1] 73 88 77 89 46 17 33 51 73 99 4 16 74 1 40 47 39 41 18 96
221

aream=c(10,36,100,18,21,56,3,49,10,60,10,24,27,12,20,8,30,45,56,6)
areas2 = [Link](aream)
disMASc = svydesign(ids=~1,weights = rep(5,20),data=areas2)
(m2 = svytotal(~aream, disMASc))

## total SE
## aream 3005 549

confint(m2,level=0.98)

## 1 % 99 %
## aream 1728 4282

24. a) Con los datos dados creamos la base de datos [Link]. Las estimaciones pedidas
se obtendrán mediante el código

load("[Link]")
disTS = svydesign(id=~1,fpc=rep(700,35),data = TallaS)
m = svymean(~Estatura,disTS)
svyvar(~Estatura,disTS)

## variance SE
## Estatura 0.00721 0

svymean(~Sexo,disTS)

## mean SE
## SexoHombre 0.686 0.08
## SexoMujer 0.314 0.08

b) El error será

[Link](qnorm(0.975)*SE(m))

## [1] 0.0274

c) No serı́a adecuado.
2
z1− 2
ασ N
σ 2 /µ2
d) n = 2
2
z1− α σ +e2 N
2 = σ 2 /((N µ2 )+CV02 )
. Estimando los parámetros µ y σ 2 con los datos de la
2
muestra y fijándose CV0 = 0.005, obtendremos que n = 84.
26. a) 0.024451.
222 APÉNDICE A. RESPUESTAS A LOS EJERCICIOS PARES

b) EL IC contiene a 0.5, por lo cual no podrı́a asegurarse que el candidato opositor vaya a
ganar las elecciones.
28. a) El código en R serı́a

[Link](12345)
N = dim(apipop)[1]
n = 500
index = sample(N,n)
sample = apipop[index,]
disMASs = svydesign(id=~1,fpc=rep(N,n),data = sample)
means = svymean(~api00+api99,disMASs)
(contr = svycontrast(means,c(api00=1,api99=-1)))

## contrast SE
## contrast 30.5 1.23

b) Se nos pide

confint(contr)

## 2.5 % 97.5 %
## contrast 28.1 32.9

c) Considere la variable d = y − x, que es la diferencia entre los ı́ndices api para el 2000
y 1999. El TLC para el esquema MASs de la sección 2.2 permitirá, asumiendo muestras y
poblaciones grandes, construir el siguiente IC al 100(1 − α) % para la diferencia de medias
del ı́ndice api entre el 2000 y 1999:

IC = [D̄ − z1− α2 SE(D̄) , Ȳ + z1− α2 SE(D̄) ],



donde el error estándar de estimación de la diferencia de medias SE(D̄) = V (D̄) =

V (X̄) + V (Ȳ ) − 2Cov(X̄, Ȳ ) podrı́a estimarse, según la proposición 2.2 y el ejercicio 20,
por 
ˆ D̄) = 1 (1 − n )(Sx2 + Sy2 − 2Sxy )
SE(
n N
Realizando los cálculos, obtendremos

Dbar = mean(sample$api00 - sample$api99)


Sx2 = var(sample$api99)
Sy2 = var(sample$api00)
Sxy = cov(sample$api99,sample$api00)
223

e = 1.96*sqrt((1 - n/N)/n)*sqrt(Sx2+Sy2-2*Sxy)
c(Dbar-e,Dbar+e)

## [1] 28.1 32.9

valores que son prácticamente iguales a los obtenidos con el paquete survey.

Capı́tulo 3
2. a) Un estimador insesgado natural de µD es µ̂D = Ȳ1 − Ȳ2 y el de su error estándar de
estimación es
n1 S12 n2 S22
V̂ (µ̂D ) = (1 − ) + (1 − ) .
N1 n 1 N2 n 2
b) Bastará resolver
2 σ2
n 1 σ1
mı́nn1 ,n2 (1 − )
N1 n 1
+ (1 − Nn22 ) n22 ,
s.a n 1 + n2 = n

cuya solución es n1 = σ1σ+σ


1n
2
y n = n − n1 = σ1σ+σ
2n
2
.
c) Puesto que no se tienen las varianzas poblacionales, podrı́amos resolver el problema ante-
rior con el estimador insesgado V̂ (µ̂D ) y obtener las estimaciones n1 = S1S+S 1n
2
= 44..128+3
128×300
.46 =
163.2051 y n2 = n − n1 = 136.7949. Sin embargo, como este es en verdad un problema de
programación entera, deberı́amos de evaluar en la función objetivo las dos posibles soluciones
163 y 164 para n1 y escoger la que la minimice. Ellos nos brinda n1 = 163 y n2 = 136.
 nh Sh
2
4. Puesto que en un MAE, Ȳ y V̂ (Ȳ ) = H Nh 2
h=1 ( N ) (1 − Nh ) nh son, respectivamente, estima-
dores insesgados de los parámetros µ y V (Ȳ ) en la población estadı́stica Py de una variable
y, se tiene que
H Nh
(N − n) 1  Nh 
E(V̂M ASs (Ȳ )) = ( y 2 E(δhi ) − E(Ȳ 2 ) + V (Ȳ ))
n(N − 1) N h=1 nh i=1 hi
 H  Nh 2
 2 2
 2
(N − n) yhi (N − n) σN −1 (N − 1) + N µ n σN
= ( h=1 i=1 2
−E(Ȳ ) ) = − µ2 = (1− ) −1 .
n(N − 1) N n(N − 1) N N n
6. Utilizando la semilla aleatoria [Link](12345) y una asignación proporcional obtendre-
mos en R una estimación del total de 2935 unidades, con un error de estimación estimado de
176.71. El IC pedido será [2523.914 , 3346.086]. Si bien la estimación con el MASc es, por
azar, ligeramente más cercana al verdadero valor, hay que apreciar que el MAE nos brinda
estimaciones más confiables que la del MAS, pues su error estándar de estimación estimado
es mucho menor.
224 APÉNDICE A. RESPUESTAS A LOS EJERCICIOS PARES

8. a) Si X = (X1 , X2 , . . . , XH ) ∼ Hmul(n; N1 , N2 , . . . , NH ) es el vector aleatorio que denota


los tamaños de muestra en los pos(estratos), entonces la distribución marginal de Xh es
hipergeométrica y por tanto E(Xh ) = n NNh y V (Xh ) = n NNh (1 − NNh ) N −n
N −1
. Ası́,

H
 H

Nh Nh
E(Ȳ ) = E(Ȳh ) = E(E(Ȳh |Xh )) = µ,
h=1
N h=1
N

donde:
 
E(E(Ȳh |Xh )) = E(Ȳh |Xh = nh )P (Xh = nh ) = µh P (Xh = nh ) = µh ,
nh nh

la suma va sobre todos los posibles valores que puede tomar la distribución hipergeométri-
ca marginal de Xh y la última igualdad se da por ser Ȳh un estimador condicionalmente
insesgado de µh .
b) Puesto que

H H
Nh Xh σh2 Nh 1 1
V (Ȳ |X) = ( )2 (1 − ) = ( )2 σh2 ( − ),
h=1
N Nh X h h=1
N X h Nh

la varianza (no condicionada) de Ȳ puede obtenerse mediante

H
Nh 1 1
V (Ȳ ) = E(V (Ȳ |X)) + V (E(Ȳ |X)) = ( )2 σh2 (E( ) − ).
h=1
N X h N h

c) N̂h = Nn Xh .
d) Como E( X1h ) no tiene expresión conocida, podrı́amos considerar la expansión de Taylor
de la función f (x) = x1 evaluada en Xh hasta la segunda derivada alrededor de E(Xh ) y
tomar esperados para obtener la aproximación:

1 ∼ 1 1 N N 2 Nh N − n
E( )= + 3
V (Xh ) = +( ) (1 − ) .
Xh E(Xh ) E(Xh ) nNh nNh N N −1

Substituyendo la expresión anterior en V (Ȳh ) = E(V (Ȳh )) = (E( X1h ) − 1


Nh
)σh2 , obtendremos
que

H H H
Nh N − n  Nh 2 1 N − n  N − Nh 2
V (Ȳ ) = ( )2 V (Ȳh ) ∼
= ( )σh + 2 ( ) ( )σh .
h=1
N nN h=1 N n N − 1 h=1 N

e) Los estimadores incondicionales y condicionales se calculan respectivamente con


225

[Link](12345)
N = dim(apipop)[1]
n = 100
index1 = sample(N,n)
sam = apipop[index1,]
FreqNh = table(awards=apipop$awards)
Nh = [Link](FreqNh)
Sh = [Link](by(sam$api00,sam$awards,sd))
Vc = ((N-n)/(n*N))*sum((Nh/N)*Sh^2)
Vi = Vc + ((N-n)/((N-1)*n^2))*sum((N-Nh)*Sh^2/N)
c(Vi,Vc)

## [1] 159 158

Cabe comentar que el paquete survey no utiliza estos estimadores, sino uno propuesto
por Valliant (1993) basado en residuales. Este nos provee de la siguiente estimación de la
varianza de la media bajo post-estratificación:

disMASs = svydesign(ids=~1,fpc=rep(N,n),data = sam)


dispost = postStratify(disMASs,~awards,FreqNh)
m = svymean(~api00,dispost)
SE(m)^2

## api00
## api00 165

10. a) La probabilidad es 0.1328151.


b) Dado que en la muestra piloto se tiene información estimada de las proporciones, suge-
rirı́amos una asignación de Neyman, lo que nos da n = 336.
12. Con la asignación de Neyman, los tamaños de muestra en los estratos de obreros, técnicos
y administradores serı́an, respectivamente, 46, 26 y 6; mientras que con la proporcional, 42,
29 y 9.
14. a) En este caso, la variable sexo define dos dominios de estudio, por lo cual obtendremos
lo pedido mediante

load("[Link]")
dis19MAE = svydesign(id=~1,strata=~Estrato,fpc=~fpc,data=me19Am)
svyby(~M500_M,~sexo,dis19MAE,svymean)
226 APÉNDICE A. RESPUESTAS A LOS EJERCICIOS PARES

## sexo M500_M se
## Hombre Hombre 534 4.29
## Mujer Mujer 521 3.97

b) Podrı́amos tomar en primer lugar el estrato estatal y considerar que en esta población
se tiene una estratificación por área. Luego podrı́amos obtener la media ȲmE del dominio
de mujeres bajo este diseño parcial. De manera similar, obtendrı́amos para el diseño parcial
estratificado no estatal la media ȲmN E del dominio de mujeres. Puesto que las muestras son
independientes, la media µD de las diferencias en rendimiento para Matemáticas entre los
dominios de estudiantes mujeres de colegios estatales y no estatales se podrı́a estimar con su
correspondiente media muestral D̄ = ȲmE − ȲmN E y un IC aproximado para µD tendrá la
forma D̄ ± z1− α2 V̂ (ȲmE ) + V̂ (ȲmN E ), donde las varianzas se pueden estimar a partir de
(3.5). Dependiendo de si este contiene el valor 0 o no, podremos afirmar al 100(1 − α) % si
existen o no diferencias significativas.
c) La misma estrategia funciona para los hombres.
16. a) Definición de la base de datos y cálculo de los tamaños de muestra:

load("[Link]")
ece19Cz = ece19[ece19$Departamento==levels(ece19$Departamento)[8],]
ece19Cz$Estrato=interaction(ece19Cz$area,ece19Cz$gestion2)
save(ece19Cz,file='[Link]')
load("[Link]") # Base de datos 2018
ece18Cz = ece18[ece18$Departamento==levels(ece18$Departamento)[8],]
ece18Cz$Estrato=interaction(ece18Cz$Area,ece18Cz$Gestion2)
ece18Cz = ece18Cz[order(ece18Cz$Estrato),]
sigmah_e = sqrt(by(ece18Cz$M500_M,ece18Cz$Estrato,var,[Link]=T))
sigmah_e = [Link](sigmah_e)
Nh = [Link](table(ece19Cz$Estrato))
ah = Nh*sigmah_e/sum(Nh*sigmah_e)
d = dim(ece19Cz)[1]*5/qnorm(0.975)
n = sum(((Nh*sigmah_e)^2)/ah)/(d^2 + sum(Nh*sigmah_e^2))
(n = ceiling(n)) # Número de alumnos a tomar (n)

## [1] 929

(nh = round(ah*n)) # Distribución de n por estratos

## [1] 649 154 124 2

b) Las estimaciones pedidas estarán dadas por


227

library(sampling)
[Link](12345)
ece19Cz = ece19Cz[order(ece19Cz$Estrato),]
mCz = strata(ece19Cz,c("Estrato"),size=nh,method="srswor")
me19Cz = getdata(ece19Cz,mCz)
disMAECz = svydesign(ids=~1,strata=~Estrato,fpc = rep(Nh,nh),data=me19Cz)
(meanECz = svymean(~M500_M,disMAECz,deff=T,[Link]=T))

## mean SE DEff
## M500_M 566.77 2.89 0.89

c) Puesto que las muestras en los dominios de Cusco y Amazonas son independientes, el IC
al 95 % pedido viene dado por

SE = sqrt(SE(meanECz)^2 + SE(meanEAm)^2)
LI = coef(meanECz)-coef(meanEAm) - qnorm(0.975)*SE
LD = coef(meanECz)-coef(meanEAm) + qnorm(0.975)*SE
c(LI,LD)

## [1] 31 47

lo cual revela que el rendimiento medio en Matemáticas de los alumnos del Cusco es signifi-
cativamente mayor que el de los alumnos de Amazonas.
18. a) Tomadas las muestras de 21,4 y 5 alumnos en, respectivamente, los estratos E, H y M
se obtuvieron con la semilla aleatoria 12345 las estimaciones σ̂E = 134.6075, σ̂H = 654.9485
y σ̂M = 529.6044.
b) nE = 493, nH = 410, nM = 447.
c) El número de matriculados se estima en 3 788 376 estudiantes con un IC al 95 % de
[3 712 051 , 3 864 701].
d) La estimación serı́a de 0.67437 con un error de estimación estimado de 0.0136.
20. La solución mostrada, se basa en datos tomados el 2017. Usted debe actualizar esta
solución, pues la página web de Amazon es dinámica. Para el ejercicio, nuestra base de datos
o marco muestral la obtuvimos a través del paquete rvest de R.
La muestra y las estadı́sticas pedidas se obtendrán con el código siguiente:

library(sampling)
library(survey)
library(stringr)
load("[Link]")
228 APÉNDICE A. RESPUESTAS A LOS EJERCICIOS PARES

AmazonStat = AmazonStat[order(AmazonStat$tipos),]
AmazonStat[1:3,]

## titulos
## 3 Statistics, 4th Edition
## 8 Elementary Statistics: Picturing the World (6th Edition)
## 12 Elementary Statistics (12th Edition)
## autores fechas precios starsf
## 3 David Freedman and Robert Pisani Feb 13, 2007 128 4.1
## 8 Ron Larson and Betsy Farber Jan 12, 2014 34 4.2
## 12 Mario F. Triola Dec 31, 2012 14 4.1
## tipos
## 3 Hardcover
## 8 Hardcover
## 12 Hardcover

Nh = table(AmazonStat$tipos)
nh = round(70*Nh/sum(Nh))
[Link](12345)
me=strata(AmazonStat,c("tipos"),size=nh,method="srswor")
meAmazon = getdata(AmazonStat,me)
disme = svydesign(id=~1,strata=~tipos,fpc=~rep(Nh,nh),data=meAmazon)
(mprecios = svymean(~precios,disme))

## mean SE
## precios 42.3 3.78

(mstar = svymean(~starsf,disme,[Link]=T))

## mean SE
## starsf 4.86 0.57

aux = unlist(lapply(meAmazon$fechas, str_sub, 9,12))


(mp2017 = svymean((aux=="2017"),disme))

## mean SE
## [1,] 0.0857 0.03
229

Capı́tulo 4
2. Las estimaciones del total y de su error estándar de estimación, usando la semilla 12345,
se muestran en la tabla siguiente:
Diseño Total Error estándar de estimación
MASc 15 8.19178
MASs 15 7.326915
MAE 7.5 3.172663
Sistemático 25
Conglomerados bietápico 25 4.472136

4. a) Las ventas medias (utilizando un estimador de razón, que no es insesgado) en el área


se estiman en 97.9279  94 cajas por semana.
b) Si se tiene información para estimar el número total de cajas del producto A vendidas
en todos los supermercados del área durante la semana. Este total y su error de estimacion
pueden ser, indistintamente, estimados por el estimador de Horvitz-Thompson o por τ̂r =
ˆ . Usando esta última representación, se obtiene la siguiente estimación
K̂ Ȳr , donde K̂ = N M̄
τ̂r = 20 × (29.4) × 97.9279 = 57 608.
6. a) El número total de residentes jubilados se estima en 3900 con un error estándar de
estimación de 635.96.
b) El número promedio de residentes jubilados por casa se estima en 0.98113 con un error
estándar de estimación de 0.1127.
c) Sı́ se puede estimar mediante
300
1
µˆτ = Mi Ȳi δi ,
4 i=1
donde Mi denota el número de casas en la manzana i e Ȳi es la media muestral del número
de jubilados por casa en la manzana i. Reemplazando, obtendremos una estimación de 13
jubilados promedio por manzana, con un error estándar de estimación estimado de 0.9.
8. Procedamos primero a demostrar el insesgamiento de los estimadores de la varianza del
estimador de Horvitz-Thompson.

E(V̂HT (τ̂HT )) = E(E(V̂HT (τ̂HT ) | δ1 , . . . , δN ))


N
 N  N N
(1 − πi ) πij − πi πj τi τj V (τ̂i )
= E( E(τˆi 2 )δi + ( ) δi δj + δi )
i=1
πi2 i=1 j=1
π ij π π
i j i=1
πi
j=i
N
 N N
  πij − πi πj τi τj  V (τ̂i )N
(1 − πi )
= 2
(V (τˆi ) + τi2 )πi + ( ) πij + πi
i=1
πi i=1 j=1
πij πi πj i=1
πi
j=i
230 APÉNDICE A. RESPUESTAS A LOS EJERCICIOS PARES

N
 N 
 N N
(1 − πi ) τi τ j 
= (V (τˆi ) + τi2 ) + (πij − πi πj ) + V (τ̂i ) = V (τ̂HT ).
i=1
πi i=1 j=1
πi πj i=1
j=i

De manera similar,

E(V̂SY G (τ̂HT )) = E(E(V̂SY G (τ̂HT ) | δ1 , . . . , δN ))

N  N N
πi πj − πij V (τ̂i ) V (τ̂j ) τi τj 2
= ( )( 2 + + ( − ) )π ij + V (τ̂i )
i=1 j>i
πij πi πj2 πi πj i=1

N 
 N  N N  N
τi τj V (τ̂i ) V (τ̂j )
= (πi πj − πij )( − )2 + (πi πj − πij )( 2 + 2
)+ V (τ̂i ).
i=1 j>i
πi πj i=1 j>i
πi πj i=1

El segundo término a la derecha en esta expresión, que llamaremos x, resulta por la propo-
sición 4.2 ser igual a
N N N
1  V (τ̂i ) V (τ̂j ) 
x= (πi πj − πij )( 2 + 2
)− V (τ̂i )
2 i=1 j=i πi πj i=1

N
 N
 N

V (τ̂i ) V (τ̂i )
=n − (n − 1) − V (τ̂i ),
i=1
πi i=1
πi i=1

término que reemplazándose arriba en la expresión nos lleva a la ecuación dada en (5.6).
10. a) Sea πij la probabilidad conjunta de que se seleccionen en la muestra a las personas i

y j. Dado que la probabilidad de inclusión πi satisface πi = j=i πij , se tendrá que

π1 = 0.2 + 0.1 + 0.1 = 0.4


π2 = 0.2 + 0.3 + 0.15 = 0.65
π3 = 0.1 + 0.3 + 0.15 = 0.55
π4 = 0.1 + 0.15 + 0.15 = 0.4

b) La tabla siguiente nos muestra todas las posibles muestras de tamaño 2, ası́ como sus
probabilidades conjuntas y acumuladas:

Muestra πij Πij


{1,2} 0.2 0.2
{1,3} 0.1 0.3
{1,4} 0.1 0.4
{2,3} 0.3 0.7
{2,4} 0.15 0.85
{3,4} 0.15 1
En base a
231

[Link](12345)
> runif(1)
[1] 0.7209039

la muestra estará conformada por las personas 2 y 4. Con ellos obtenemos una estimación
(de Horvitz-Thompson) de
1 4
+ = 11.53846;
0.65 0.4
es decir, de entre 11 y 12 hermanos. El error estándar de estimación estimado para este total
es de 6.185814 y 7.246029, respectivamente, para los estimadores de Horvitz-Thompson y de
Sen-Yates-Grundy.
12. Como δ = (δ1 , δ2 , . . . , δN ) ∼ M ul(n; ψ1 , ψ2 , . . . , ψN ) y los τ̂i son insesgados, se tiene que
N δi N δi N N
1  τ̂ij 1  τi 1 τi 1
E(τ̂ψ ) = E(E( | δ)) = E( )= E(δi ) = nτi = τ.
n i=1 j=1
ψi n i=1 j=1
ψi n i=1 ψi n i=1

Por otro lado,

N N
1 τi 1  V (τ̂ij )
V (τ̂ψ ) = V (E(τ̂ψ | δ)) + E(V (τ̂ψ | δ)) = V ( δ i ) + E(δi )
n 2
i=1
ψi 2
n i=1 ψi2

N N N N
1  τi 2 1   τi τ j 1  V (τ̂ij )
= ( ) V (δ i ) + Cov(δ i , δ j ) +
n2 i=1 ψi n2 i=1 j=1 ψi ψj n i=1 ψi
i=j

N N N N
1  τi2   1  V (τ̂ij )
= ( (1 − ψi ) + τi2 − ( τi ) 2 ) +
n i=1 ψi i=1 i=1
n i=1 ψi
N N N
1 τi 1  V (τ̂ij ) 1  τi2 + V (τ̂ij )
= ψi ( − τ ) 2 + = ( − τ 2 ).
n i=1 ψi n i=1 ψi n i=1 ψi
Finalmente, no es difı́cil ver que el estimador de la varianza puede escribirse como
N 
 δi
1 τ̂ij2
V̂ (τ̂ψ ) = ( − nτ̂ψ2 ).
n(n − 1) i=1 j=1 ψi2

Ası́, condicionándose, la esperanza de este estimador viene dada por


N

1 E(τ̂ij2 )
E(V̂ (τ̂ψ )) = E(E(V̂ (τ̂ψ ) | δ) = ( E(δi ) − nV (τ̂ψ ) − nE(τ̂ψ )2 )
n(n − 1) i=1 ψi2

N

1 V (τ̂ij ) + τi2 1
= ( nψi ( ) − nV (τ̂ψ ) − nτ 2 ) = (nV (τ̂ψ ) − V (τ̂ψ )) = V (τ̂ψ ).
n(n − 1) i=1 ψi2 n−1
232 APÉNDICE A. RESPUESTAS A LOS EJERCICIOS PARES

14. a) El error estándar de estimación estimado es de 0.5664.


b) La estimación de µ es 5.1.
c) La desviación estándar es 0.7248 y su estimación es 0.5818.
d) La media se estima en 5.917 y la proporción en 0.667.
e) Se distribuirı́a en 3 por cada zona.
f) En ambos casos la estimación serı́a de 5.8.
g) Podrı́amos obtener los efectos de diseño, donde claramente el MAE resulta ser más efi-
ciente.
h) Estas cooperativas serán seleccionadas con probabilidad 0.0783.
i) La estimación de µ será de 5.981.

16. La estimación del número medio de personas por auto será de 4.1625 con un error estándar
de estimación estimado de 0.6771.

18. a) Los distritos seleccionados serı́an el tercero, séptimo, décimo primero y décimo cuarto.
Si se evalúan las probabilidades de inclusión de segundo orden, varias de estas asociadas a
los distritos seleccionados son 0. Por lo tanto, si bien será posible estimar la proporción de
colegios unidocentes pedida en aproximadamente 0.22, no será posible obtener la estimación
de Horvitz-Thompson de su error estándar de estimación.
b) Ordinalmente, los distritos seleccionados bajo un muestreo por conglomerados de una
etapa (con semilla aleatoria 12345) serı́an el 10, 11, 13 y 15; mientras que, usando el esquema
de Sampdforf, obtuvimos los distritos 1, 6, 13 y 15.
c) La proporción estimada de colegios unidocentes en la región y su margen de error estimado
al 95 % se muestran en la tabla siguiente:

Esquema Proporción estimada Margen de error


Conglomerados 0.28147 0.0675
Sampdford ppt 0.21536 0.0563

Como se observa, el muestreo ppt resultó ser más preciso, lo cual que se puede también
comprobar aquı́, ya que la verdadera proporción poblacional es de 0.213.

20. En este ejercicio es necesario crear una base de datos agregada de colegios con las sumas
de los rendimientos evaluados. Puesto que estos últimos contienen casos perdidos, los impu-
taremos por su valor medio. Hecho esto, el boxplot deberı́a quedar (ello, dependerá de las
simulaciones) como por ejemplo.
233

800
700
600
500
400

Poisson

Syst

Rsyst

Til e

Midzuno

Pivotal

Cong
Como se aprecia, todos los planes ppt, con excepción del de Poisson, muestran claramente
una mayor precisión en las estimaciones del rendimiento medio en Matemáticas que el del
muestreo aleatorio por conglomerados de una etapa.
22. a) La probabilidad de selección de la parcela es 0.1.
b) Este se estima en 114.6667 con un error estándar de estimación estimado de 15.912226.
c) El número de árboles severamente afectados en el condado se estima en 383.12 con un
error estándar de estimación estimado de 67.306.
d) Se podrı́a usar un estimador de razón en la que el numerador se obtenga por lo hallado
en c) y el denominador vienen dado por el número de árboles con infección en el condado,
el cual se estima en 1961.875. En consecuencia, nuestra estimación de la proporción pedida
383.125
vendrı́a dada por 1961 .875 = 0.1952851.
e) El código en R para la estimación del caso es el siguiente:

[Link](12345)
areas = c(400,580,674,920,180,300,380, 555,990,602,508,210,350,678,440,735)
num = c(16,21,18,24,24,23,25,51,42,19,11,10,36,21,37,12)
pik = inclusionprobabilities(areas,8)
m = UPsampford(pik)
HTestimator(num[m==1],pik[m==1])
## [,1]
## [1,] 436
pik2 = UPsampfordpi2(pik)
sqrt(varHT(num[m==1],pik2[m==1,m==1],1))
## [1] 51.1
234 APÉNDICE A. RESPUESTAS A LOS EJERCICIOS PARES

f) De ejecutarse el código se obtiene una estimación de 0.17169 con un SE de 0.0154. El


primer número corresponde a la estimación del promedio en el condado de las proporciones
por parcela de árboles infectados que tienen una infección severa y el segundo corresponde
a su error estándar de estimación estimado.

Capı́tulo 5
2. a) Puesto que el muestreo de containers es con reemplazamiento, se tiene que X = número
1
de veces que un container es seleccionado ∼ B(4, 60 ). Se nos pide, por lo tanto, P (X > 0) =
59 4
1 − P (X = 0) = 1 − ( 60 ) .
b) Si el container i tiene Mi cajas, sea Yij =número de veces que la caja j del container i es
seleccionado. Se cumple entonces que Yij | Xi = x ∼ B(x, M3 i ), donde Xi ∼ B(4, 60 1
) es la v.a
que denota el número de veces que el container i es seleccionado. El peso de muestreo para
la caja j del container i viene dado entonces por ωij = πj1πi , donde πi = 1 − ( 59
60
)4 y

πj|i = P (Yij ≥ 1 | Xi ≥ 1) = 1 − P (Yij = 0 | Xi ≥ 1)

4
 4
 3 x
=1− P (Yij = 0 | Xi = x)P (Xi = x) = 1 − (1 − ) P (Xi = x)
x=1 x=1
Mi
Estos pesos para las cajas de los containers 23, 12, 8 y 44 vienen dados, respectivamente,
por

M = c(100,80,114,93)
xx = 1:4
pxx = dbinom(xx,4,1/60)
pa = 1 - (59/60)^4
w <- pp <-NULL
for(i in 1:4){
pp[i] = (1-sum(pxx*(1-3/M[i])^xx))*pa
w[i] = 1/pp[i]}
w

## [1] 16.4 16.4 16.4 16.4

c) El peso promedio estimado será de 11.59 kilogramos.


d) El cuantil 0.75 estimado se puede obtener con el siguiente código:

Pesos = c(10.3,12.2,9.8,11.2,13.1,9.9,8.95,15.3,14.4,11.6,10.53,11.8)
Cong = rep(1:4,each=3)
235

Dat = [Link](Pesos,Cong,w = rep(w,each=3))


Dat$Phat = Dat$w/sum(Dat$w)
Dat = Dat[order(Dat$Pesos),]
Dat$Fhat = cumsum(Dat$Phat)
q = 0.75
index = min(which((Dat$Fhat > q)==TRUE))
y1 = Dat$Pesos[index-1]
y2 = Dat$Pesos[index]
(qhat=y1+((q-Dat$Fhat[index-1])/(Dat$Fhat[index]-Dat$Fhat[index-1]))*(y2-y1))

## [1] 12.2

4. a) Empecemos considerando solo a las personas con 18 años o más

load("/Users/lucho/Documents/TextoMuestreo2019/Bases_de_Datos/[Link]")
nhis18 = [Link][[Link]$[Link]>1,]
nhis18$resp = [Link]([Link](nhis18$[Link]))
[Link](table(nhis18$resp))

##
## 0 1
## 0.105 0.895

Como se aprecia, tenemos aquı́ un poco más del 10 % de no respuestas a la pregunta sobre los
ingresos. Para estimar las probabilidades de no respuesta utilizaremos una regresión logı́stica
con las siguientes potenciales variables predictoras:

[Link]: Edad del adulto recodificada en 4 grupos.

hisp: Etnicidad hispana (1 = Hispanos, 2 = No hispanos blancos, 3 = No hispanos


negros 4 = Otros grupos raciales no hispanos).

sex: Sexo (1 = Hombre, 0 = Mujer).

race: Raza (1 = Blanca, 2 = Negra, 3 = Otra).

No se incluyeron más variables, pues estas son las únicas sin datos perdidos en la base de
datos. El siguiente serı́a el código para el análisis de regresión logı́stica con esta muestra
compleja:
236 APÉNDICE A. RESPUESTAS A LOS EJERCICIOS PARES

[Link] = svydesign(ids=~psu, strata=~stratum, data = nhis18, nest=T,


weights=~svywt)
[Link] = svyglm(resp~[Link]([Link]) + [Link](hisp)
+ [Link](sex) + [Link](race),
family = binomial(link="logit"),design = [Link])

## Warning: non-integer #successes in a binomial glm!

lpredc = [Link]$[Link]
probpc = exp(lpredc)/(1 + exp(lpredc))
r = summary([Link])

Definamos ahora, mediante cuantiles, 5 grupos para las probabilidades de no respuesta.


Las probabilidades pedidas para estos 5 grupos serán

q = quantile(probpc,seq(0,1,0.2))
[Link] = cut(probpc,breaks=q,[Link]=T)
phi = by(data=probpc,[Link],mean)
phi

## [Link]: [0.805,0.871]
## [1] 0.857
## --------------------------------------------------------
## [Link]: (0.871,0.9]
## [1] 0.889
## --------------------------------------------------------
## [Link]: (0.9,0.904]
## [1] 0.902
## --------------------------------------------------------
## [Link]: (0.904,0.913]
## [1] 0.909
## --------------------------------------------------------
## [Link]: (0.913,0.97]
## [1] 0.918

b) Para estimar la distribución étarea, por los métodos de estimación de varianza vistos en
el curso, podrı́amos apelar al siguiente código:
237

# Definición del dise~no base


[Link] = svydesign(id=~psu, strata=~stratum,
nest=T,data=[Link], weights=~svywt)
#Estimación por el método de linealización
a1 = svymean(~factor([Link]),deff=T,design=[Link])
names = c("<=18","18-24","25-44","45-64","65+")
# Estimación por los métodos de remuestreo
[Link] = [Link](design=[Link],type="BRR")
a2 = svymean(~factor([Link]),deff=T,design=[Link])
[Link] = [Link](design=[Link],type="JKn")
a3 = svymean(~factor([Link]),deff=T,design=[Link])
[Link]=[Link](design=[Link],type="subbootstrap",replicates=1000)
a4 = svymean(~factor([Link]),deff=T,design=[Link])
list(a1,a2,a3,a4)

## [[1]]
## mean SE DEff
## factor([Link])1 0.25309 0.00371 1.57
## factor([Link])2 0.10055 0.00403 3.87
## factor([Link])3 0.28487 0.00371 1.46
## factor([Link])4 0.23968 0.00420 2.09
## factor([Link])5 0.12181 0.00402 3.27
##
## [[2]]
## mean SE DEff
## factor([Link])1 0.25309 0.00371 1.58
## factor([Link])2 0.10055 0.00406 3.93
## factor([Link])3 0.28487 0.00373 1.48
## factor([Link])4 0.23968 0.00420 2.09
## factor([Link])5 0.12181 0.00404 3.30
##
## [[3]]
## mean SE DEff
## factor([Link])1 0.25309 0.00371 1.57
## factor([Link])2 0.10055 0.00403 3.87
## factor([Link])3 0.28487 0.00372 1.46
## factor([Link])4 0.23968 0.00420 2.09
## factor([Link])5 0.12181 0.00402 3.27
##
238 APÉNDICE A. RESPUESTAS A LOS EJERCICIOS PARES

## [[4]]
## mean SE DEff
## factor([Link])1 0.25309 0.00371 1.57
## factor([Link])2 0.10055 0.00403 3.87
## factor([Link])3 0.28487 0.00372 1.46
## factor([Link])4 0.23968 0.00420 2.09
## factor([Link])5 0.12181 0.00402 3.27

6. n = 361.

8. a) La estimación de la proporción de celulares vendidos con rebaja estará dada por

stock = c( 55, 45, 10, 12, 10, 120, 18, 20, 35, 45, 10, 36, 30, 27, 15, 50)
pik = inclusionprobabilities(stock,4)
w = 1/pik
select = c(1,6,9,13)
sum(c(17,35,6,13)*w[select])/sum(c(22,60,18,19)*w[select])

## [1] 0.589

y la estimación del monto total por ventas del celular YTRON será

sum(c(15395,44230,13440,13470)*w[select])

## [1] 199261

y el de su error estándar de estimación es de 18 737.

10. a) El código siguiente nos da la estimación pedida y su error estándar de estimación


estimado:

dstrat<-svydesign(id=~1,strata=~stype, fpc = ~fpc,data=apistrat)


svytotal(~[Link],dstrat)

## total SE
## [Link] 3086009 99477

b) Bastará convertir el diseño dstrat según


239

dJKn = [Link](design=dstrat,type="JKn")
svytotal(~[Link],dJKn)

## total SE
## [Link] 3086009 99477

dboot = [Link](design=dstrat,type="subbootstrap",replicates=1000)
svytotal(~[Link],dboot)

## total SE
## [Link] 3086009 103337

c) Requerimos primero el estimador de razón y calcular el número total de estudiantes, valor


último que se asume conocido

(r = svyratio(~[Link],~enroll, dstrat))

## Ratio estimator: [Link].design2(~[Link], ~enroll, dstrat)


## Ratios=
## enroll
## [Link] 0.837
## SEs=
## enroll
## [Link] 0.00776

tenroll = sum(apipop$enroll,[Link]=T)

La estimación pedida será

tenroll*coef(r)

## [Link]/enroll
## 3190038

d) Será preferible el estimador de razón, pues su error estaándar de estimación estimado es


de 3 811 472 × 0.007757103 = 29 565.98, que es casi tres veces menor que el del estimador de
Horvitz-Thompson. Más aún, la estimación de razón es más cercana al verdadero número de
estudiantes que tomaron el test, el cual es
240 APÉNDICE A. RESPUESTAS A LOS EJERCICIOS PARES

(sum(apipop$[Link],[Link]=T))

## [1] 3196602

12. Se estima que el 23.715 % de las obras están usando la metodologı́a y el error de estima-
ción de este porcentaje, a un nivel de confianza del 95 %, es del 5.092 %.
14. a) Construida la base de datos muestral htree , que tiene el formato

load("/Users/lucho/Documents/TextoMuestreo2019/Texto2019_2/[Link]")
head(htree)

## Num Adm Lote Numa Flor Nlote Altura


## 1 1 Privada 1 52 30 30 32.7
## 2 2 Privada 1 52 30 30 26.7
## 3 3 Privada 1 52 30 30 29.4
## 4 4 Privada 1 52 30 30 24.5
## 5 5 Privada 1 52 30 30 34.0
## 6 6 Privada 2 56 35 30 25.4

se puede verificar lo siguiente:

disarb=svydesign(ids=~Lote+Num,strata=~Adm,fpc=~Nlote+Numa,nest=T,data=htree)
svymean(~Altura,disarb,deff=T)

## mean SE DEff
## Altura 24.77 1.17 1.8

b) Queda como ejercicio, pero observe que, en este caso, se tiene no un diseño estratifica-
do por conglomerados bietápico como en a) sino uno de una sola etapa. Además, este no
podrá calcularse con el paquete survey sino manualmente, pues los datos dados son solo
resúmenes.
c) En la estimación de la media, el efecto de diseño se estima en 1.7988. El de b) queda como
ejercicio.
16. a) Tomemos, en primer lugar, la muestra bajo el diseño propuesto

bb = apipop[[Link](apipop$enroll)==0,]
muestra = list()
s = c(10,5,5)
for(i in 1:3){
241

bbe = bb[bb$stype==levels(bb$stype)[i],]
denroll = [Link](by(bbe$enroll,bbe$dnum,sum))
prob = inclusionprobabilities(denroll,s[i])
[Link](12345)
auxe = cluster(bbe,clustername=c("dnum"),s[i],method="systematic",
pik= prob,description=T)
muestra[[i]] = getdata(bbe,auxe)}

## Number of selected clusters: 10


## Number of units in the population and number of selected units: 4397 594
## Number of selected clusters: 5
## Number of units in the population and number of selected units: 751 23
## Number of selected clusters: 5
## Number of units in the population and number of selected units: 1009 12

MuestraF = [Link](rbind,muestra)

Las estimaciones pedidas se obtendrán con

disc = svydesign(ids=~dnum,strata=~stype, probs=~Prob,data=MuestraF,nest=T)


svymean(~api00,disc)

## mean SE
## api00 658 25.2

svyby(~api00,~stype,disc,svymean)

## stype api00 se
## E E 646 30.5
## H H 581 35.5
## M M 736 58.4

svyquantile(~api00,disc,2/3)

## 0.67
## api00 723

b) El análisis de regresión nos brinda el siguiente resultado:


242 APÉNDICE A. RESPUESTAS A LOS EJERCICIOS PARES

rmm = svyglm(api00~emer, disc)


summary(rmm)

##
## Call:
## svyglm(formula = api00 ~ emer, disc)
##
## Survey design:
## svydesign(ids = ~dnum, strata = ~stype, probs = ~Prob, data = MuestraF,
## nest = T)
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 732.13 30.58 23.94 5.9e-14 ***
## emer -5.81 1.92 -3.03 0.008 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for gaussian family taken to be 12091)
##
## Number of Fisher Scoring iterations: 2

lo cuál indica que la contribución de la variable emer en el rendimiento de las escuelas es


significativa, y se estima que por cada 1 % que se incremente el porcentaje de profesores con
calificaciones de emergencia en la escuela, el rendimiento de la escuela baja en aproximada-
mente 5.8 puntos.
Bibliografı́a

Arias-Schreiber, F., Valdivieso, L. y Peña, A. (2019). LA EVALUACIÓN DE LAS LEYES


EN EL PERÚ: El análisis de costo-beneficio en el congreso de la República, Fondo Editorial
PUCP.

Bankier, M. (1988). Power allocation: Determining sample sizes for sub-national areas, The
American Statistician 42: 174–177.

Binder, D. (1983). On the variances of asymptotically normal estimators from complex


surveys, International Statistical Review 51: 279–292.

Burnard, P. (1992). Learning from experience: Nurse tutors and student nurses perceptions
of experiential learning in nurse education: Some initial findings, International Journal of
Nursing Studies 29: 151–161.

Cho, E. y Cho, M. (2008). The variance of sample variance from a finite population, Survey
Research Methods Section, American Statistical Association, Denver, CO.

Cochran, W. (1977). Sampling techniques, Wiley Series in Probability and Statistics.

Deville, J. y Tillé, Y. (1998). Unequal probability sampling without replacement through a


splitting method, Biometrika 85: 89–101.

Dippo, C., Fay, R. y Morganstein, D. (1984). Computing variances from complex samples
with replicate weights, Proceedings of the Survey Research Methods Section, American
Statistical Association pp. 489–494.

Efron, B. y Tibshirani, R. (1993). An Introduction to the Bootstrap, Chapman and Hall.

Fay, R. (1984). Some properties of estimates of variance based on replication methods, Pro-
ceedings of the Survey Research Methods Section, American Statistical Association pp. 495–
500.

Fournier, P., C. F. S. S. y Stolle, D. (2013). Canadian election study 2011: Study documen-
tation, Technical report, Queen’s University, Kingson, Ontario.

243
244 BIBLIOGRAFÍA

Fox, J. y Weisberg, S. (2018). An R Companion to Applied Regression, 3 edn, Sage.

Gnanadesikan, R. (1997). Statistical data analysis of multivariate observations, Wiley.

Hajek, J. (1960). Limiting distributions in simple random sampling from a finite population,
Magyar Tudoanyos Akademia Budapest Matematikai Kutato Intezet Koezlemenyei 5: 361–
374.

Hansen, M. y Hurwitz, W. (1943). On the theory of sampling from a finite population,


Annals of Mathematical Statistics 14: 333–362.

Heeringa, S. G., W. B. T. y Berglund, P. A. (2010). Applied Survey Data Analysis, Chapman


and Hall.

Horvitz, D. y Thompson, D. (1952). A generalization of sampling without replacement from


a finite universe, Journal of the American Statistical Association 47: 663–685.

Khan, M.G.M., C. M. y Ahmad, N. (2006). Optimum allocation in two-stage and stratified


two-stage sampling for multivariate surveys, Proceedings of the Survey Research Methods
Section, ASA pp. 3215–3220.

Kish, L. (1965). Survey Sampling, Wiley Series in Probability and Statistics.

Koch, GG., F. D. y Freeman, J. (1975). Strategies in the multivariate analysis of data from
complex surveys, International Statistical Review 43: 59–78.

Lehtonen, R. y Pahkinen, E. (2004). Practical Methods for Design and Analysis of Complex
Surveys, Jhon Wiley Sons, Ltd.

Little, R. y Rubin, D. (2002). Statistical Analysis with Missing Data, Jhon Wiley Sons, Inc.
New Jersey.

Lohr, S. (2000). Muestreo: Diseño y Análisis, Internacional Thomson editores.

Lumley, T. (2010). Complex surveys, Wiley Series in Survey Methodology.

Lumley, T. y Scott, A. (2014). Tests for regression models fitted to survey data, Australian
and New Zealand Journal of Statistics 56: 1–14.

McCarthy, P. (1969). Pseudoreplication: Half-samples, Review of the International Statistical


Institute 37: 239–264.

Mendenhall, W., Scheaffer, R. y Ott, L. (2007). Elementos de muestreo, Thomson editores.


BIBLIOGRAFÍA 245

Murgia, D. (2018). Primer estudio de adpción bim en proyectos de edicicación en lima y


callao 2017, Technical report, Pontificia Universidad Católica del Perú. Departamento de
Ingenierı́a.

Plackett, R. y Burman, J. (1946). The design of optimum multifactorial experiments, Bio-


metrika 33: 305–325.

Quenouille, M. H. (1949). Approximate tests of correlation in time series, Journal of the


Royal Statistical Society B 11: 68–84.

Rao, J. y Scott, A. (1981). The analysis of categorical data from complex sample surveys:
Chi-squared tests for goodness of fit and independence in two-way tables, Journal of the
American Statistical Association 76: 221–230.

Rao, J. y Scott, A. (1984). On chi-squared tests for multiway contigency tables with pro-
portions estimated from survey data, Annals of Statistic 12: 46–60.

Rao, J. y Wu, C. (1988). Resampling inference with complex survey data, Journal of the
American Statistical Association 83: 231–241.

Richardson, M. (2012). Sampling in archeology, STatistics Education Web. pp. 1–18.

Sampford, M. (1967). On sampling without replacement with unequal probabilities of selec-


tion, Biometrika 54: 499–513.

Satterthwaite, F. (1946). An approximate distribution of estimates of variance components,


Biometrics Bulletin, 2 110-114.

Thomas, D. y Rao, J. (1990). Small-sample comparison of level and power for simple
goodness-of-fit statistics under cluster sampling, Journal of the American Statistical As-
sociation 82: 630–636.

Thomas, D.R., S. A. y Roberts, G. (1996). Tests of independence on two- way tables under
cluster sampling: An evaluation, International Statistical Review 64: 295–311.

Tillé, I. (2006). Sampling Algorithms, Springer.

Tukey, J. W. (1958). Bias and confidence in not quite large samples, Annals of Mathematical
Statistics 29: 614.

Valdivieso, L. (2017). Estadı́stica aplicada. Notas de clase, PUCP.

Valliant, R. (1993). Post-stratification and conditional variance estimation, JASA 88: 89–96.

Valliant, R., Dever, J. y Kreuter, F. (2013). Practical Tools for Designing and Weighting
Survey Samples, Springer.
246 BIBLIOGRAFÍA

Wolter, K. (2007). Introduction to Variance Estimation, Springer.

Ypma, J., Borchers, H. y Eddelbuettel, D. (2018). nloptr: R Interface to NLopt, R package


version 1.2.1.
URL: [Link]
La gran mayoría de las investigaciones trabajan con datos, los
cuales se obtienen al observar una o más variables en una población
o muestra. Si bien una muestra es cualquier subconjunto de la
población, conclusiones válidas sobre esta última podrán solo
garantizarse de ser la muestra probabilística, es decir, en las que
cada unidad seleccionada tenga una probabilidad conocida de ser
tomada. Este texto, en su segunda edición corregida y aumentada,
introduce las principales técnicas para seleccionar y analizar este
tipo de muestras sobre poblaciones finitas. La finitud es aquí
relevante, pues hace que el desarrollo de estas técnicas se oriente
más por un enfoque basado en el diseño. En él, la aleatoriedad de
los resultados es producto del proceso de selección de la muestra y
no de la consideración de que la o las variables de interés
provengan de un hipotético modelo poblacional como se
acostumbra asumir en la inferencia clásica. Aparte de las técnicas o
esquemas de muestreo básicos como el del muestreo aleatorio
simple, el muestreo estratificado y el de conglomerados, el texto
introduce algunos tópicos de muestreo complejo. Este, que en la
práctica es el esquema más utilizado, se origina cuando debido a las
restricciones presupuestales y logísticas o a la configuración y
tamaño de la población, se hace necesario el restringir o combinar
dos o más esquemas básicos ya sea que las selecciones se hagan
con igual probabilidad o no. Parte central y transversal del desarrollo
del texto será el uso del software libre R, con principalmente los
paquetes survey y sampling. El texto incluye también varios ejercicios
propuestos y soluciones o sugerencias a todos los problemas pares.
Muchos de los ejemplos desarrollados en el texto y de los ejercicios
planteados se basan en datos reales locales o foráneos de dominio
público.

Common questions

Con tecnología de IA

Resource Response Theory (RRT) enhances survey research by improving the reliability and validity of data gathered, especially in contexts involving sensitive questions or non-response issues. Computationally, RRT can be advantageous by allowing indirect questioning methods that can reduce the bias related to social desirability or fear of disclosure. This can lead to more honest responses and a higher accuracy of data collection. Moreover, RRT can simplify computational requirements by reducing the need for extensive post-survey adjustments, as well as potentially enhancing statistical power by increasing the effective sample size through better participation rates .

A stratified multistage sampling design offers several advantages when estimating total population variance, including improved precision of estimates and the ability to efficiently handle population heterogeneity. By stratifying the population, researchers ensure that important subgroups are proportionally represented, which helps in reducing error variances and obtaining more accurate variance estimates of the total population. The multistage approach also reduces costs and logistical complexity by limiting data collection to representative clusters. This approach can dynamically adjust for different population densities and characteristics, enhancing the accuracy and efficiency of the variance estimation process .

A multistage sampling method might be preferred over simple random sampling in large-scale surveys due to logistical and cost-efficiency benefits. Multistage sampling allows for the reduction of fieldwork by concentrating efforts in selected clusters, which minimizes travel and data collection costs. Additionally, it improves estimates' precision by allowing for stratification within clusters, addressing heterogeneity in large populations. This method also provides flexibility in sampling design, accommodating complex population structures and enabling more manageable portions of a population to be surveyed effectively .

In a cluster sampling context, the Horvitz-Thompson estimator ensures unbiased estimation of a total population by using inclusion probabilities for both the primary sampling units (PSUs) and any two units selected. Specifically, the total population estimate involves calculating a weighted sum of estimates from each cluster, where weights are the inverse probabilities of selecting each PSU. The estimator requires independence between sampling stages and that inclusion probabilities satisfy the condition that their sum equals the sample size for PSUs .

In stratified sampling, the overall population mean is estimated by weighting the sample means of each stratum by the proportion of the total population that the stratum represents. Specifically, the mean of each stratum is estimated using simple random sampling, and then these means are combined with weights reflecting the proportion of the population each stratum covers to ensure an overall unbiased estimator. The accuracy is ensured by the smaller variances within strata, as typically the variation is lower within a homogenous group, improving precision .

The variance estimator plays a critical role in ensuring the validity of sample-based population estimates by providing a measure of the estimate's precision. Specifically, it accounts for the variation inherent in the sample data due to the randomness of selection and sample size. For complex designs like stratified or cluster sampling, calculating correctly adjusted variance estimates is crucial because these designs often involve dependencies and differing probabilities of selection, which affect the precision of estimates. By accurately estimating variance, researchers can construct confidence intervals, perform hypothesis testing, and ensure reliable decision-making based on the sample data .

Confidence intervals for population proportions benefit from using stratified sampling designs, especially in heterogeneous populations, by achieving greater precision. Stratified sampling reduces variance within strata since each group is more homogenous than the entire population. This reduction in within-stratum variability translates to smaller standard errors for estimates, allowing for narrower confidence intervals than those obtained from simple random sampling of the entire population. Such precision ensures more reliable estimation of proportions, crucial when high accuracy and specific subgroup estimates are needed .

The main advantage of using the 'survey' package in R for complex sample analyses lies in its ability to link data to the design metadata automatically and reliably. This involves incorporating weights, probabilities of selection, and identifiers for the primary sampling units and strata. Functions like 'svydesign' and 'svrepdesign' facilitate this process by creating objects that include not only the data but also the design information. This ensures valid estimations with appropriate standard errors respecting the sampling design used .

The Satterthwaite approximation is significant in statistical analysis with complex samples because it provides an effective way to calculate degrees of freedom for hypothesis tests, particularly when sample sizes among strata are small or unequal. This approximation helps correct for the additional variability observed in complex sample designs, ensuring more accurate p-values and confidence intervals. By using the approximation, researchers can maintain the accuracy of inferential statistics, which is crucial when analyzing non-normally distributed data or data with unequal variances across groups .

Without-replacement sampling often results in lower variance estimates compared to with-replacement sampling because each unit's chance of selection decreases after its selection. However, it complicates the calculation of inclusion probabilities and can introduce bias if not managed correctly. With-replacement sampling simplifies probability calculations but may require larger sample sizes to achieve similar precision .

También podría gustarte