Diseno Muestreo - Espac 2015
Diseno Muestreo - Espac 2015
SEAN
ENCUESTA DE SUPERFICIE Y
PRODUCCION AGROPECUARIA CONTINUA
DISEÑO DE MUESTREO
DE LA ESPAC
por
Guillermo Otáñez; Econ.; M.A.
CONSULTOR INEC/BID
También este sector continúa siendo una fuente crucial en la generación de divisas, a
través de la exportación de los productos tradicionales del banano, café y cacao; pero, el
Ecuador al momento trata de diversificar su cuota de participación en los mercados
internacionales con nuevos productos de origen agrícola, tales como las flores, mangos,
espárragos, brócoli, uvillas, tunas, especialmente desde el año 2000 en que se adoptó el
modelo de la dolarización.
1
Ver ‘Ecuador: Breve Análisis de los Resultados de las Principales Variables del Censo Nacional
Aropecuario’; Guillermo Otáñez y Otros. www.sica.gov.ec
1
Los indicadores presentados en los párrafos anteriores actualizadas con los resultados
del Tercer Censo Nacional Agropecuario (CNA) 20002, muestran la vital importancia
estratégica que todavía tiene el sector agropecuario en los aspectos económicos y
sociales del país.
2
Ver ‘III Censo Nacional Agropecuario: Resultados Nacionales y provinciales’, Volúmrn I. INEC,
MAG, SICA
3
La publicación de los Resultados Finales del Censo Agropecuario de 1954 indica que en el mismo no se
aplicó la metodología del muestreo de áreas por la falta de una cartografía y fotografía aérea adecuadas.
2
A finales de 1979, el INEC y el MAG, en coordinación con el Centro de Levantamiento
Integrado de Recursos Naturales por Sensores Remotos (CLIRSEN) iniciaron un
esfuerzo común para producir información estadística permanente con metodologías
científicas. En efecto, se estableció el Sistema de Estadísticas Agropecuarias
Nacionales (SEAN), aplicando la metodología del muestreo de áreas con el uso de
fotografía aérea, imágenes de satélite, mapas topográficos y cartografía censal, sistema
que desde 1982 hasta 1995 llevó a cabo 18 rondas produciendo estimaciones a nivel
provincial y nacional. Lamentablemente, a partir de 1996, la serie anual continua del
SEAN, se interrumpió por falta de voluntad política de los encargados de proveer de los
recursos financieros, puesto que los técnicos siempre estuvieron disponibles en el INEC.
3
3 EL CNA 2000
El CNA 2000 utilizó la metodología del Muestreo de Marcos Múltiples (MMM), la cual
combina el método del Muestreo del Marco de Areas (MMA) con el del Muestreo del
Marco de Lista (MML), con la finalidad de hacer más eficiente el diseño de muestro
minimizando las varianzas para un costo dado. La disponibilidad de recursos fue la
razón fundamental para utilizar el muestreo en el III CNA 2000. La recolección de los
datos se realizó mediante ENTREVISTA DIRECTA a Informantes calificados de las
UPAs incluidas en la muestra.
El diseño del MMA produjo estimaciones (agregados) a nivel nacional, provincial (21)
y cantonal (215) y cuatro zonas con problemas de límites. En la provincia de Galápagos
se realizó el CNA por enumeración completa.
La superficie total del país continental (249.585 Km2), con excepción de Galápagos, fue
dividida sobre mapas topográficos escala 1:50.000, en pequeños pedazos (26.279
UPMs) de 10 Km2 en promedio, mediante límites físicos y/o culturales fácilmente
identificables en el terreno. El MA fue construido a nivel cantonal y el cuadro 1
muestra un resumen del mismo a nivel nacional.
4
CUADRO 1
5
vi
p y i = ∑ wij y ij
j =1
donde :
p y i = Total de una var iable en el i − ésimo SM ponderado;
rh rh nm
∑ y hm ∑ ∑ p y hmi
Yˆh = N h y h = N h y r = N h m =1
= Nh m =1 i =1
=
rh rh nhm
rh nm
∑∑ p y hmi rh nh
= Nh m =1 i =1
= Fh ∑ y hm = Fh y h = ∑ Fhi' p y hi ,
nh m =1 i =1
donde :
Yˆh = Estimación del agregado de una var iable en el h − ésimo estrato;
N h = Número de SMs en la población o universo del h − ésimo estrato,
sin icluir las UPAs del MML;
9
10
• PASO 4.- Estimación del TOTAL de una Variable de un Cantón, una
Provincia y del Ecuador: simplemente se agregan sucesivamente las
estimaciones de los TOTALES de cada nivel geográfico. La fórmula es:
P C H
YˆAe = ∑ ∑ ∑F y h
'
h ,
p =1 c =1 h =1
donde :
Yˆ = Estimación con MMA del TOTAL de una var iable en el Ecuador;
Ae
P C H
var(YˆAe ) = ∑ ∑ ∑ var(Yˆ Ae ),
p =1 c =1 h =1
donde :
var(Yˆ ) = Estimación con MMA de la var ianza del TOTAL de una var iable en el Ecuador;
Ae
11
debido a la FALTA DE RESPUESTA dado que algunos SMs no son investigados en el
campo por diferentes razones (rechazos, dificultades de transporte y accesibilidad, etc.).
Entonces, en estos casos es necesario introducir factores de ponderación adecuados en
el FACTOR DE EXPANSION para suplir por la falta de respuesta. Sin embargo, no se
debe confundir la FALTA DE RESPUESTA con el caso en que un SM completo es SIN
USO AGROPECUARIO y por lo tanto, no existe ninguna UPA; en el primer caso, el
SM no entra en el cálculo de la varianza porque su efecto debe considerarse en el ajuste
del FACTOR DE EXPANSION; en el segundo, el SM tiene un valor de cero (0), por lo
que no se necesita ajustar el FACTOR DE EXPANSION, dado que se trata de un SM
que no es FALTA DE RESPUESTA.
m =1 m =1 i =1
donde :
Yˆ = Estimación SAS del TOTAL de una var iable en el estrato h − ésimo;
SAS h
Yˆ
SAS hm = Estimación del TOTAL de una var iable en la réplica m − ésima
del estrato h − ésimo;
'
Fhmi = Factor de Expansión ajustado por falta de respuesta en el i − ésimo SM
de la réplica m − ésima del estrato h − ésimo;
p y hmi = Total de una var iable ponderada en la muestra del i − ésimo SM de la réplica
m − ésima del estrato h − ésimo.
rh
∑ (Yˆ hm − Yˆh ) 2
rh
var( SAS Yˆh ) = (1 − )(rh ) m =1 ,
( N h / nm ) rh − 1
donde :
rh
∑ Yˆ hm
Yˆh = m =1
= Media por réplica de la estimación del TOTAL en el h − ésimo estrato.
rh
13
FORMULA´FAO´ PARAUN ESTRATO
rh rh nm
∑ FAOYˆhm* ∑∑ Y *
FAO hmi rh nm
ˆ
FAOYh =
m =1
= m =1 i =1
=∑ ∑F h p y hmi ,
rh rh m =1 i =1
donde :
Yˆ = Estimación FAO del TOTAL de una var iable en el estrato h − ésimo;
FAO h
nm
FAOYhm = ∑ FAOYhmi ;
ˆ* ˆ*
i =1
ˆ*
FAOYhmi = rh Fh p y hmi ;
Nh
Fh = , cuando el número de SMs por réplica es igual ;
nh
Nh
Fh = , cuando el número de SMs por réplica no es igual por falta de respuesta.
n h'
rh rh
∑ Yˆ
*
FAO hm
Yˆ =
FAO h
* m =1
= FAOYˆh .
rh
14
FORMULA´KISH ´ PARAUN ESTRATO PARA REPLICAS DESIGUALES
Yˆ = N
KISH y ,
h h KISH h
donde :
rh
1 nhm
KISH yh =
rh
∑n y hm ,
m =1 h / rh
donde :
nm
∑ p y hmi
y hm = i =1
= media de la réplica m − ésima en el estrato h − ésimo.
nhm
var( KISH Yˆh ) = N h2 var( KISH y h ),
donde :
2
(1 − f h ) rh nhm
var( KISH y h ) = ∑
rh (rh − 1) m =1 nh / rh
( y hm − y h ) .
[ ]
Pr Yˆ − zα / 2 ee(Yˆ ) ≤ Y ≤ Yˆ + zα / 2 ee(Yˆ ) = (1 − α ),
donde :
Pr = Pr obabilidad o área bajo la curva de la distribución normal ;
Yˆ = Valor de la estimación de una var iable en estudio y;
zα / 2 = Valor de la abscisa de la distribución normal estándar para un nivel de confiabilidad
( probabilidad ) dado (95 %, por ejemplo);
ee(Yˆ ) = Error estándar de la estimación Yˆ ;
Y = Parámetro verdadero de la población o universo;
α = Pr obabilidad o área bajo la curva normal de que el int ervalo a construirse no encierre
al parámetro verdadero de la población o universo (α = 0.05 = 5 %
con un 95 % de confiabilidad , por ejemplo).
15
Pr [Yˆ − z α / 2 ee(Yˆ ) ≤ Y ≤ Yˆ + z α / 2 ee(Yˆ )] = (1 − α ),
Entonces :
Pr[3.900 − 1,96 * 422 ≤ Y ≤ 3.900 + 1,96 * 422] = (1 − 0,05),
Pr[3.900 − 844 ≤ Y ≤ 3.900 + 844] = 0,95,
Pr[3.056 ≤ Y ≤ 4.744] = 0,95 = 95 %.
Los Anexos I y II presentan dos ejemplos del proceso de estimación del TOTAL de una
variable, su varianza, error estándar (error de muestreo), error estándar relativo
(coeficiente de variación) e intervalo de confianza. Estos ejemplos han sido
desarrollados en EXCEL utilizando los cuatro tipos de fórmulas presentados
anteriormente.
• Provincia: Bolívar;
• Cantón: 1;
• Variable: superficie bajo cultivos permanentes;
• Archivo EXCEL: SICA BOLIVAR CANTON 1.
ANEXO II: con un estrato que no tiene igual número de SMs en cada replicación
(falta de respuesta) y otro que tiene un SM sin uso agropecuario
• Provincia: Guayas;
• Cantón: 7;
• Variable: superficie sembrada de arroz;
• Archivo EXCEL: SICA GUAYAS CANTON 7.
16
4 LA ESPAC
La ESPAC usa la misma metodología del MMM del CNA, la cual combina el método
del MMA con el del MML, bajo el enfoque o paraguas de los principios del
MUESTREO EN DOS FASES o MUESTREO DOBLE La recolección de los datos se
realiza mediante ENTREVISTA DIRECTA a Informantes calificados de las UPAs
incluidas en:
17
Por otra parte, los tamaños de la sub-muestra del MA de 2.000 SMs y de la muestra del
ML de 4.000 UPAs de la ESPAC, fueron fijados con base en el presupuesto disponible
sin consideración de grados de precisión y confiabilidad y costos, que son factores a
considerarse bajo otras circunstancias cuando se usa el MUESTREO EN DOS FASES
(DOBLE).
Por lo tanto, la eficiencia estadística de las estimaciones generadas por el MUESTREO
EN DOS FASES (DOBLE) se debe a la posibilidad de correlacionar la información
obtenida de la muestra de PRIMERA FASE con la información recolectada en la muestra
de SEGUNDA FASE.
Como se indicó anteriormente, en el CNA se utilizó una muestra de 12.277 SMs que
fueron seleccionados dentro de cada Cantón en estratos de usos del suelo con réplicas
independientes, para producir estimaciones a partir del nivel cantonal.
Con la finalidad de lograr los objetivos del numeral anterior bajo la restricción de un
tamaño de muestra muy pequeño, se adoptó producir las estimaciones para los
siguientes niveles:
18
• Provincias auto-representadas (importancia alta en la producción agropecuaria,
especialmente de exportación), que se espera producirán estimaciones con
buenos grados de precisión y niveles de confiabilidad y que mantienen al
máximo posible el diseño de muestreo del CNA: Guayas, Manabí, Los Ríos,
Pichincha. A este grupo se añadió Chimborazo por razones técnicas de facilidad
de mantener el diseño del CNA, aun cuando no mantiene las mismas
características de las otras cuatro anteriores;
• Provincias no-auto-representadas, que se espera generarán estimaciones
provinciales con regulares grados de precisión y niveles de confiabilidad y que
no mantienen al máximo posible el diseño de muestreo del CNA: Azuay,
Bolívar, Cañar, Carchi, Cotopaxi, El Oro, Esmeraldas, Imbabura, Morona
Santiago, Loja y Tungurahua;
• Grupos de Provincias: Nororiente (Napo, Orellana y Sucumbíos), Suroriente
(Pastaza y Zamora Chinchipe);
• Areas no incluidas: Galápagos y Zonas en Discusión.
4
Para mayores detalles del reparto del tamaño de la sub-muestra del MA entre provincias, consultar en
el Departamento de Muestreo de la Dirección de Planificación del INEC.
19
¾ ´B´: constituido por los estratos 40 y 51, que previamente fueron colapsados
entre cantones dentro del DE ´I´;
¾ ´C´: integrado por los estratos 10, 20 y 30, que previamente fueron
colapsados entre cantones dentro del DE ´II´;
¾ ´D´: compuesto por los estratos 40 y 51, que previamente fueron colapsados
entre cantones dentro del DE ´II´;
¾ El estrato 72 de cabeceras parroquiales y centros poblados de otras áreas
rurales no fue incluido en la ESPAC, por su escasa representatividad con
respecto a la producción agropecuaria y otras variables correlacionadas.
• Selección sistemática de dos SMs por cada replicación dentro de cada estrato en
un cantón, con el método de Brewer5 con Probabilidad Proporcional al Tamaño
(PPT) de la superficie bajo ´cultivos y pastos´ o superficie total bajo UPAs en el
SDE ´A´. En este SDE A se mantiene el diseño de muestreo del CNA;
• Selección sistemática controlada de la sub-muestra asignada (generalmente con
afijación proporcional o igual) de SMs a cada estrato colapsado entre cantones
en los SDEs ´B´, ´C´ y ´D´, en los cuales no se mantiene el diseño de muestreo
del CNA. Las variables compuestas de control fueron cultivos y pastos o
superficie total bajo UPAs y la importancia de la producción agropecuaria en
estos SDEs, es generalmente baja;
• Además, se introdujo una nueva variable de control para los cuatro SDEs (´A´,
´B´, ´C´ y ´D´) consistente en que los SMs cuyas variables compuestas de
cultivos y pastos o superficie total bajo UPAs, eran igual a cero (0), fueron
excluidas de la selección sistemática, circunstancia que hay que tener en cuenta
en el proceso de estimación.
El cuadro 5 contiene un resumen de la selección de la muestra de la provincia de
Guayas.
5
Ver ´Técnicas de Muestreo´; William G. Cochran. John Wiley & Sons, New York
20
transitorios y barbecho para el estrato 3 de flores; la superficie de permanentes
en el estrato 5 de mango; la superficie de transitorios y barbecho en el caso del
estrato 8 de tabaco; el número de porcinos para el estrato 12;
• Además, cuando las variables compuestas de control de las UPAs, eran igual a
cero (0), fueron excluidas de la selección sistemática, circunstancia que hay que
tener en cuenta en el proceso de estimación.
CUADRO 7
DIRECTA
26
5.1 SIMULACION DEL PROCESO DE ESTIMACIÓN DE LA ESPAC
MEDIANTE EXPANSION DIRECTA CON LOS DATOS DEL CNA
CUADRO 8
27
• A nivel provincial (Anexo III) naturalmente los coeficientes de variación son
superiores a los nacionales y regionales. En el grupo de las cuatro provincias
auto-representadas (Guayas, Manabí, Los Ríos y Pichincha), cultivos y pastos
son estimados en la ESPAC 2000 con errores relativos de muestreo inferiores al
10 % (con varios casos que son inferiores al 5 %), excepto pastos naturales en
Los Ríos y Manabí, cuyos coeficientes de variación son del orden del 16 y 19 %
respectivamente. En las otras provincias se observan errores relativos de
muestreo menores del 10 % y la gran mayoría de los más altos oscilan en un
rango del 25 % al 40 %;
• En general a nivel provincial (Anexo III), el coeficiente entre los errores
relativos de muestreo de la ESPAC y los del CNA, oscila entre 3 y 5 veces.
El análisis anterior indica, que para los tamaños de muestras establecidos con la
restricción del presupuesto escaso disponible, que para las principales variables
estimadas de la ESPAC se puede esperar lo siguiente:
• Colapsar provincias: las seis de la amazonía pueden agruparse en una sola, por
ejemplo;
• Utilizar los métodos de razón y regresión aprovechando de que se ha empleado
el MUESTREO EN DOS FASES (DOBLE) en el proceso de selección de las
muestras PEQUEÑAS DE SEGUNDA FASE, tanto del MA como del ML;
• Experimentar nuevos métodos de estimación, como el de razón y regresión, sin
usar el MUESTREO EN DOS FASES (DOBLE). En las estimaciones del
MMM presentadas en el cuadro 8 y anexo III, solamente se han sumado las
estimaciones del MA con la del ML. Sin embargo, en la literatura de la
metodología del MMM existen muchos otros estimadores que se pueden aplicar,
como los producidos por regresión múltiple, por ejemplo.
28
MA nCNA(G ) MA n ESPAC ( p ) MA n ESPAC ( p )
MA f ESPAC ( f ) = MA f CNA( G ) * MA f ESPAC ( p ) = * = ,
MA N CNA MA n CNA ( G ) MA N CNA
donde :
MA f ESPAC ( f ) = Fracción de muestreo final de la ESPAC en el MA;
donde :
MA FOED ESPAC = Factor Original de Expansión Directa de la ESPAC en el MA.
Luego, el MA FOED ESPAC tiene que ser ajustado de la siguiente forma para obtener el
Factor Final de Expansión Directa en el MA :
MA FFED ESPAC = MA FOED ESPAC * MA FAsub * MA FAdis * MA FAcob * MA FAres ,
donde :
MA FFED ESPAC = Factor Final de Expansión Directa de la ESPAC en el MA;
MA FAsub = Factor de Ajuste por el número de subdivisiones del SM del CNA en el MA;
dis G 2
MA FAdis = MA
= Factor Ajuste por diseño de la muestra PEQUEÑA de la ESPAC en el MA,
MA dis G1
29
Lógicamente, un MAFOEDESPAC y un MAFFEDESPAC de un estrato se calculan de acuerdo a
las características peculiares del diseño de la muestra PEQUEÑA DE SEGUNDA
FASE del MA de la ESPAC en cada provincia. Así por ejemplo, en Guayas (una
provincia auto-representada) el diseño de la muestra PEQUEÑA DE SEGUNDA FASE
del MA contempla cuatro DEs (A, B, C, D): en el A la selección de los SMs se realizó
independientemente por replicaciones, estratos y cantones, manteniendo el proceso de
selección del CNA; en los otros tres DEs (B, C, D) se escogieron directamente los SMs
en los estratos considerados para la ESPAC, sin tomar en cuenta las replicaciones ni los
cantones.
En cambio, Cañar es una provincia no auto-representada con tres DEs (A, B y C), cuyas
muestras de SMs del MA se seleccionaron solamente por estratos como en los DEs B, C
y D de Guayas o sea sin respetar las replicaciones ni los cantones. Es necesario señalar
que solamente Imbabura y Cotopaxi de las provincias no auto-representadas y Guayas y
Manabí de las auto-representadas, tienen el DE ´D´.
Los cuadros 9 y 10 contiene una ilustración por DEs y estratos del cálculo de los
MAFFEDESPAC para el MA de las provincias de Guayas y Cañar, cuando los MAFAcob y
MAFAres son iguales a la unidad o sea no se tienen que realizar ajuste por falta de cobertura
y respuesta.
CUADRO 9
30
CUADRO 10
31
ML nCNA( G ) nESPAC ( p ) N CNA ML nESPAC ( p ) nESPAC ( p )
ML f ESPAC ( f ) = ML f CNA( G ) *ML f ESPAC ( p ) = * ML = ML
* = ML
,
ML N CNA ML nCNA( G ) ML N CNA ML N CNA ML N CNA
donde :
ML f ESPAC ( f ) = Fracción de muestreo final de la ESPAC en el ML;
donde :
MA FOEDESPAC = Factor Original de Expansión Directa de la ESPAC en el ML.
Luego, el ML FOEDESPAC tiene que ser ajustado de la siguiente forma para obtener el
Factor Final de Expansión Directa en el ML :
ML FFEDESPAC = ML FOEDESPAC *ML FAdis *ML FAcob *ML FAres ,
donde :
ML FFEDESPAC = Factor Final de Expansión Directa de la ESPAC en el ML;
disG 2
ML FAdis = ML
= Factor Ajuste por diseño de la muestra PEQUEÑA de la ESPAC en el ML,
ML disG1
con la ' Variable de Control ' = Cultivos ( permanentes + transitorios + barbecho) + Pastos
(cultivados + naturales + páramos);
(ii ) En los estratos 4 al 14 (sin incluir 11 y 15 de camaroneras ), el ML FAdis es :
disG 2 = No de UPAs por estrato con la var iable de control > 0 en el CNA
ML FAcob = ML
,
ML disG1 = No de UPAs por estrato del CNA en el ML
con la ' Variable de Control ' = Característica que define el estrato ( flores, maracuyá, ...
..., mango, brócoli, palmito, aves, porcinos, etc.);
ML FAcob = Factor de Ajuste por la falta de cobertura de la ESPAC en el ML;
ML FAres = Factor de Ajuste por la falta de respuesta de la ESPAC en el ML.
32
Los cuadros 11 y 12 contienen ejemplos por estratos del cálculo de los MLFFEDESPAC para
el MA de las provincias de Guayas y Cañar.
CUADRO 11
CUADRO 11
(1) 1 1 7 88 72 88 88 1 1 1.2222
(1) 1 2 4 32 30 32 30 1 1 0.9999
(3) 1 3 2 8 8 8 8 1 1 1.0000
(4) 1 4 8 15 15 15 15 1 1 1.0000
(-) 2 1 - - - - - - - -
(-) 2 2 - - - - - - - -
(-) 2 3 - - - - - - - -
(-) 2 4 - - - - - - - -
(2) 3 - 1 4 4 4 4 1 1 1.0000
(4) 9 - 1 1 1 1 1 1 1 1.0000
El cuadro 13 indica las equivalencias de los símbolos utilizados en las fórmulas de los
MA
33
´ ´ ,
ˆ ˆ ,
1 1
:
ˆ ´ ´ var ;
ˆ ´ ´ var
;
;
var
;
.
(ˆ ˆ )2
var( ˆ ) (1 ) 1
,
1
:
var( ˆ ) var ´ ´ var
;
ˆ
ˆ 1
Media de la estimación ´SAS´del TOTAL de una var iable
36
1 2 R d s Yˆ Xˆ − R d2 s X2ˆ
var( ESPAC Yˆr ) = ( s Yˆ + R d s Yˆ − 2 R d s Yˆ Xˆ ) +
2 2 2 p p p
,
np p p p p
nG
donde :
var( ESPAC Yˆr ) = var ianza de la estimación de RAZON del TOTAL de una var iable en un estrato
de la ESPAC con MUESTREO EN DOS FASES ( DOBLE );
n G = Tamaño de la muestra ( SMs o UPAs) GRANDE DE PRIMERA FASE en el CNA;
n p = Tamaño de la muestra ( SMs o UPAs) PEQUEÑA DE SEGUNDA FASE en la ESPAC ;
s Y2ˆ = var ianza de ( ESPAC Yˆp );
p
s 2
Yˆ
= var ianza de ( CNA Xˆ p );
p
∑( CNA Xˆ ip − Xˆ p ) 2
i =1
39
FORMULAS APROXIMADAS DE LA VARIANZA DE LA ESTIMACION POR REGRESION
DEL TOTAL DE UNA VARIABLE EN UN ESTRATO DEL MA o ML EN LA ESPAC
FORMULA DE L. KISH
( sY2ˆ − ρ Y2ˆ Xˆ ) ρ Y2ˆ Xˆ sY2ˆ
var( ESPAC Yˆ ) = K
+
p p p p p p
rgd ,
np − 2 nG
donde :
np
40
7 SOFTWARE UTILIZADO
41