0% encontró este documento útil (0 votos)
63 vistas88 páginas

2-Modelos Lineales Generalizados

Este documento describe los modelos lineales generalizados, incluyendo su historia y aplicaciones en diferentes áreas como la regresión lineal múltiple, el análisis de varianza (ANOVA), los modelos de supervivencia y los modelos loglineales. También presenta ejemplos de aplicación de estos modelos a datos biológicos como la relación entre el tamaño corporal y la fecundidad de insectos, y el efecto de la calidad del hospedador y el sexo sobre el tamaño de una especie de avispa parasitoide.

Cargado por

JJ
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PPTX, PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
63 vistas88 páginas

2-Modelos Lineales Generalizados

Este documento describe los modelos lineales generalizados, incluyendo su historia y aplicaciones en diferentes áreas como la regresión lineal múltiple, el análisis de varianza (ANOVA), los modelos de supervivencia y los modelos loglineales. También presenta ejemplos de aplicación de estos modelos a datos biológicos como la relación entre el tamaño corporal y la fecundidad de insectos, y el efecto de la calidad del hospedador y el sexo sobre el tamaño de una especie de avispa parasitoide.

Cargado por

JJ
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PPTX, PDF, TXT o lee en línea desde Scribd

MODELOS LINEALES

GENERALIZADOS,
AIC Y DESVIANZA
Historia

Siglo XIX (Legendre, Gauss): regresión lineal múltiple → distribución normal con
enlace identidad
1920-1935 (Fisher): ANOVA → distribución normal con enlace identidad
R.A. Fisher 1922 (Fisher): función de verosimilitud
1922 (Fisher): ensayos de dilución → distribución binomial con enlace log-log
complementario
1934 (Fisher): funciones exponenciales
1935 (Bliss): análisis probit → distribución binomial con enlace probit
1944-1952 (Berkson; Dike & Patterson): logit de proporciones → distribución
binomial con enlace logit
1960 (Rasch): análisis de casos → distribución de Bernouilli con enlace logit
1963 (Birch): modelos loglineares para contajes → distribución de Poisson con
enlace logit
1965-1967 (Feigl & Zelen; Zippin & Armitage; Glasser): modelos de regresión
para datos de supervivencia → distribución exponencial con enlace
recíproco o logit
1966 (Nelder): polinomios inversos → distribución gamma con enlace recíproco
Relación tamaño corporal-
fecundidad

16

14 y = 0.1571x - 15.26
R2 = 0.9554
12
Mean clutch size

10

0
100 120 140 160 180 200
Mean female carapace lenght (mm)
Modelo lineal

yi=b0 + b1xi + ei
Número de
Tamaño
huevos
corporal

yi=-15.26 + 0.1571xi + ei
Relación tamaño corporal-
fecundidad

16

14 y = 0.1571x - 15.26
R2 = 0.9554
12
Mean clutch size

10

4 3.91
2

0
122
100 120 140 160 180 200
Mean female carapace lenght (mm)
Análisis de la varianza
(ANOVA)

 Análisis de experimentos
 Modelos lineales
 Fuentes de variación en los datos
 Factores fijos versus factores
aleatorios
 Estimación de parámetros mediante
máxima verosimilitud por mínimos
cuadrados
Grados de libertad

 Supongamos que medimos el tamaño de 5


animales
 10, 12, 11, 10, 14 mm
 Calculamos la media x
x i

n
 11.4 mm
 Calculamos la varianza var( x) 
 (x  x)
i
2

n 1
 2.8 mm2

simular
Anaphes nitens
Efecto de la calidad del
hospedador sobre el tamaño
Efecto de la calidad del
hospedador sobre el tamaño

80

A
y = 114.7x - 70.004
70 2
R = 0.4605

60
Número de huevos

50

40

30

20

10

0
0.8 0.85 0.9 0.95 1 1.05 1.1 1.15 1.2
Longitud del ala (mm)
Tamaño/sexo-superparasitismo

1.0

0.9
Wing length (mm)

0.8

16 46 16 16
0.7
male female male female
parasitized superparasitized
ANÁLISIS DE LA VARIANZA

yijk=m + ai + bj + (ab)ij+ eijk


DF Sum of squares Mean of squares Fisher's F Pr > F
Model 3 0.1412 0.0471 16.2683 0.0001
Residuals 90 0.2603 0.0029
Total 93 0.4015

Model analysis (Type I SS) :

Source DF Type I SS Mean Square Fisher's F Pr. >F


grupo 1 0.1092 0.1092 37.7628 0.0001
sex 1 0.0070 0.0070 2.4349 0.1222
grupo*sex 1 0.0249 0.0249 8.6071 0.0042
TAMAÑO/SEXO-
SUPERPARASITISMO

1.1
machos

hembras
1
Longitud del ala (mm)

Lineal
(hembras)
Lineal
(machos)
0.9

0.8

0.7
Superparasitado Parasitado
Tipo de hospedador
REGRESIÓN LINEAL

yi = b0 + b1Sexo+b2Trat2+b3 Sexo.Trat2+e
***** Regression Analysis *****
Response variate: wing_length_mm
Fitted terms: Constant + grupo + sex + [Link]

*** Summary of analysis ***


d.f. s.s. m.s. v.r. F pr.
Regression 3 0.1412 0.047054 16.27 <.001
Residual 90 0.2603 0.002892
Total 93 0.4015 0.00431
*** Estimates of parameters ***
estimate s.e. t(90) t pr.
Constant 0.9146 0.0134 68.02 <.001
grupo 2 0.0243 0.0190 1.28 0.205
sex 1 -0.0243 0.0190 -1.28 0.205
grupo 2 .sex 1 0.0722 0.0246 2.93 0.004
ANOVA:
yijk=m + ai + bj + (ab)ij+ eijk
longitud=media+tratamiento+sexo+interacción+error

REGRESIÓN:
yi = b0 + b1Sexo+b2Trat2+b3 Sexo.Trat2+e
longitud=intercepción+tratamiento+sexo+interacción+error
Modelo con interacciones

a1 = b1 = (ab)1j = (ab)i1 = 0

Columna
Fila
1 2 3

1 m m+b2 m+b3

2 m+ a2 m+ a2 + b2 + (ab)22 m+ a2 + b3 + (ab)23

3 m+ a3 m+ a3 + b2 + (ab)32 m+ a3 + b3 + (ab)33
EFECTOS FIJOS Y
ALEATORIOS
ANOVA DE DOS FACTORES

Cuadrado
Efectos fijos medio esperado F

nb a 2
Ai
2
 
e 
a  1 i 1

MSA/MSe
b
na
Bj
 e2  
b  1 i 1
 2

MSB/MSe

a b
n
ABij
 e2   
(a  1)(b  1) i 1 jMS
(
1 AB
)
/MSe
2

 e2
Residuos (error)
ANOVA DE DOS FACTORES

Efectos Cuadrado
aleatorios medio esperado F

 e2  n AB
2
 nb A2
Ai MSA/MSAB

 e2  n AB
2
 na B2
Bj MSB/MSAB

ABij
 e2  n AB
2
MSAB/MSe

Residuos (error)
 e2
Sólo en el caso de diseños equilibrados los
factores fijos y aleatorios producen los
mismos resultados

Factores inter-sujetos

N
SEXO 0 17
1 20
Temperatura 10 6
Longitud 15 3
20 15
25 6
26 7
Efecto de la temperatura y el sexo
sobre el tamaño corporal

machos
LONGITUD
hembras
7.5

7
Longitud (cm)

6.5

5.5

4.5
10 15 20 25 28
Temperatura (ºC)
FACTORES FIJOS

Pruebas de los efectos inter-sujetos

Variable dependiente: LONGITUD


Suma de
cuadrados Media
Fuente tipo III gl cuadrática F Significación
Modelo corregido 4.159 a 8 .520 5.159 .001
Intersección 974.948 1 974.948 9674.802 .000
SEXO 1.315 1 1.315 13.054 .001
TEMPERAT 2.374 4 .594 5.890 .001
SEXO * TEMPERAT .562 3 .187 1.860 .159
Error 2.822 28 .101
Total 1328.980 37
Total corregida 6.981 36
a. R cuadrado = .596 (R cuadrado corregida = .480)
SEXO COMO FACTOR
ALEATORIO

Pruebas de los efectos inter-sujetos

Variable dependiente: LONGITUD


Suma de
cuadrados Media
Fuente tipo III gl cuadrática F Significación
Intersección Hipótesis 937.437 1 937.437 2645.254 .000
Error 1.599 4.512 .354a
TEMPERAT Hipótesis 2.700 4 .675 1.550 .343
Error 1.704 3.914 .435b
TEMPERAT Hipótesis 1.682 4 .420 4.172 .009
* SEXO Error 2.822 28 .101c
a. .794 MS(TEMPERAT * SEXO) + .206 MS(Error)
b. 1.047 MS(TEMPERAT * SEXO) - 4.715E-02 MS(Error)
c. MS(Error)
Diseño de experimentos

 Disminución del error ambiental (ee)


 Aleatorización de los tratamientos a
los sujetos
 Agrupación de los sujetos en función
de la variabilidad ambiental: bloques
 Nos interesa el efecto del factor fijo,
pero no el de los bloques (aleatorio)
Bloques aleatorios

yijk=m+ti+bj+eijk

yijk, → observación j-ésima del tratamiento i


m → media de la población
ti → efecto del nivel i del tratamiento t
bj → efecto del bloque j
CEF CEF CEF
BDA BDA BDA

CEF CEF CEF


BDA BDA BDA

CEF CEF CEF


BDA BDA BDA
CEF CBE CDF
BDA FDA BEA

FCB FCE BFD


EDA BDA CEA

FDE BFD BFE


CAB ACE CAD
CEF CEF CEF
BDA BDA BDA

CEF CEF CEF


BDA BDA BDA

CEF CEF CEF


BDA BDA BDA
ANOVA y GLM

 Modelo lineal con errores normales y función de


enlace identidad
 GLM: estructura de errores, predictor lineal,
función de enlace

yijk=m+ti+bj+eijk
y i =b 0 +b 1 x 1 +b 2 x 2 +b 3 x 3 +e i

Tratamiento Ecuación

1 yi=b0(1)+b1(1)+b2(0)+b3(0)
2 yi=b0(1)+b1(0)+b2(1)+b3(0)
3 yi=b0(1)+b1(0)+b2(0)+b3(1)
4 yi=b0(1)+b1(0)+b2(0)+b3(0)
y i =b 0 +b 1 x 1 +b 2 x 2 +b 3 x 3 +e i

Tratamiento Ecuación

1 yi=b0(1)+b1(1)+b2(0)+b3(0)
2 yi=b0(1)+b1(0)+b2(1)+b3(0)
3 yi=b0(1)+b1(0)+b2(0)+b3(1)
4 yi=b0(1)+b1(0)+b2(0)+b3(0)
y i =b 0 +b 1 x 1 +b 2 x 2 +b 3 x 3 +e i

estructura lineal
del modelo

y=Xb+e
matriz de diseño
Función de enlace

 Relaciona el valor de la observación i-ésima con


su predictor lineal

hi=gi(yi)
FUNCIÓN DE ENLACE

Distribución Función de enlace

Poisson Log hi=log(mi)


Binomial Logit hi=log(mi/(ni-mi))
Normal Identidad hi=mi
Gamma Recíproca hi=1/mi
Gaussiana Recíproca2 hi=1/mi2
inversa
LA TEORÍA DE LA
INFORMACIÓN Y LA
INFERENCIA
ESTADÍSTICA

Selección de modelos para explicar la variación


de los datos, en experimentos observacionales
Algo de matemáticas…
Función de verosimilitud

 Supongamos que hemos encontrado 5 animales


parasitados en una muestra de 9 escarabajos
 Intuitivamente, estimaríamos la tasa de parasitismo
como 5/9=0.56, i.e. 56%
 ¿Pero, cuál es la estima de máxima verosimilitud?
 Esta es una distribución binomial (parasitado/sano):

 9!  5
P(5)    (1   ) (95)
 5!(9  5)! 
 La verosimilitud £ no depende de la parte
combinatoria de la fórmula, y podemos ignorarla

Fuente: Crawley, M. J. 1993. GLIM for ecologists, Oxford: Blackwell Science.


Función de verosimilitud

 Tenemos que encontrar el valor de  que maximiza la


verosimilitud:
£( )   5 (1   ) (95)
 Para hallar esto, necesitamos calcular la derivada de la
verosimilitud con respecto a , igualarla a cero y resolverla.
 Esto es más fácil de calcular tomando Log de la verosi-
militud (el máximo estaría en el mismo valor de cualquier
manera):
£( )  5 ln( )  (9  5) ln(1   )

d£( ) 5 (9  5)
 Por tanto la derivada es:  
d  (1 )
Fuente: Crawley, M. J. 1993. GLIM for ecologists, Oxford: Blackwell Science.
Función de verosimilitud

 Igualamos a cero y resolvemos: d£( )  5  (9  5)  0


d  (1 )
5 (9  5)
  5(1   )   (9  5) 
 (1   )
5
5  5  4  9  5   
9

Fuente: Crawley, M. J. 1993. GLIM for ecologists, Oxford: Blackwell Science.


¿Cómo elegir entre
diferentes modelos?

 £(x), es la función de verosimilitud del


vector de parámetros del modelo (),
dados los datos x
 Es más fácil de tratar matemáticamente
mediante una transformación logarítmica:
log (£(x))
 Tenemos que buscar los valores que
maximizan la función
Gamma (4,4)

Weibull (2,20) Gaussiana inversa (16,64)


selection and inference. A practical information-theoretic
Fuente: K. P. Burnham and D. R. Anderson, 1998. Model

approach, New York: Springer. 353 pages.

Lognormal (2,2)
Nota: las funciones g2 y g3 están
F(4,10) intercambiadas en Burnham &
Anderson (1998). El error se corrige
aquí
Distancia de Kullback-Lieber
entre dos funciones

 Se define para funciones continuas, como una


selection and inference. A practical information-theoretic

integral
Fuente: K. P. Burnham and D. R. Anderson, 1998. Model

 Indica la información que se pierde cuando la


función g es usada como aproximación a la
approach, New York: Springer. 353 pages.

función f
 f ( x) 
I ( f , g)   f ( x) log dx

 g ( x  ) 
 Buscamos un modelo que se aproxime y que
minimice la pérdida de información, esto es,
tenemos que minimizar I(f,g) sobre g.
Weibull (a=2, b=20) Lognormal (=2, 2=2)

Gaussiana inversa (a=16, b=64) F (a=4, b=10)


Modelo que se aproxima I(f, gi) Rango

g1 Weibull (a=2, b=20) 0.04620 1

g2 Lognormal (=2, 2=2) 0.67235 3

g3 Gaussiana inversa (=16, =64) 0.06008 2

g4 F (=4, =10) 5.74555 4


¿Necesitamos conocer la
verdad (f)?

 Para calcular la distancia K-L necesitamos conocer tanto f


como g
 f ( x) 
I ( f , g )   f ( x) log dx
selection and inference. A practical information-theoretic
Fuente: K. P. Burnham and D. R. Anderson, 1998. Model

g ( x  ) 
 
 Sin embargo, podemos reescribir la ecuación como:
approach, New York: Springer. 353 pages.

I ( f , g )   f ( x) log( f ( x))dx   f ( x)log ( g ( x  ))dx

I ( f , g )  E f log( f ( x)) E f log(g ( x  ))

Constante que depende de f(x), Podemos estimar la


y que no conocemos distancia relativa entre
ambas funciones
Modelo que se aproxima I(f, gi) Rango

g1 Weibull (a=2, b=20) 0.04620 1

g2 Lognormal (=2, 2=2) 0.67235 3

g3 Gaussiana inversa (a=16, b=64) 0.06008 2

g4 F (a=4, b=10) 5.74555 4

Distancia relativa:
Modelo que se aproxima Rango
I(f, gi)-C
g1 Weibull (a=2, b=20) 3.45591 1

g2 Lognormal (=2, 2=2) 4.08205 3

g3 Gaussiana inversa (a=16, b=64) 3.46978 2

g4 F (a=4, b=10) 9.15525 4


Criterio de Información de
Salta detalles
Akaike (AIC)
Hirotsugu Akaike
 Estima de máxima verosimilitud del parámetro  dado
un modelo
selection and inference. A practical information-theoretic

 f ( x) 
Fuente: K. P. Burnham and D. R. Anderson, 1998. Model

Iˆ( f , g )   f ( x) log dx


 g ( x ˆ( y )) 
 
approach, New York: Springer. 353 pages.

 La variable de integración (x) no representa


nuestros datos. Los datos se corresponden con la
variable y, que es una variable aleatoria del mismo
espacio de integración que x.
 La distancia de K-L no depende de los datos.
Criterio de Información de
Akaike (AIC)
Hirotsugu Akaike
 La distancia de K-L que podemos estimar de
cualquier modelo siempre será mayor que la
distancia real entre los modelos, porque no
selection and inference. A practical information-theoretic
Fuente: K. P. Burnham and D. R. Anderson, 1998. Model

conocemos la verdad


Iˆ( f , g )  E x log( f ( x)) E x log(g ( x ˆ( y ))) 
approach, New York: Springer. 353 pages.


Iˆ( f , g )  constante  E x log(g ( x ˆ( y ))) 
  
Eˆ Iˆ( f , g )  constante  E y E x log(g ( x ˆ( y ))) 
Criterio de Información de
Akaike (AIC)
Hirotsugu Akaike
 Tenemos que estimar el valor de T:


T  E y E x log( g ( x ˆ( y ))) 
selection and inference. A practical information-theoretic
fuente: K. P. Burnham and D. R. Anderson, 1998. Model

 Para modelos “buenos” y muestras grandes será:


approach, New York: Springer. 353 pages.

verosimilitud

Tˆ  log(£(ˆ y ))  K
 Donde K es aproximadamente igual al número de parámetros
estimables del modelo→ sesgo
Criterio de Información de
Akaike (AIC)
Hirotsugu Akaike

AIC  2 log(£(ˆ y ))  2 K
selection and inference. A practical information-theoretic
Fuente: K. P. Burnham and D. R. Anderson, 1998. Model

 El mejor modelo es el que minimiza AIC


approach, New York: Springer. 353 pages.

 El primer término disminuye con el


número de parámetros
 El segundo se incrementa con el número
de parámetros
Principio de parsimonia

sesgo2 o Varianza

Número de parámetros
Criterio de Información de
Akaike corregido (AIC c )

 AIC puede ser poco fiable cuando el número de


parámetros que hay que estimar es demasiado
selection and inference. A practical information-theoretic

grande en relación al número de muestras (n)


Fuente: K. P. Burnham and D. R. Anderson, 1998. Model

 n 
AICc  2 log(£(ˆ))  2 K  
approach, New York: Springer. 353 pages.

 n  K 1 
2 K ( K  1)
AICc  AIC 
n  K 1

AICc se debe usar en lugar de AIC cuando n/K es pequeño (<40)


Quasi-Akaike’s Information Criterium
corregido o no (QAIC, QAIC c )

 Para variables binomiales o multinobinomiales,


cuando hay varianza extrabinomial
selection and inference. A practical information-theoretic
Fuente: K. P. Burnham and D. R. Anderson, 1998. Model

QAIC  2 log(£(ˆ)) / cˆ  2 K


approach, New York: Springer. 353 pages.

2 K ( K  1)
QAICc  QAIC 
n  K 1

QAIC se debe usar en lugar de AIC cuando la variación


extrabinomial es grande (6< ĉ <10)
Uso de AIC y desvianza para la
selección de modelos

“It is perfectly reasonable that several models


would serve nearly equally well in approximating
a set of data. Inference must admit that there
are sometimes competing models and the data
do not support selecting only one. Using the
principle of parsimony, if several models fit the
data equally well, the one with the fewest
parameters might be preferred; however, some
consideration should be given to the other (few)
competing models that are essentially tied as
the best approximating model. Here the science
of the matter should be fully considered.”
Fuente: Burnham & Anderson (1998). Model selection and inference. A practical information-theoretic approach.
Springer-Verlag, New York.
Desvianza (Deviance)

La desvianza se define como la diferencia entre:


-2log(verosimilitud) del modelo de interés y
-2log(verosimilitud) del modelo saturado.
El modelo saturado es aquel que tiene el mismo
número de parámetros que muestras.
La desvianza dividida por el número de grados de
libertad es una estima de la sobredispersión (ĉ).
Likelihood Ratio Tests (LRT)

 La diferencia en desvianza entre dos modelos sigue


aproximadamente una distribución c2 con un
número de grados de libertad igual a la diferencia en
el número de parámetros entre los modelos.
 Sólo los modelos anidados se pueden comparar
entre si: uno debe ser una versión reducida del otro.
 Los tests LRT no permiten una ordenación de los
modelos, algo que sí es posible con el AIC yes.
 No se pueden comparar modelos con el mismo
número de parámetros mediante tests LRT (¡¡no hay
grados de libertad disponibles!!).
LOS MODELOS DE
MARCAJE-RECAPTURA
COMO UN EJEMPLO
El marcaje individual permite
observaciones detalladas del
comportamiento

Vigilancia sin
contacto en
Calopteryx
haemorrhoidalis
Métodos de marcaje

 Específico del individuo


 Específico de la ocasión de muestreo
 Marca única
 En general, depende del animal bajo
consideración
 Insectos y otros Artrópodos
 Peces
 Anfibios y Reptiles
 Aves
 Mamíferos
Marcaje con etiquetas de
plástico

Termorregulación
del galápago
europeo (Emys
orbicularis)
MARCAJE CON CÓDIGOS DE
POSICIÓN
M A R C A S N AT U R A L E S
Galápago europeo (Emys orbicularis)
Marcas naturales (Salamandra salamandra)
Tipos de experimentos
 Two-sample (Peterson) vs multi-sample experiments.

 Open population experiments (where the population is open to changes


through birth, death, emigration, immigration, etc.) vs Closed populations
(where the population is assumed of fixed size throughout the experiment).

 Band recovery experiments (where batches of animals are banded at regular


intervals and recovered at most once, usually by band returns from a
commercial or sport harvest), vs multiple recapture and release experiments
(where animals may be seen multiple times).

 Stratified and non-stratified experiments. Migration rates between and


parameter differences among strata (often distinct geographical areas) are
the questions of interest when experiments are stratified.

 Experiments that involve resighting data as well as recovery and recapture


data. Resightings involve observing marked animals without capturing,
handling, or re-marking the animals.

Source: N. A. Arnason, C. J. Schwarz, and G. Boyer, 1998. POPAN-5. A data maintenance and analysis system for mark-recapture data, Manitoba, Canada: Department of
Computer Science, The University of Manitoba. 318 pages.
Índice de Petersen-Lincoln

 Supongamos que capturamos una muestra aleatoria de r individuos


(digamos 25%) de una población de tamaño desconocido (N), que
marcamos y liberamos, para que se mezclen con el resto de la población.

N  Si damos tiempo para una mezcla perfecta, y tomamos una segunda


muestra de n individuos, deberíamos hallar algunos de los animales
prevuamente marcados (m).
r  Entonces, el tamaño de la población, inmediatamente antes del primer
muestreo (N) se puede estimar como:

m m r r
n 
n N rn
N
m
N m
n
Asunciones del método de
Petersen-Lincoln

1. Todas las marcas son permanentes y se anotan sin error cuando se recaptura
el animal.
2. El hecho de que un animal sea capturado, manipulado, y marcado una o varias
veces no debe afectar a la probabilidad de recaptura.

¡¡Muy 3. Se asume que la captura no cambia la probabilidad de muerte o emigración,


que de ser la misma para todos los individuos. Se asume implícitamente que la
improbable en emigración es permanente, y por lo tanto indistinguible de la mortalidad.
poblaciones
4. Todos los individuos, marcados o no, deben tener la misma probabilidad de
naturales!! captura. Esto implica que la población se muestrea aleatoriamente en relación
a la edad, el sexo, la condición física, y por tanto todos los grupos aparecen en
las muestras en la misma proporción en la que están en la poblaicón total.
Cuando hay heterogeneidad en las tasas de recaptura, los grupos se deben
analizar separadamente, como si fuesen poblaciones distintas.
5. No hay nacimientos, muertes, inmigración o emigración durante el intervalo
entre el primero y el segundo muestreo.
6. Los intervalos entre los muestreos deben ser lo suficientemente largos para
permitir una redistribución homogénea de los animales marcados en la
población no marcada.
Método de Jolly

 Es un método múltiple de marcaje-recaptura para


estimar tamaño poblacional y probabilidad de
supervivencia
 El paso central es la estimación de Mi (el número de
marcas disponibles para ser muestreadas). El primer
paso del análisis es una simple reordenación, siendo
mi el número de animales marcados capturados en la
ocasión i.
M i  mi  ( M i  mi )
Por lo tanto para estimar el número de animales marcados (Mi)
disponibles para ser capturados en la ocasión i tenemos sólo
que estimar el número de los que no son capturados en dicha
ocasión (Mi-mi).
EL MÉTODO DE JOLLY
APLICADO A LIBÉLULAS
140

Ischnura pumilio males


120 females

100
Número estimado

80

60

40

20

0
14-08
15-08
16-08

18-08

21-08

23-08
24-08
25-08
26-08

30-08
31-08

8-09

10-09

12-09
17-08

19-08
20-08

22-08

27-08
28-08
29-08

1-09
2-09
3-09
4-09
5-09
6-09
7-09

9-09

11-09

13-09
14-09
15-09
Fuente: A. Cordero and J. A. Andrés. 1999. Lifetime mating success, survivorship and synchronized reproduction in the damselfly Ischnura pumilio (Odonata:
Coenagrionidae). Int. J. Odonatol. 2 (1):105-114.
Un nuevo paradigma
Fuente: J. D. Lebreton
, K. P. Burnham, J.
Clobert
, and D. R. Anderson. 19
92
.
Modeling survival and te
sting biological hypothe
ses using marked animal
s: a unified approach wit
h case studies.
Ecol. Monographs 62
(1): 67-118.
Marcaje-recaptura múltiple
Datos de marcaje-recaptura

Fuente: J. D. Lebreton
, K. P. Burnham, J.
Clobert
, and D. R. Anderson. 19
92
.
Modeling survival and te
sting biological hypothe
ses using marked animal
s: a unified approach wit
h case studies.
Ecol. Monographs 62
(1): 67-118.
Datos de marcaje-recaptura

Fuente: J. D. Lebreton
, K. P. Burnham, J.
Clobert
, and D. R. Anderson. 19
92
.
Modeling survival and te
sting biological hypothe
ses using marked animal
s: a unified approach wit
h case studies.
Ecol. Monographs 62
(1): 67-118.
Tres ocasiones de recaptura
Tres ocasiones de recaptura
Datos de marcaje-recaptura

Fuente: J. D. Lebreton
, K. P. Burnham, J.
Clobert
, and D. R. Anderson. 19
 En general, es posible detallar la probabilidad
92
.
explícita de cada historia de recaptura
Modeling survival and te
sting biological hypothe
ses using marked animal
s: a unified approach wit
h case studies.
Ecol. Monographs 62
(1): 67-118.

 P(101)= ф1(1-p2)ф2p3 = ф1q2ф2p3

 La asunción iii (independence of fates and identity


of rates among individuals)
Datos de captura-recaptura

Fuente: J. D. Lebreton
, K. P. Burnham, J.
Clobert
, and D. R. Anderson. 19
92
.
Modeling survival and te
sting biological hypothe
ses using marked animal
s: a unified approach wit
h case studies.
Ecol. Monographs 62
(1): 67-118.
ESTIMAS DE LA
PROBABILIDAD DE
SUPERVIVENCIA DE EMYS
ORBICULARIS
Probabilidades de superviencia y recaptura estimadas a partir de las
historias de recaptura de 29 machos, 18 hembras y 13 juveniles (1997-
2001) de una población en Centeáns (O Porriño, Pontevedra), usando
MARK 2.1
PROBABILIDAD DE
SUPERVIVENCIA

 La supervivencia aparente es una función de las


probabilidades de recaptura y supervivencia
 Modelo saturado: Phi(g*t) p(g*t)
 Modelo reducido: Phi(.) p(.)
 Modelos intermedios: Phi(t) p(t), Phi(g) p(g),
Phi(g+t) p(g+t), Phi(g*t) p(t), etc
Peso relativo=
Probabilidad de supervivencia
0.3493/0.1712=2.04
Model AICc Delta AICc AICc Weight Model Likelihood #Par Deviance
{Phi(.) p(.) } 150.50 0.00 0.3493 1.0000 2 46.387
{Phi(.) p(g) } 151.50 0.99 0.2127 0.6090 4 43.122
{Phi(g) p(.) } 151.93 1.43 0.1712 0.4902 4 43.557
{Phi(g) p(g) } 152.09 1.59 0.1581 0.4527 6 39.301
{Phi(t) p(.) } 154.42 3.92 0.0492 0.1409 5 43.863
{Phi(.) p(t) } 156.00 5.49 0.0224 0.0642 5 45.435
{Phi(t)Centeáns
Emys p(g) } 156.15
1997-2001 5.64 0.0208 0.0595 7 41.091
{Phi(g) p(t) } 157.77 7.26 0.0092 0.0265 7 42.712
Reduced Model General Model Chi-sq. df Prob.
{Phi(t) p(t) } 158.51 8.00 0.0064 0.0183 7 43.449
------------------------- ------------------------- ---------- --- ------
{Phi(.) p(g*t)
{Phi(.) }
p(.)} 165.44 14.94
{Phi(.) p(g)0.0002
PIM} 0.0006 3.265 13 2 0.1954
35.826
{Phi(g*t) p(.)
{Phi(.) }
p(.)} 165.77 15.27
{Phi(g) p(.)0.0002
PIM} 0.0005 2.830 13 2 0.2429
36.157
{Phi(.) p(g)}
{Phi(g) p(g*t) } 166.60 {Phi(g)
16.10 p(.)0.0001
PIM} 0.0003 -0.435 15 0 ******
31.743
{Phi(g*t) p(g) } 167.10 16.59 0.0001 0.0003 15 32.237
{Phi(t) p(g*t) } 169.08 18.58 0.0000 0.0001 15 34.223
{Phi(g*t) p(t) } 170.64 20.14 0.0000 0.0000 15 35.786
{Phi(g*t) p(g*t) } 179.43 28.93 0.0000 0.0000 21 27.485
Parámetros estimados

Real Function Parameters of {Phi(.) p(.)}


Parameter Estimate Standard Error
1:Phi 0.8762 0.0325
2:p 0.8975 0.0352

Real Function Parameters of {Phi(g) p(.)}


Parameter Estimate Standard Error
1:Phi males 0.8266 0.0505
2:Phi females 0.9345 0.0440
3:Phi young 0.9277 0.0680
4:p 0.8954 0.0359
Ejemplo: mirlo acuático

[Link]
Erythromma viridulum

ALGUNAS
Saltar CONSIDERACIONES ANTES
sección
DE EMPEZAR A MARCAR
Fieldwork Planning

 Identify the target population, and determine its home range, to


analysis system for mark-recapture data, Manitoba, Canada: Department of Computer Science,
Source: N. A. Arnason, C. J. Schwarz, and G. Boyer, 1998. POPAN-5. A data maintenance and

avoid including only a part of the space occupied, and minimizing in


this way the number of transients.
 What are the goals of the study? How much precision is needed?
 If we intend to estimate population size, do we need a point estimation
or a study over a period of time?
 Alternative methods to mark-recapture studies are available to estimate
population size.
 Do appropriate marking methods exist? The maximum information
is obtained form individual marking, but that is sometimes difficult
with some animals (for instance amphibians or insect larvae).
The University of Manitoba. 318 pages.

 It tag loss is likely, then using two marks in each individual can be a good
strategy. Animals who lose one tag can be used to estimate how many
have lost both, and take this into account in calculations.
 We should try to maintain constant intervals between samplings.
Very irregular intervals will increase sampling error and difficult
estimation.
Fieldwork Planning

 Determine which phenotypical variables will be recorded. Some of these atributes would
analysis system for mark-recapture data, Manitoba, Canada: Department of Computer Science,
Source: N. A. Arnason, C. J. Schwarz, and G. Boyer, 1998. POPAN-5. A data maintenance and

be specific to each individual (sex, colour morph, cohort) but other will change with age.
We should try to include all atributes that potentially can affect survival or recapture rates.
 Some phenotypic variables that we might think irrelevant for our study might be crucial to
subdivide the population in groups of individuals with homogeneous survival and recapture
rates.
 Think about how the marking method selected will affect to marked animals, to determine
whether violations of the iii assumption are likely.
 Try to estimate how much time is needed to record all phenotypic characters of each
specimen. Animals should be handled the minimum time possible, to minimize changes to
their behaviour (think about your odor on the animal and how this could affect congeners
and predators).
The University of Manitoba. 318 pages.

 It is crucial that the capture method produces no damages, so that animals became trap-
shy. On the contrary, the use of baited traps can produce trap-hapiness. Try to avoid both
effects, for instance changing trap placements and types of capture methods.
 Is there any research already done with the selected species (or a very similar taxon)?.
Many minor details of how to solve sampling problems never appear in the Methods
section of papers: if you can consult with somebody that has previous experience, then do
it!
Fieldwork Planning

 The degree of bias produced by permanent emigration can be


analysis system for mark-recapture data, Manitoba, Canada: Department of Computer Science,
Source: N. A. Arnason, C. J. Schwarz, and G. Boyer, 1998. POPAN-5. A data maintenance and

controled or reduced by means of a careful delimitation of the


study population.
 Do not expect satisfactory results if sampling is concentrated in a
small part of the range occupied by the population.
 Try to sample outside the core area, and determine whether
marked animals are found there.

 Determinate the efficiency, even if very coarsely, of your


sampling methods.
The University of Manitoba. 318 pages.

 It is very important to try to have an idea of the number of


recaptures that can be obtained with the sampling effort available.
 If population size is very large, then we will be unable to get
precise estimates. In that case we have only two options: or
increasing effort or changing population.
Source: N. A. Arnason, C. J. Schwarz, and G. Boyer, 1998. POPAN-5. A data maintenance and
analysis system for mark-recapture data, Manitoba, Canada: Department of Computer Science,
The University of Manitoba. 318 pages.






Precission needed

Manwork available

Size of the studied population


How big should be each sample?
How many sampling sessions are needed?

How long should inter-sampling interval be?


Distribution of Sampling Effort
Sampling Effort Allocation
between Sampling Dates
 Try to mark the maximum number of animals as soon as possible.
analysis system for mark-recapture data, Manitoba, Canada: Department of Computer Science,
Source: N. A. Arnason, C. J. Schwarz, and G. Boyer, 1998. POPAN-5. A data maintenance and

 In a small population (100-500 individuals) this means to try to mark 20% or even
50% of specimens in the first 3-4 sampling occasions.
 Sampling effort should be higher in the first sampling occasions. Try to get some
helpers for the first sampling days.
 In large populations (more than 1000 individuals) satisfactory parameter estimates
can be obtained with a proportion of marked animals of 20% or less.
 When a reasonable number of animals are marked, sampling effort can be
minimized, but ideally should be enough to recapturate all specimens at least
once. Therefore marking should be done for at least the average duration of
the lifespan.
 For instance, if the daily survival rate is 0.9, then the expected lifespan is 10
days(=1/(1-0.9)), and we should be able to recapture at least 20% of the population
The University of Manitoba. 318 pages.

over 10 days, to have the opportunity to observe each animal twice.


 Continuing sampling for a longer period of time would not increase precision of
estimates substantially. Other biological reasons should be taken into account to
decide when the study ends.
 To the end of the sampling period, try to increase sampling effort again.
 If the last sampling day is the end of the study, and no samplings afterwards are
expected, then the new animals captured might not be marked.
Inter-Sampling Interval

 To decide this variable we need an estimate of the average lifespan of the


analysis system for mark-recapture data, Manitoba, Canada: Department of Computer Science,

members of the population and the rate of disappearance and mixing of


Source: N. A. Arnason, C. J. Schwarz, and G. Boyer, 1998. POPAN-5. A data maintenance and

marked animals with the rest of the population. The estimates can be
unreliable with inter-sampling interval is wrong.
 For instance, if survival rate is high (say 0.9 between sampling dates)
then many survival rates would be over 1.0, unless sampling intensity is
very high.
 In this case, taking the samples every 4 sampling intervals the estimate
of survival rate would be 0.66 (=0.94), and estimates over 1.0 would be
very unlikely.
 The best survival estimates are usually between 0.6 and 0.8. Sampling
efforts that give estimates below 0.6 are clearly unrealiable.
 Remember that one of the assumptions of the models is that marking is
The University of Manitoba. 318 pages.

instantaneous in time.
 This assumption is important if the disappearance rate is low and the
speed of mixturing of marked animals with the unmarked ones is high,
but certainly should not be ignored. A study where marking is done
continously, and that afterwards is artifically divided into days, weeks or
months, has the risk of induce heterogeneity in recapture rates.
Number of Samplings
analysis system for mark-recapture data, Manitoba, Canada: Department of Computer Science,

 The answer to this question depends on biological


Source: N. A. Arnason, C. J. Schwarz, and G. Boyer, 1998. POPAN-5. A data maintenance and

and logistic considerations. The sampling period


should include the period of interest.
 Ideally sampling should start before the period of
interest, and end after that period, because the first and
last samples always have larger errors.
 Remember that if survival is very low, a long sampling
period would not be justified: the better strategy woudl
be a short study with very high sampling intensity. The
largest contribution to the precision of estimates from
The University of Manitoba. 318 pages.

occasion i cames from samples taken i+2*(mean


lifespan), assuming that lifespan is measured with the
same intervals as inter-sampling intervals.
 If average lifespan is very low, the only way to get
realiable estimates is to concentrate in a brief but intense
field work.
Further (*indispensable!)
reading

 *Hurlbert, S.H. 1984. Pseudoreplication and the design of ecological experiments.


Ecological Monographs, 54: 187-211.
 *Oksanen, L. 2001. Logic of experiments in ecology: is pseudoreplication a pseudoissue?
Oikos, 94 (1):27-38.
 *Johnson, D.H. 1999. The insignificance of statistical significance testing. Journal of
Wildlife Management, 63 (3):763-772
 *Johnson, D.H. 2002. The importance of replication in wildlife research. Journal of
Wildlife Management, 66 (4):919-932.
 *Krebs, C.J. 2000. Hypothesis testing in ecology. In: Research techniques in animal
ecology. Controversies and consequences, edited by L. Boitani and T. K. Fuller, New
York:Columbia University Press, p. 1-14.
 *Kelly, C.D. 2006.
Replicating empirical research in Behavioral Ecology: how and why it should be done but
rarely ever is
. The Quarterly Review of Biology, 81 (3):221-236.
 Eberhardt, L.L. 2003. What should we do about hypothesis testing? Journal of Wildlife
Management, 67 (2):241-247.
 Anderson, D.R., Link, W.A., Johnson, D.H., & Burnham, K.P. 2001.
Suggestions for presenting the results of data analyses. Journal of Wildlife Management,
65 (3):373-378.
 Stephens, P.A., Buskirk, S.W., Hayward, G.D., & Martínez del Río, C. 2005.
Information theory and hypothesis testing: a call for pluralism. Journal of Applied
Ecology, 42: 4-12.

También podría gustarte