0% encontró este documento útil (0 votos)
17 vistas36 páginas

Propiedades de EMV en Modelos Lineales

Cargado por

mafi88811
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
17 vistas36 páginas

Propiedades de EMV en Modelos Lineales

Cargado por

mafi88811
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Modelo Lineal Generalizado

Propiedades de los Estimadores de Máxima Verosimilitud


Recordemos que si la variable aleatoria Y tiene función de densidad o probabilidad
puntual f (y, θ), la verosimiltud L(θ, y) es simplemente f (y, θ) mirada como función de
θ con y fijo.
La función de probabilidad o densidad es definida sobre el soporte y ∈ Y, mientras
que la verosimilitud es definida sobre un espacio paramétrico Θ.
En muchos casoS trabajamos con el logaritmo de la verosimilitud (log-likelihood)

l(θ, y) = log L(θ, y)


que está definido salvo una cosntante aditiva.
41
En general, tendremos una muestra aleatoria Y1, . . . , Yn con distribución f (y, θ), de
manera que la verosimilitud será:
n
Y
L(θ) = f (yi, θ)
i=1
y la log-versosimilitud
n
X
l(θ) = log L(θ) = log f (yi, θ)
i=1
Una propiedad útil de los EMV es la de invariancia que dice que si g es una función
con inversa g −1, de manera que φ = g(θ) implica que θ = g −1(φ), entonces el EMV de
c
φ, φ, se calcula como
φc = g(θ)
c

siendo θc el EMV de θ.
Como ya sabemos, podemos maximizar L(θ) o bien maximizar l(θ). En problemas
regulares, el EMV puede hallarse igualando a 0 las derivadas pimeras de l(θ) respecto
de θ.
La derivada primera de l(θ) respecto de θ se llama score. En el caso univariado tenemos:

42
0 n
X
l (θ) = ui(θ)
i=1
donde


ui(θ) = log f (yi, θ)
∂θ
Si tenemos q parámetros, θ = (θ1, . . . , θq )0, el vector de score es

   
∂l Pn ∂

 ∂θ1 


 i=1 ∂θ1 logf (yi , θ) 

   
 ∂l   Pn ∂ 
i=1 ∂θ2 logf (yi , θ)
   
 ∂θ2   
   
   
l0(θ) = 


. 


= 


. 


   
   


. 



. 

   P 
 ∂l   n ∂ 
∂θq i=1 ∂θq logf (yi , θ)

Una propiedad bien conocida del score es que su esperanza es nula:


0
Z f (y, θ0) Z
E(l0(θ))|θ=θ0 0
= l ((θ0))f (y, θ0)dy = f (y, θ0)dy = 0
f (y, θ0)
43
La varianza de los score u(θ) es conocida como la información de Fisher. En el
caso univariado, la información de Fisher es:

i(θ) = V (u(θ)) = V (l0(θ))


= E(u2(θ))
Recordemos que

00 ∂2
i(θ) = E(−l (θ)) = −E( 2 logf (y, θ))
∂θ
En el caso multivariado, i(θ) es una matriz de q × q tal que:
∂2
{i(θ)}ij = −E( logf (y, θ))
∂θi∂θj
En Estadı́stica se probó que, bajo condiciones de regularidad, los EMV son asintótica-
mente normales, de manera que
√ D
n(θc − θ) −→ N (0, i−1(θ))
44
Estimación y Tests de Bondad de Ajuste
Supongamos que tenemos un muestreo multinomial y obtenemos la tabla (X, Y ) en
n individuos.

Y =1 Y =2 Y =J
X = 1 n11 n12 n1J
X = 2 n21 n22 n2J
· · · · · ·
· · · · · ·
· · · · · ·
X = I nI1 nI2 nIJ

Sea nij el número de individuos que tienen P (X = i, Y = j), de manera que n =


PI PJ
i=1 j=1 nij .
Por lo que ya vimos los estimadores de máxima verosimilitud de πij son

nij
π
c
ij = ∀i, j .
n
45
Si las dos variables categóricas fueran independientes, tendrı́amos

πij = πiπj ∀i, j ,


luego como veremos por invariancia, el estimador de máxima verosimilitud de πij serı́a
bajo independencia:

ni+n+j
πcij = π
c
i+ π+j =
c ∀i, j .
n2
Dado que nij ∼ Bi(n, πij ),

mij = E(nij ) = nπij .


Bajo el supuesto de independencia, el EMV es
ni+n+j
mij = nπij =
d c
n
Estos estimadores tienen la propiedad de tener las mismas marginales que la tabla:

J
X ni+n+j
mi+ =
d = ni+
j=1 n
46
I
X ni+n+j
m
d
+j = = n+j
i=1 n

Test de Bondad de Ajuste

Veremos un test presentado por Pearson (1900) que sirve para evaluar si una distribu-
ción multinomial tiene ciertas probabilidades πij propuestas.
Para simplificar la notación, como antes, indicaremos {n1, . . . , nN } las observaciones
N
X
de cada casilla, con n = ni y siendo {π1, . . . , πN } las probabilidades de cada celda.
i=1
Supongamos que las hipótesis a testear son
N
X N
X
H0 : πi = πi0, πi0 = πi = 1 H1 : ∃i : πi 6= πi0
j=1 j=1

Pearson propuso el siguiente estadı́stico:

2 (ni − mi0)2
N
X
χ = donde mi0 = nπi0
j=1 mi0

47
La idea intuitiva es que comparamos el valor observado (ni) con el valor esperado
(mi0) bajo H0, suele decirse :
(observado − esperado)2
.
esperado
Intuitivamente rechazaremos H0 cuando esto sea muy grande. ¿Cuán grande?
El argumento heurı́stico que dio Pearson es el siguiente: si n1, . . . , nN fueran v.a.
independientes tales que ni ∼ P(mi), bajo ciertas condiciones

ni − mi a
√ ∼ N (0, 1)
mi
entonces
 
N
X  ni − mi 2 a 2
√  ∼ χN


i=1 mi
Si además agregamos la restricción PNi=1 ni = n, es natural que perdamos un grado de
libertad y que la distribución asintótica del estadı́stico resulte χ2N −[Link] todo esto, la
regla de decisión será
48
Rechazamos H0 si χ2 > χ2N −1,α
En el caso en que N = 2, el estadı́stico queda
 
2 2 2 2
(p − π0)
c (p − π0)
c (p − π0) c
 p − π
c
0 
n +n =n =  r 

π0 1 − π0 π0(1 − π0) π0(1 − π0)/n
que es el cuadrado del test habitual para testear

H0 : π0 = π H1 : π0 6= π
que tiene distribución asintótica normal y en consecuencia, su cuadrado lo com-
pararı́amos con una χ21.
Veamos la justificación teórica de este test. Comenzaremos por presentar el Teorema
Central del Lı́mite Multivariado, que resulta del caso univariado aplicando la siguiente

49
Proposición: Sean Xn = (X1n, . . . , Xkn)0 una sucesión de vectores aleatorios y
λ = (λ1, . . . , λk )0 ∈ <k .
Si ∀λ ∈ <k

D
λ0Xn = λ1X1n + . . . + λk Xkn −→ λ 1 X1 + . . . + λ k Xk ,
donde X = (X1, . . . , Xk )0 ∼ F, entonces la distribución lı́mite de Xn = (X1n, . . . , Xkn)0
existe y es F.

Teorema Central del Lı́mite Multivariado (TCLM)

Sea Un = (U1n, . . . , Ukn)0 una sucesión de vectores aleatorios tales que E(Un) = µ y
ΣUn = Σ, n = 1, 2, . . .
Si Ūn = (Ū1n, . . . , Ūkn)0 es el vector de promedios, donde para cada 1 ≤ i ≤ k
1 X
n
Ūin = Uij , entonces
n j=1
√ D
n(Ūn − µ) −→ Nk (0, Σ) .

50
Según la proposición anterior debemos estudiar la distribución de λ0Ūn.

λ0Ūn = λ1Ū1n + . . . + λk Ūkn


Pn Pn
U 1j Ukj
= λ1 j=1 + . . . + λk j=1
n n
1 X n
= λ0Uj
n j=1
1 X n
= Wj
n j=1
= W̄
donde E(Wi) = λ0µ, V ar(Wi) = λ0Σλ.
Por el TCL univariado, tenemos que
√ D
n(W̄n − λ0µ) −→ Nk (0, λ0Σλ) ,
es decir,

51
√ D
n(λ0Ūn − λ0µ) −→ Nk (0, λ0Σλ) ,
que corresponde a la distribución de λ0U, con U ∼ Nk (0, Σ)
por lo que
√ D
n(Ūn − µ) −→ Nk (0, Σ) .

Ahora estudiaremos la distribución asintótica de (X1, . . . , XN −1) cuando (X1, . . . , XN )0 ∼


N
X 0 ni
M (n, π1, . . . , πN ), πi. Llamemos p = (p1, . . . , pN ) , pi = .
i=1 n
Consideremos el vector Yi ∼ M (1, π1, . . . , πN ) que ya definimos con todas sus com-
ponentes iguales a 0 y un único 1 en la coordenada j-ésima si en la i-ésima observación
ocurrió la categorı́a j:

Yi = (0, . . . , 1 , . . . , 0)
j
Recordemos que si Yi ∼ M (1, π1, . . . , πN )
52
E(Yi) = Π
ΣYi = ∆(Π) − ΠΠ0

Podemos escribir al vector p en términos de los Yi:

Yi
n
X
p= = (Ȳ1, . . . , ȲN )
i=1 n
entonces por el T.C.L multivariado sabemos que
√ D
n(p − π) −→ NN (0, ∆(π) − ππ 0) .
Ya hemos visto que como los πi’s están relacionados, Σ = ∆(π)−ππ 0 no es invertible.
Definamos p̃ = (p1, . . . , pN −1)0 y π̃ = (π1, . . . , πN −1)0.
Notemos que p̃ = Tp, siendo T es una transformación lineal adecuada, luego apli-
cando el T.C.L. multivariado a Tp
√ D
n(p̃ − π̃) −→ NN −1(0, ∆(π̃) − π̃ π̃0) .

53
Ahora, ∆(π̃) − π̃ π̃ 0) sı́ es invertible
Esto quiere decir que bajo H0
√ D
n(p̃ − π̃ 0) −→ NN −1(0, Σ̃0) .
donde Σ̃0 = ∆(π̃ 0) − π̃ 0π̃ 00. Por lo tanto, como ya sabemos

D
n(p̃ − π̃ 00) Σ̃−1
0 (p̃ − π̃ 0 ) −→ χ2N −1
Calculando efectivamente la forma cuadrática que estamos considerando, veremos que
N
X (pi − πi0)2
n(p̃ − π̃00) Σ̃−1
0 (p̃ − π̃ 0) = n
j=1 πi0

Ejemplo: Leyes de Mendel


El test de Pearson fue usado para testear las leyes de herencia de la teorı́a de Mendel.
Mendel cruzó arvejas de cepa amarilla con arvejas de cepa verde puras y predijo que la
segunda generación de hı́bridos serı́an un 75 % amarillas y un 25 % verdes, siendo las
amarillas las de carácter dominante.
54
En un experimento de n = 8023 semillas, resultaron n1 = 6022 amarillas y n2 = 2001
verdes. Las frecuencias relativas esperadas eran π1 = 0,75 y π2 = 0,25, por lo tanto
m1 = 6017,25 y m2 = 20005,75.
Luego, si queremos testear la hipótesis nula
H0 : π1 = 0.75, π2 = 0.25

el estadı́stico χ2 es:

2 (n1 − 6017.25)2 (n2 − 2005.75)2


χ = +
6017.25 2005.75
= 0.015

con un p-valor=0.88, lo que no contradice la teorı́a de Mendel.

55
Cuando π puede yacer en cualquier lugar de S decimos que el modelo es saturado.
Este modelo tiene N − 1 parámetros. Sin embargo, con freciencia supondremos que π
yace en un subconjunto de menor dimensión de S. Supondremos que los elementos de
π están determinados por q parámetros desconocidos θ = (θ1, . . . , θq )0, como muestran
los siguientes ejemplos.

Test de Independencia

Independencia en una tabla de 2 × 2

Supongamos que X = (X11, X12, X21, X22)0 es el vector de frecuencias de una tabla
de 2 × 2:
B=1 B=2
A = 1 X11 X12
A = 2 X21 X22

De manera que Xij es el número de individuos para los cuales (A = i, B = j). Si A


56
y B no están relacionados, entonces en todas las casillas valdrá:

πij = P (A = i, B = j) = P (A = i)P (B = j)
Llamemos α = P (A = i) y β = P (B = j), luego
   
π11  


αβ 

   
π12   α(1 − β) 


 
Π= 
  =  
π21   (1 − α)β 



   
π22 (1 − α)(1 − β)
Este es un modelo restringido que depende del parámetro
θ = (α, β) ,
donde 0 ≤ α ≤ 1, 0 ≤ β ≤ 1.
Para hallar los estimadores de máxima verosimilitud de α y β tenemos que maximizar:

L = L(X11, X12, X21, X22, α, β) =


n!
= (αβ)X11 (α(1 − β))X12 ((1 − α)β)X21 ((1 − α)(1 − β))X22
X11!X12!X21!X22!
57
Después de tomar logaritmo, obtenemos:

l = ln(L) = cte + X11 ln(αβ) + X12 ln(α(1 − β))


+ X21 ln((1 − α)β) + X22 ln((1 − α)(1 − β))

Después de derivar e igualar a 0, queda:

∂l X11 + X12 X21 + X22


(1) : = − =0
∂α α 1−α
∂l X11 + X21 X12 + X22
(2) : = − =0
∂β β 1−β

De (1) resulta:

(1 − α)(X11 + X12) − α(X21 + X22) = 0 ,


por lo tanto

X11 + X12
α=
c .
n
58
De (2) resulta:

(1 − β)(X11 + X21) − β(X12 + X22) = 0 ,


por lo tanto

c X11 + X21
β= .
n
En el caso general de una tabla de I × J, el modelo serı́a πij = πi+π+j .

Test de Independencia

Vimos que en las tablas de contingencia con muestreo multinomial puede ser de interés
testear la hipótesis de independencia, es decir:

H0 : πij = πi+π+j ∀i, j


La hipótesis nula depende de ciertos parámetros.

59
Por esto si bien para testear esta hipótesis usaremos un test de tipo Pearson, antes
será necesario probar algunos resultados.
Otro ejemplo es el de las tablas simétricas.

Ejemplo: Tabla de 2 × 2 con simetrı́a

Consideremos X = (X11, X12, X21, X22)0 como en el ejemplo anterior, pero suponga-
mos) que ahora A y B representan dos caracterı́sticas medidas en dos oportunidades
distintas. Por ejemplo, A podrı́a ser la respuesta a
A : ¿Apoya usted la gestión de gobierno?
medida en el mes de enero (1=Si, 0=No) y B la misma pregunta hecha tres meses
después.
Febrero
Enero 1 0
1 π11 π12
0 π21 π22

60
En este tipo de esquema el interés del investigador es detectar un cambio en el tiempo.
Si no hubiera ningún cambio, la probabilidad de ”Si”en enero
P (A = 1) = π11 + π12
serı́a igual a la probabilidad de ”Si”tres meses después
P (B = 1) = π11 + π21 .

Observemos P (A = 1) = P (B = 1) si y sólo si π12 = π21, que se conoce como la


condición de simetrı́a. Bajo simetrı́a, π = π(θ) podrı́a expresarse como:
   
π11  


α 

   
π12  


  β 

Π= 
  =   ,

π21  



 
β 


   
π22 1 − α − 2β
con θ = (α, β)0.

Será un ejercicio de la práctica probar que los EMV bajo este modelo son:

61
X11
α
c = .
n

c X12 + X21
β= .
2n

62
Caso Paramétrico General (Rao, Capı́tulo 5)

Aún cuando en los dos ejemplos anteriores los EMV tienen una forma cerrada, en
otros modelos más complicados, los EMV deben ser computados en forma iterativa.
En general, θc es solución de las ecuaciones de ”score”:


l(π(θ), X) = 0 , j = 1, . . . , q . (1)
∂θj
Bajo condiciones de regularidad del EMV θc que precisaremos, demostraremos que
√ D
n(θc − θ0) −→ Nq (0, (A0A)−1)
donde
 
−1/2  ∂π 
A = ∆(π 0)   .
∂θ θ=θ0
Este resultado lo deduciremos expresando a θc en términos de p y luego aplicando el
método ∆.
63
Esto nos permitirá derivar la distribución del estadı́stico χ2 en casos bastante generales.

Para que el EMV de θ exista, es necesaria una condición de identificabilidad


fuerte:
Dado δ > 0 , existe  > 0 tal que

N
X πi(θ0)
inf πi(θ0) log ≥
kθ−θ0k>δ i=1 πi(θ)
Esta condición implica que fuera de la bola kθ − θ0k ≤ δ no hay ninguna sucesión de
puntos θr tal que π(θr ) → π(θ0) a medida que r → ∞, es decir que no hay valores θ
lejanos a θ0 que den practicamente las mismas probabilidades que π(θ0).
Es decir:

∀δ > 0, exite  > 0 tal que si kθ − θ0k > δ entonces kπ(θ) − π(θ0)k >  .

Esta condición implica una más débil:


64
π(θ) 6= π(β) si θ 6= β .
Bajo la condición fuerte de identificabilidad y continuidad de las funciones πi(θ), se
puede demostrar que el EMV de θ existe y que converge a θ0 con probabilidad 1.
Más aún, si las funciones πi(θ) tienen derivadas parciales de primer orden, se puede
demostrar que el EMV es solución de

∂L
= 0, j = 1, . . . , q . (2)
∂θj
Por último, si π(θ) 6= π(β) si θ 6= β, las funciones πi(θ) tienen derivadas parciales de
primer orden continuas en θ0 y si la matriz de información I

N
X 1 ∂πi ∂πi
Irs =
i=1 πi ∂θr ∂ θ̃s
evaluada en θ0 no es singular, entonces existe una raı́z consistente de (2) que puede no
ser un EMV, pero que es eficiente en el sentido que definiremos y que tiene distribución
asintótica normal
65
En este contexto hablaremos de eficiencia asintótica en el siguiente sentido.
Definición: Sea P (x1, . . . , xn, θ) es una función de probabilidad de las variables
aleatorias X1, . . . , Xn. Sea Zn = (zn1 , . . . , znq )0 el vector de derivadas

1 ∂ ln P 1 ∂l
zni = = i = 1, . . . , q
n ∂θi n ∂θi
y el vector de sesgos

Bn = (Tn − θ)0 = (Tn1 − θ1, . . . , Tnq − θq )0


siendo Tn = (Tn1, . . . , Tnq )0 es un estimador consistente de (θ1, . . . , θq )0.
Diremos que Tn es un estimador eficiente si

√ p
nkBn − DZnk −→ 0 (3)

o a.s., donde D es una matriz constante que puede depender de θ.

66
¿Qué dirı́a esta definición en el caso univariado?
Supongamos que p(x1, . . . , xn, θ) es la densidad conjunta de las variables aleatorias
X1, . . . , Xn y llamemos

1 ∂ log p(x1, . . . , xn, θ)


Zn =
n ∂θ
Tn, estimador consistente de θ, será eficiente si

√ p
n(Tn − θ − δ(θ)Zn) −→ 0 (4)
en probabilidad o con probabilidad 1, donde δ(θ) no involucra a las observaciones.
¿Qué interés tiene esta definición?
Tenemos, por ejemplo, el siguiente resultado a partir de esta definición.
Sean X1, . . . , Xn una sucesión de v. a. i.i.d. con densidad p(x, θ), siendoθ ∈ <.
Además supongamos que

Z
0
Z p02
p (x, θ)dx = 0 dx = i(θ) > 0
p
67

Entonces, la condición (4) implica que la distribución asintótica de n(Tn − θ) es
normal:
De hecho, por el T.C.L. la distribución asintótica de
 
√ 1  p0(X1, θ) p0(Xn, θ)  p
nzn = √  + ... +  −→ N (0, i(θ))
n p(X1, θ) p(Xn, θ)
√ √
Por (4), n(Tn − θ) tiene la √ misma distribución que nδ(θ)Zn, de donde deducimos
la normalidad asintótica de n(Tn − θ).

Caso Multivariado Bajo condiciones


√ similares a las enunciadas en el ı́tem anterior,
la distribución asintótica de nZn es normal q-variada con media 0 y matriz de
covarianza I = {irs}, matriz de información.

Luego, si kDk 6= 0, la condición (3) implica que n(Tn − θ) es también normal con
distribución normal q–variada y con matriz de covarianza DID.

68
Supondremos que las casillas tienen distribución multinomial con probabilidad π =
(π1, . . . , πN )0, donde π = π(θ) = π(θ1, . . . , θq )0. Deduciremos un resultado análogo al
c
que ya vimos para el caso no paramétrico cuando π d = π(θ) y calcularemos grados de

libertad de la χ2 correspondiente.
El resultado que probaremos es el siguiente:

Teorema: Supongamos que las probabilidades de las casillas son π1(θ), . . . , πN (θ)
que involucran a q parámetros θ = (θ1, . . . , θq )0. Además, supongamos que:
a) θc es un estimador eficiente de θ en el sentido de (3)
b) Cada πi(θ) admite derivadas parciales continuas de 1er orden respecto de θj ,
j = 1, . . . , q, i = 1, . . . , N .
∂πr
c) La matriz M = { } de N × q calculada en los verdaderos θ tiene rango q.
∂θs
Luego, tenemos que

N d )2
(ni − m N (ni − nπ c )2
2 X i X i D
χ = = −→ χ2N −1−q
i=1 m
d
i i=1 nπ
c
i

69
Comenzaremos por probar el siguiente resultado auxiliar.
Lema: Supongamos que θ0, valor verdadero del parámetro, es un punto interior del
espacio paramétrico, πi(θ0) > 0 ∀i y que además se cumplen las siguientes condiciones:

a) πi(θ) 6= πi(β) para algún i si θ 6= β (condición de identificabilidad).


b) πi(θ) admite derivadas parciales de 1er orden continuas en θ0.
c) La matriz {irs} es no singular en θ0, donde
X 1 ∂πj ∂πj
irs =
j πj ∂θr ∂θs
∂l
Luego, existe una raı́z consistente θ̃ de = 0 i = 1, . . . , q, ecuación de verosimili-
∂θi
tud y
√ p
n |θ̃r − θ0r − ir1Z1 − . . . − irq Zq | −→ 0 j = 1, . . . , q
donde irs = {I −1}rs
N
X pi ∂πi
Zj =
i=1 πi (θ0) ∂θ0j

70
∂l
Es decir, el estimador derivado de la ecuación = 0 es eficiente y su distribución
∂θi
asintótica es normal q–variada, siendo
√ D
n(θc − θ0) −→ Nq (0, (A0A)−1)
donde
 
∂π
A = ∆(π 0)−1/2   .
∂θ θ=θ0
Esquema de demostración

(1) Lemita: Si Pi=1 ai y Pi=1 bi son series convergentes, donde ai > 0 y bi > 0, tal
que Pi=1 ai ≥ Pi=1 bi, entonces

N
X bi X X
ai log ≤ 0 si ai ≥ bi
i=1 ai i=1 i=1

y la igualdad se alcanza si ai = bi∀i.

71
(2) Consideremos la función

N
X πi(θ0)
S(θ) = πi(θ0) log
i=1 πi(θ)
sobre la bola
kθ − θ0k ≤ δ
(3) Con esto probamos que

inf S(θ) >  > 0


kθ−θ0k=δ

(4) A partir de (3) usando un argumento de continuidad, vemos que si kθ − θ0k = δ

N
X N
X
pi log πi(θ0) > pi log πi(θ)
i=1 i=1

por lo tanto el máximo se alcanza en θ̄, punto interior de kθ − θ0k ≤ δ.


5) Probamos que para θ̃s ∈ (θ̄s, θ0s)

72
N
X √ pi − πi(θ0) ∂πi N
X q
X √ ∂πi ∂πi 1
n = n (θ̄s − θ0s) (5)
i=1 π̄i ∂ θ̄r i=1 s=1 ∂ θ̄r ∂ θ̃s π̄i
(6) Finalmente, si definimos A ∈ <N ×q
∂πi(θ)
−1/2
{A} = aij = π0i
∂θ0j
−1/2 ∂π
= ∆(π0 )
∂θ0
reemplazando a π̄ por π 0 en (5) podemos reescribir (5) :

0 −1/2 √ (a) 0 √
A ∆(π 0 ) n(p − π 0) = (A A) n(θ̄ − θ0)

Como (A0A) es invertible por hipótesis, tenemos que

√ (a) 0 −1 0 −1/2 √
n(θ̄ − θ0) = (A A) A ∆(π0 ) n(p − π 0)
(a) √
= nDZn
73
De donde deduciremos que

√ D
n(θ̄ − θ0) −→ Nq (0, (A0A)−1) .

En realidad, necesitamos algo más, ya que nos interesa la distribución de π(θ).


En < tenemos que si
√ D
n(Xn − µ) −→ N (0, σ 2)
entonces bajo condiciones de suavidad de la función g, entonces
√ D
n(g(Xn) − g(µ)) −→ N (0, σ 2(g 0(µ))2)
El siguiente lema, conocido como Método ∆ generaliza este resultado para una fun-
ción de vector aleatorio.

74
Lema 2: Método ∆ una función de vector aleatorio.
Supongamos que Tn = (Tn1, . . . , TnN ) es una sucesión de vectores aleatorios tal que
√ D
n((Tn1, . . . , TnN ) − (θ1, . . . , θN )) −→ N (0, Σ)
Sea g una función tal que g : <N −→ < diferenciable. Luego si
∂g
φ = (φi) = |t=θ ,
∂ti
entonces
√ D
n(g(Tn1, . . . , TnN ) − g(θ1, . . . , θN )) −→ N (0, φ0Σφ)
Análogamente, si en lugar de un campo escalar tenemos un campo vectorial, es decir
g : <N −→ <q , donde cada componente gi es diferenciable como en el lema anterior,
obtenemos
√ D
n(g(Tn1, . . . , TnN ) − g(θ1, . . . , θN )) −→ Nq (0, GΣG0)
donde
∂gi
Gij = |t=θ
∂tj
75
Aplicando todos los resultados anteriores obtenemos que:
0
√ D ∂π ∂π
n(π(θ̄) − π(θ0)) −→ N (0, (A0A)−1 )
∂θ0 ∂θ0
Notemos que el estadı́stico χ2 puede escribirse como

χ2 = e0e
donde
 

0 √ p1 − π1(θ̄) √ pN − πN (θ̄) 
e = n
 r ,..., n r 

π1(θ̄) πN (θ̄)
Para derivar la distribución asintótica de χ2 necesitaremos la conjunta de (p, π(θ̄)) y
deduciremos que

D
e −→ N (0, I − π(θ0)1/2π 0(θ0)1/2 − A(A0A)−1A0)

76

También podría gustarte