Propiedades de EMV en Modelos Lineales
Propiedades de EMV en Modelos Lineales
siendo θc el EMV de θ.
Como ya sabemos, podemos maximizar L(θ) o bien maximizar l(θ). En problemas
regulares, el EMV puede hallarse igualando a 0 las derivadas pimeras de l(θ) respecto
de θ.
La derivada primera de l(θ) respecto de θ se llama score. En el caso univariado tenemos:
42
0 n
X
l (θ) = ui(θ)
i=1
donde
∂
ui(θ) = log f (yi, θ)
∂θ
Si tenemos q parámetros, θ = (θ1, . . . , θq )0, el vector de score es
∂l Pn ∂
∂θ1
i=1 ∂θ1 logf (yi , θ)
∂l Pn ∂
i=1 ∂θ2 logf (yi , θ)
∂θ2
l0(θ) =
.
=
.
.
.
P
∂l n ∂
∂θq i=1 ∂θq logf (yi , θ)
00 ∂2
i(θ) = E(−l (θ)) = −E( 2 logf (y, θ))
∂θ
En el caso multivariado, i(θ) es una matriz de q × q tal que:
∂2
{i(θ)}ij = −E( logf (y, θ))
∂θi∂θj
En Estadı́stica se probó que, bajo condiciones de regularidad, los EMV son asintótica-
mente normales, de manera que
√ D
n(θc − θ) −→ N (0, i−1(θ))
44
Estimación y Tests de Bondad de Ajuste
Supongamos que tenemos un muestreo multinomial y obtenemos la tabla (X, Y ) en
n individuos.
Y =1 Y =2 Y =J
X = 1 n11 n12 n1J
X = 2 n21 n22 n2J
· · · · · ·
· · · · · ·
· · · · · ·
X = I nI1 nI2 nIJ
nij
π
c
ij = ∀i, j .
n
45
Si las dos variables categóricas fueran independientes, tendrı́amos
ni+n+j
πcij = π
c
i+ π+j =
c ∀i, j .
n2
Dado que nij ∼ Bi(n, πij ),
J
X ni+n+j
mi+ =
d = ni+
j=1 n
46
I
X ni+n+j
m
d
+j = = n+j
i=1 n
Veremos un test presentado por Pearson (1900) que sirve para evaluar si una distribu-
ción multinomial tiene ciertas probabilidades πij propuestas.
Para simplificar la notación, como antes, indicaremos {n1, . . . , nN } las observaciones
N
X
de cada casilla, con n = ni y siendo {π1, . . . , πN } las probabilidades de cada celda.
i=1
Supongamos que las hipótesis a testear son
N
X N
X
H0 : πi = πi0, πi0 = πi = 1 H1 : ∃i : πi 6= πi0
j=1 j=1
2 (ni − mi0)2
N
X
χ = donde mi0 = nπi0
j=1 mi0
47
La idea intuitiva es que comparamos el valor observado (ni) con el valor esperado
(mi0) bajo H0, suele decirse :
(observado − esperado)2
.
esperado
Intuitivamente rechazaremos H0 cuando esto sea muy grande. ¿Cuán grande?
El argumento heurı́stico que dio Pearson es el siguiente: si n1, . . . , nN fueran v.a.
independientes tales que ni ∼ P(mi), bajo ciertas condiciones
ni − mi a
√ ∼ N (0, 1)
mi
entonces
N
X ni − mi 2 a 2
√ ∼ χN
i=1 mi
Si además agregamos la restricción PNi=1 ni = n, es natural que perdamos un grado de
libertad y que la distribución asintótica del estadı́stico resulte χ2N −[Link] todo esto, la
regla de decisión será
48
Rechazamos H0 si χ2 > χ2N −1,α
En el caso en que N = 2, el estadı́stico queda
2 2 2 2
(p − π0)
c (p − π0)
c (p − π0) c
p − π
c
0
n +n =n = r
π0 1 − π0 π0(1 − π0) π0(1 − π0)/n
que es el cuadrado del test habitual para testear
H0 : π0 = π H1 : π0 6= π
que tiene distribución asintótica normal y en consecuencia, su cuadrado lo com-
pararı́amos con una χ21.
Veamos la justificación teórica de este test. Comenzaremos por presentar el Teorema
Central del Lı́mite Multivariado, que resulta del caso univariado aplicando la siguiente
49
Proposición: Sean Xn = (X1n, . . . , Xkn)0 una sucesión de vectores aleatorios y
λ = (λ1, . . . , λk )0 ∈ <k .
Si ∀λ ∈ <k
D
λ0Xn = λ1X1n + . . . + λk Xkn −→ λ 1 X1 + . . . + λ k Xk ,
donde X = (X1, . . . , Xk )0 ∼ F, entonces la distribución lı́mite de Xn = (X1n, . . . , Xkn)0
existe y es F.
Sea Un = (U1n, . . . , Ukn)0 una sucesión de vectores aleatorios tales que E(Un) = µ y
ΣUn = Σ, n = 1, 2, . . .
Si Ūn = (Ū1n, . . . , Ūkn)0 es el vector de promedios, donde para cada 1 ≤ i ≤ k
1 X
n
Ūin = Uij , entonces
n j=1
√ D
n(Ūn − µ) −→ Nk (0, Σ) .
50
Según la proposición anterior debemos estudiar la distribución de λ0Ūn.
51
√ D
n(λ0Ūn − λ0µ) −→ Nk (0, λ0Σλ) ,
que corresponde a la distribución de λ0U, con U ∼ Nk (0, Σ)
por lo que
√ D
n(Ūn − µ) −→ Nk (0, Σ) .
Yi
n
X
p= = (Ȳ1, . . . , ȲN )
i=1 n
entonces por el T.C.L multivariado sabemos que
√ D
n(p − π) −→ NN (0, ∆(π) − ππ 0) .
Ya hemos visto que como los πi’s están relacionados, Σ = ∆(π)−ππ 0 no es invertible.
Definamos p̃ = (p1, . . . , pN −1)0 y π̃ = (π1, . . . , πN −1)0.
Notemos que p̃ = Tp, siendo T es una transformación lineal adecuada, luego apli-
cando el T.C.L. multivariado a Tp
√ D
n(p̃ − π̃) −→ NN −1(0, ∆(π̃) − π̃ π̃0) .
53
Ahora, ∆(π̃) − π̃ π̃ 0) sı́ es invertible
Esto quiere decir que bajo H0
√ D
n(p̃ − π̃ 0) −→ NN −1(0, Σ̃0) .
donde Σ̃0 = ∆(π̃ 0) − π̃ 0π̃ 00. Por lo tanto, como ya sabemos
D
n(p̃ − π̃ 00) Σ̃−1
0 (p̃ − π̃ 0 ) −→ χ2N −1
Calculando efectivamente la forma cuadrática que estamos considerando, veremos que
N
X (pi − πi0)2
n(p̃ − π̃00) Σ̃−1
0 (p̃ − π̃ 0) = n
j=1 πi0
el estadı́stico χ2 es:
55
Cuando π puede yacer en cualquier lugar de S decimos que el modelo es saturado.
Este modelo tiene N − 1 parámetros. Sin embargo, con freciencia supondremos que π
yace en un subconjunto de menor dimensión de S. Supondremos que los elementos de
π están determinados por q parámetros desconocidos θ = (θ1, . . . , θq )0, como muestran
los siguientes ejemplos.
Test de Independencia
Supongamos que X = (X11, X12, X21, X22)0 es el vector de frecuencias de una tabla
de 2 × 2:
B=1 B=2
A = 1 X11 X12
A = 2 X21 X22
πij = P (A = i, B = j) = P (A = i)P (B = j)
Llamemos α = P (A = i) y β = P (B = j), luego
π11
αβ
π12 α(1 − β)
Π=
=
π21 (1 − α)β
π22 (1 − α)(1 − β)
Este es un modelo restringido que depende del parámetro
θ = (α, β) ,
donde 0 ≤ α ≤ 1, 0 ≤ β ≤ 1.
Para hallar los estimadores de máxima verosimilitud de α y β tenemos que maximizar:
De (1) resulta:
X11 + X12
α=
c .
n
58
De (2) resulta:
c X11 + X21
β= .
n
En el caso general de una tabla de I × J, el modelo serı́a πij = πi+π+j .
Test de Independencia
Vimos que en las tablas de contingencia con muestreo multinomial puede ser de interés
testear la hipótesis de independencia, es decir:
59
Por esto si bien para testear esta hipótesis usaremos un test de tipo Pearson, antes
será necesario probar algunos resultados.
Otro ejemplo es el de las tablas simétricas.
Consideremos X = (X11, X12, X21, X22)0 como en el ejemplo anterior, pero suponga-
mos) que ahora A y B representan dos caracterı́sticas medidas en dos oportunidades
distintas. Por ejemplo, A podrı́a ser la respuesta a
A : ¿Apoya usted la gestión de gobierno?
medida en el mes de enero (1=Si, 0=No) y B la misma pregunta hecha tres meses
después.
Febrero
Enero 1 0
1 π11 π12
0 π21 π22
60
En este tipo de esquema el interés del investigador es detectar un cambio en el tiempo.
Si no hubiera ningún cambio, la probabilidad de ”Si”en enero
P (A = 1) = π11 + π12
serı́a igual a la probabilidad de ”Si”tres meses después
P (B = 1) = π11 + π21 .
Será un ejercicio de la práctica probar que los EMV bajo este modelo son:
61
X11
α
c = .
n
c X12 + X21
β= .
2n
62
Caso Paramétrico General (Rao, Capı́tulo 5)
Aún cuando en los dos ejemplos anteriores los EMV tienen una forma cerrada, en
otros modelos más complicados, los EMV deben ser computados en forma iterativa.
En general, θc es solución de las ecuaciones de ”score”:
∂
l(π(θ), X) = 0 , j = 1, . . . , q . (1)
∂θj
Bajo condiciones de regularidad del EMV θc que precisaremos, demostraremos que
√ D
n(θc − θ0) −→ Nq (0, (A0A)−1)
donde
−1/2 ∂π
A = ∆(π 0) .
∂θ θ=θ0
Este resultado lo deduciremos expresando a θc en términos de p y luego aplicando el
método ∆.
63
Esto nos permitirá derivar la distribución del estadı́stico χ2 en casos bastante generales.
N
X πi(θ0)
inf πi(θ0) log ≥
kθ−θ0k>δ i=1 πi(θ)
Esta condición implica que fuera de la bola kθ − θ0k ≤ δ no hay ninguna sucesión de
puntos θr tal que π(θr ) → π(θ0) a medida que r → ∞, es decir que no hay valores θ
lejanos a θ0 que den practicamente las mismas probabilidades que π(θ0).
Es decir:
∀δ > 0, exite > 0 tal que si kθ − θ0k > δ entonces kπ(θ) − π(θ0)k > .
∂L
= 0, j = 1, . . . , q . (2)
∂θj
Por último, si π(θ) 6= π(β) si θ 6= β, las funciones πi(θ) tienen derivadas parciales de
primer orden continuas en θ0 y si la matriz de información I
N
X 1 ∂πi ∂πi
Irs =
i=1 πi ∂θr ∂ θ̃s
evaluada en θ0 no es singular, entonces existe una raı́z consistente de (2) que puede no
ser un EMV, pero que es eficiente en el sentido que definiremos y que tiene distribución
asintótica normal
65
En este contexto hablaremos de eficiencia asintótica en el siguiente sentido.
Definición: Sea P (x1, . . . , xn, θ) es una función de probabilidad de las variables
aleatorias X1, . . . , Xn. Sea Zn = (zn1 , . . . , znq )0 el vector de derivadas
1 ∂ ln P 1 ∂l
zni = = i = 1, . . . , q
n ∂θi n ∂θi
y el vector de sesgos
√ p
nkBn − DZnk −→ 0 (3)
66
¿Qué dirı́a esta definición en el caso univariado?
Supongamos que p(x1, . . . , xn, θ) es la densidad conjunta de las variables aleatorias
X1, . . . , Xn y llamemos
√ p
n(Tn − θ − δ(θ)Zn) −→ 0 (4)
en probabilidad o con probabilidad 1, donde δ(θ) no involucra a las observaciones.
¿Qué interés tiene esta definición?
Tenemos, por ejemplo, el siguiente resultado a partir de esta definición.
Sean X1, . . . , Xn una sucesión de v. a. i.i.d. con densidad p(x, θ), siendoθ ∈ <.
Además supongamos que
Z
0
Z p02
p (x, θ)dx = 0 dx = i(θ) > 0
p
67
√
Entonces, la condición (4) implica que la distribución asintótica de n(Tn − θ) es
normal:
De hecho, por el T.C.L. la distribución asintótica de
√ 1 p0(X1, θ) p0(Xn, θ) p
nzn = √ + ... + −→ N (0, i(θ))
n p(X1, θ) p(Xn, θ)
√ √
Por (4), n(Tn − θ) tiene la √ misma distribución que nδ(θ)Zn, de donde deducimos
la normalidad asintótica de n(Tn − θ).
68
Supondremos que las casillas tienen distribución multinomial con probabilidad π =
(π1, . . . , πN )0, donde π = π(θ) = π(θ1, . . . , θq )0. Deduciremos un resultado análogo al
c
que ya vimos para el caso no paramétrico cuando π d = π(θ) y calcularemos grados de
libertad de la χ2 correspondiente.
El resultado que probaremos es el siguiente:
Teorema: Supongamos que las probabilidades de las casillas son π1(θ), . . . , πN (θ)
que involucran a q parámetros θ = (θ1, . . . , θq )0. Además, supongamos que:
a) θc es un estimador eficiente de θ en el sentido de (3)
b) Cada πi(θ) admite derivadas parciales continuas de 1er orden respecto de θj ,
j = 1, . . . , q, i = 1, . . . , N .
∂πr
c) La matriz M = { } de N × q calculada en los verdaderos θ tiene rango q.
∂θs
Luego, tenemos que
N d )2
(ni − m N (ni − nπ c )2
2 X i X i D
χ = = −→ χ2N −1−q
i=1 m
d
i i=1 nπ
c
i
69
Comenzaremos por probar el siguiente resultado auxiliar.
Lema: Supongamos que θ0, valor verdadero del parámetro, es un punto interior del
espacio paramétrico, πi(θ0) > 0 ∀i y que además se cumplen las siguientes condiciones:
70
∂l
Es decir, el estimador derivado de la ecuación = 0 es eficiente y su distribución
∂θi
asintótica es normal q–variada, siendo
√ D
n(θc − θ0) −→ Nq (0, (A0A)−1)
donde
∂π
A = ∆(π 0)−1/2 .
∂θ θ=θ0
Esquema de demostración
(1) Lemita: Si Pi=1 ai y Pi=1 bi son series convergentes, donde ai > 0 y bi > 0, tal
que Pi=1 ai ≥ Pi=1 bi, entonces
N
X bi X X
ai log ≤ 0 si ai ≥ bi
i=1 ai i=1 i=1
71
(2) Consideremos la función
N
X πi(θ0)
S(θ) = πi(θ0) log
i=1 πi(θ)
sobre la bola
kθ − θ0k ≤ δ
(3) Con esto probamos que
N
X N
X
pi log πi(θ0) > pi log πi(θ)
i=1 i=1
72
N
X √ pi − πi(θ0) ∂πi N
X q
X √ ∂πi ∂πi 1
n = n (θ̄s − θ0s) (5)
i=1 π̄i ∂ θ̄r i=1 s=1 ∂ θ̄r ∂ θ̃s π̄i
(6) Finalmente, si definimos A ∈ <N ×q
∂πi(θ)
−1/2
{A} = aij = π0i
∂θ0j
−1/2 ∂π
= ∆(π0 )
∂θ0
reemplazando a π̄ por π 0 en (5) podemos reescribir (5) :
0 −1/2 √ (a) 0 √
A ∆(π 0 ) n(p − π 0) = (A A) n(θ̄ − θ0)
√ (a) 0 −1 0 −1/2 √
n(θ̄ − θ0) = (A A) A ∆(π0 ) n(p − π 0)
(a) √
= nDZn
73
De donde deduciremos que
√ D
n(θ̄ − θ0) −→ Nq (0, (A0A)−1) .
74
Lema 2: Método ∆ una función de vector aleatorio.
Supongamos que Tn = (Tn1, . . . , TnN ) es una sucesión de vectores aleatorios tal que
√ D
n((Tn1, . . . , TnN ) − (θ1, . . . , θN )) −→ N (0, Σ)
Sea g una función tal que g : <N −→ < diferenciable. Luego si
∂g
φ = (φi) = |t=θ ,
∂ti
entonces
√ D
n(g(Tn1, . . . , TnN ) − g(θ1, . . . , θN )) −→ N (0, φ0Σφ)
Análogamente, si en lugar de un campo escalar tenemos un campo vectorial, es decir
g : <N −→ <q , donde cada componente gi es diferenciable como en el lema anterior,
obtenemos
√ D
n(g(Tn1, . . . , TnN ) − g(θ1, . . . , θN )) −→ Nq (0, GΣG0)
donde
∂gi
Gij = |t=θ
∂tj
75
Aplicando todos los resultados anteriores obtenemos que:
0
√ D ∂π ∂π
n(π(θ̄) − π(θ0)) −→ N (0, (A0A)−1 )
∂θ0 ∂θ0
Notemos que el estadı́stico χ2 puede escribirse como
χ2 = e0e
donde
0 √ p1 − π1(θ̄) √ pN − πN (θ̄)
e = n
r ,..., n r
π1(θ̄) πN (θ̄)
Para derivar la distribución asintótica de χ2 necesitaremos la conjunta de (p, π(θ̄)) y
deduciremos que
D
e −→ N (0, I − π(θ0)1/2π 0(θ0)1/2 − A(A0A)−1A0)
76