Cramer Rao
Cramer Rao
Fernando Tusell
1
19 de septiembre de 2007
1
Bastantes errores menos en esta versin son consecuencia de los comentarios recibidos
de Araceli Garn, Vicente Nez y de Mario S. de Juan y Pedro A. Gmez (curso 1.999-
2.000). Todava faltan muchos temas del programa por desarrollar, y otros estn a medio
escribir, tienen errores u obscuridades. Correcciones y comentarios son bienvenidos.
II
ndice general
1. Elementos de Teora de la Decisin. 1
1.1. Qu es un procedimiento estadstico. . . . . . . . . . . . . . . . . 1
1.2. Riesgo y riesgo de Bayes. . . . . . . . . . . . . . . . . . . . . . . 3
1.3. Cmputo de procedimientos de Bayes. . . . . . . . . . . . . . . . 7
1.4. Procedimientos de Bayes con funcin de prdida cuadrtica. . . . 11
1.5. Familias conjugadas . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.6. Procedimientos aleatorizados. . . . . . . . . . . . . . . . . . . . 14
1.7. Clases completas. . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.8. Representacin grca de procedimientos estadsticos. . . . . . . 16
1.9. Lmites de sucesiones de procedimientos de Bayes . . . . . . . . 18
1.10. Inters de los procedimientos de Bayes. . . . . . . . . . . . . . . 19
2. Procedimientos admisibles y minimax. 21
2.1. Minimax y criterios globales. . . . . . . . . . . . . . . . . . . . . 21
2.2. Caracterizacin de procedimientos minimax. . . . . . . . . . . . . 22
2.3. Caracterizacin de procedimientos admisibles. . . . . . . . . . . . 23
2.4. Bsqueda de procedimientos admisibles y minimax. . . . . . . . . 25
3. La familia exponencial. Suciencia 29
3.1. Familia exponencial. . . . . . . . . . . . . . . . . . . . . . . . . 29
3.2. Suciencia. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.3. Caracterizacin de estadsticos sucientes. . . . . . . . . . . . . . 37
3.4. Completitud, ancilaridad, y suciencia. . . . . . . . . . . . . . . 39
3.5. Suciencia y familia exponencial. . . . . . . . . . . . . . . . . . 40
3.6. Estadsticos sucientes y soluciones de Bayes. . . . . . . . . . . . 41
3.7. Caracterizacin de la suciencia minimal. . . . . . . . . . . . . . 42
4. Procedimientos insesgados. 47
4.1. La condicin de insesgadez. . . . . . . . . . . . . . . . . . . . . 47
4.2. Funciones convexas. . . . . . . . . . . . . . . . . . . . . . . . . 49
4.3. Estimacin insesgada puntual. . . . . . . . . . . . . . . . . . . . 50
III
IV NDICE GENERAL
4.4. El jackknife . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
5. Eciencia. La cota de Cramr-Rao. 59
5.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
5.2. Algunos resultados instrumentales . . . . . . . . . . . . . . . . . 60
5.3. Informacin de Fisher. Cota de Cramr-Rao . . . . . . . . . . . . 62
5.4. Eciencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
6. Mxima verosimilitud 73
6.1. La lgica mximo verosmil . . . . . . . . . . . . . . . . . . . . 73
6.2. Verosimilitud y estimacin mximo verosmil. . . . . . . . . . . . 74
6.3. Consistencia fuerte del estimador mximo verosmil. . . . . . . . 77
6.4. Informacin de Kullback-Leibler y estimacin mximo verosmil . 78
6.5. Eciencia y eciencia asinttica . . . . . . . . . . . . . . . . . . 79
6.6. Normalidad y eciencia asinttica del estimador mximo verosmil. 81
6.7. Estimacin mximo verosmil: inconvenientes . . . . . . . . . . . 84
7. Estimacin mximo verosmil en la prctica. 89
7.1. Introduccin. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
7.2. Estimacin mximo verosmil en la familia exponencial. . . . . . 90
7.3. Mtodo de Newton-Raphson. . . . . . . . . . . . . . . . . . . . . 91
7.3.1. Descripcin . . . . . . . . . . . . . . . . . . . . . . . . . 91
7.3.2. Propiedades . . . . . . . . . . . . . . . . . . . . . . . . . 92
7.4. Mtodo scoring de Fisher. . . . . . . . . . . . . . . . . . . . . . 94
7.5. El algoritmo EM. . . . . . . . . . . . . . . . . . . . . . . . . . . 94
7.5.1. Notacin . . . . . . . . . . . . . . . . . . . . . . . . . . 94
7.5.2. La iteracin EM . . . . . . . . . . . . . . . . . . . . . . 95
7.5.3. Distribuciones de la familia exponencial. . . . . . . . . . 98
8. Contraste de Hiptesis. 101
8.1. Introduccin. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
8.2. El Teorema de NeymanPearson. . . . . . . . . . . . . . . . . . . 103
8.3. Teorema de Neyman-Pearson y procedimientos de Bayes. . . . . . 106
8.4. Contrastes uniformemente ms potentes (UMP). . . . . . . . . . . 107
8.5. Contrastes razn de verosimilitudes generalizada. . . . . . . . . . 109
8.6. Contrastes de signicacin puros . . . . . . . . . . . . . . . . . . 112
8.6.1. Caso de hiptesis simples . . . . . . . . . . . . . . . . . 112
8.6.2. Caso de hiptesis compuestas . . . . . . . . . . . . . . . 113
8.6.3. Hay que tener en cuenta que. . . . . . . . . . . . . . . . . 116
8.7. Contrastes localmente ms potentes . . . . . . . . . . . . . . . . 119
NDICE GENERAL V
9. Mxima verosimilitud, complejidad y seleccin de modelos 121
9.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
9.2. La lgica mximo-verosmil y la eleccin de modelos . . . . . . . 123
9.2.1. Criterio mximo verosmil y modelos con diferente nme-
ro de parmetros . . . . . . . . . . . . . . . . . . . . . . 123
9.2.2. El criterio AIC . . . . . . . . . . . . . . . . . . . . . . . 124
9.3. Teora de la informacin . . . . . . . . . . . . . . . . . . . . . . 129
9.4. Complejidad en el sentido de Kolmogorov . . . . . . . . . . . . . 133
9.4.1. Informacin y complejidad . . . . . . . . . . . . . . . . . 133
9.4.2. Complejidad de Kolmogorov
. . . . . . . . . . . . . . . 134
9.4.3. C
u
(x) no es computable
. . . . . . . . . . . . . . . . . . 135
9.5. De la complejidad de Kolmogorov a la Longitud de Descripcin
Mnima (MDL) . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
9.5.1. Modelos como generadores de cdigos . . . . . . . . . . 136
9.5.2. Descripcin de longitud mnima (MDL) . . . . . . . . . . 136
9.5.3. De la MDL a la complejidad estocstica
. . . . . . . . . 138
9.5.4. Ideas relacionadas y conexas . . . . . . . . . . . . . . . . 139
9.6. Tiene sentido esto? . . . . . . . . . . . . . . . . . . . . . . . . . 140
A. Convergencias estocsticas 143
A.1. Sucesiones de variables aleatorias . . . . . . . . . . . . . . . . . 143
A.2. Convergencia en ley . . . . . . . . . . . . . . . . . . . . . . . . . 144
A.3. Convergencias en probabilidad, media cuadrtica y casi segura . . 145
A.4. Ordenes de convergencia en probabilidad . . . . . . . . . . . . . 146
A.5. Leyes de grandes nmeros . . . . . . . . . . . . . . . . . . . . . 148
A.5.1. Leyes dbiles de grandes nmeros. . . . . . . . . . . . . . 148
A.5.2. Leyes fuertes de grandes nmeros . . . . . . . . . . . . . 149
B. Soluciones a problemas seleccionados 153
VI NDICE GENERAL
ndice de guras
1.1. Procedimientos no comparables (
1
y
2
) e inadmisible (
3
) . . . . 4
1.2.
4
=
1
2
1
+
1
2
2
() es mejor que
3
() . . . . . . . . . . . . . . 15
1.3. El contorno rayado en grueso incluye los procedimientos en la
clase completa minimal.
4
es inadmisible (resulta mejorado, por
ejemplo, por el procedimiento aleatorizado
5
, cuyo riesgo es el
mismo cuando =
1
e inferior cuando =
2
) . . . . . . . . . 16
1.4. El procedimiento de Bayes relativo a () es
2
, y el riesgo de
Bayes c
0
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.5. El procedimiento de Bayes relativo a () es
1
, y el riesgo de
Bayes c
0
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.1.
es minimax.
2
no lo es; su riesgo cuando =
2
es mayor que
el de
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.2.
. . . . . . 24
2.3. Comparacin de las funciones de riesgo de
(X) y Y , en el caso
en que n = 10. R es la regin en que el estimador minimax
es
mejor que Y . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.1. Clases de equivalencia en la particin mnima suciente. Distribu-
cin U(0, 2) con n = 2. a
0,3
y a
0,6
denotan las clases corres-
pondientes a s = 0,3 y s = 0,6 del estadstico suciente S =
maxX
1
, X
2
. . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
6.1. Verosimilitud asociada a una muestra (x
1
, . . . , x
17
), cuando X es
binaria de parmetro y
17
i=1
x
i
= 12. . . . . . . . . . . . . . . 75
9.1. Arbol binario completo de profundidad tres . . . . . . . . . . . . 131
9.2. Arbol binario truncado . . . . . . . . . . . . . . . . . . . . . . . 132
VII
VIII NDICE DE FIGURAS
ndice de cuadros
1.1. Funcin de cuanta f
X|
(x[) . . . . . . . . . . . . . . . . . . . 8
1.2. Funcin de prdida L(
i
, d
j
) . . . . . . . . . . . . . . . . . . . . 8
1.3. Procedimientos
i
(X) considerados . . . . . . . . . . . . . . . . 9
1.4. Funciones de riesgo r
i
(
j
) . . . . . . . . . . . . . . . . . . . . . 10
1.5. Algunas distribuciones a priori conjugadas . . . . . . . . . . . . 14
9.1. Ejemplo de construccin de cdigo de Fano-Shannon. . . . . . . . 130
9.2. Longitud de descripcin para diferentes valores de . . . . . . . . 138
IX
X NDICE DE CUADROS
Captulo 1
Elementos de Teora de la
Decisin.
1.1. Qu es un procedimiento estadstico.
Nos enfrentamos a una coleccin =
i
, i I de posibles estados de la
naturaleza, o simplemente estados
1
. No podemos observar directamente cul es el
i
que prevalece.
Nos enfrentamos tambin a un conjunto de decisiones que podemos tomar, o
espacio de decisin D = d
j
, j J. Existe, por n, una funcin de prdida
L: D R completamente especicada, proporcionando las prdidas
asociadas a cada par (
i
, d
j
); L(
i
, d
j
) es la prdida derivada de tomar la decisin
d
j
cuando el estado de la naturaleza es
i
. Obviamente, si
i
fuera observable, no
tendramos ningn problema en seleccionar en cada caso la decisin d
j
ptima,
que minimiza L.
Asociada a cada estado
i
suponemos una distribucin F
X|
(x[) generando
una cierta variable aleatoria observable, X. Esta variable aleatoria toma valores en
un conjunto S. Podemos muestrear la poblacin F
X|
(x[) y obtener valores de X
mediante la realizacin de un experimento. Los valores que observemos son toda
la evidencia de que disponemos para conjeturar cul es el estado de la naturaleza
vigente, y en consecuencia la decisin ptima.
De un modo informal, un procedimiento estadstico es una regla para escoger
una decisin d
j
a la vista del valor x que toma X (o quiz del conjunto de valores
x que toman n observaciones de X, en el caso de que nos sea posible disponer
1
El conjunto de ndices I es nito o innito; ni siquiera ha de ser numerable, como pondrn de
maniesto los ejemplos a continuacin.
1
2 CAPTULO 1. ELEMENTOS DE TEORA DE LA DECISIN.
de ms de una). Ms precisamente, un procedimiento estadstico es una aplicacin
: S D, que al resultado de cada experimento hace corresponder una deci-
sin
2
.
Aunque aparentemente muy abstracto, el marco anterior engloba de forma ge-
neral lo que habitualmente estamos acostumbrados a llamar procedimientos esta-
dsticos, como ponen de maniesto los siguientes ejemplos.
Ejemplo 1.1 Consideremos el caso en que nos enfrentamos a una po-
blacin de sujetos caracterizados por sufrir o no una enfermedad. Deseamos
estimar por punto la proporcin de los afectados, , con ayuda de una mues-
tra de sujetos de tamao n. El conjunto de posibles estados de la natura-
leza sera = : R, 0 1, y el espacio de decisin sera
D = d: d R, 0 d 1. Diferentes criterios de estimacin podran
adems contemplarse como reejo de la utilizacin de diferentes funciones
de prdida. Por ejemplo, la estimacin mnimo cuadrtica se originara como
consecuencia de emplear una funcin de prdida cuadrtica, L(,
); otras
posibilidades seran una prdida valor absoluto, L(,
) = [
[, o cero-
uno,
L(,
) =
_
0 si [
[ < b,
c en otro caso.
Ejemplo 1.2 Si en el Ejemplo 1.1 deseramos realizar estimacin por
intervalo en lugar de por punto, podramos considerar como espacio de de-
cisin el formado por todos los intervalos (
1
,
2
). La decisin consistira en
escoger uno de tales intervalos.
En este caso, sin embargo, no es nada obvio cul haya de ser la prdi-
da a emplear. Podramos pensar, a imagen del ejemplo anterior, en emplear
una prdida que fuera nula si el intervalo realmente contiene al parmetro, y
mayor que cero, quiz constante, en caso contrario. Es decir,
L(, d = (
1
,
2
)) =
_
0 si (
1
,
2
),
c en otro caso.
Pero ello no tiene mucho sentido: hara ptimos intervalos como (, ).
La prdida parece que debiera tomar en cuenta la amplitud del intervalo cons-
truido. Vase Meeden y Varderman (1985).
Ejemplo 1.3 Supongamos que debemos aceptar o rechazar un lote de
piezas, dependiendo de la fraccin de defectuosas que contenga. En este caso,
sera el intervalo [0, 1] (cada estado correspondera a una fraccin defec-
tiva). El espacio de decisin ser: D = d
1
= Aceptar, d
2
= Rechazar.
El experimento consistira en tomar una o varias piezas, cada una de las cua-
les proporcionara un valor de X: X = 1 (pieza defectuosa) o X = 0 (pieza
correcta). El procedimiento estadstico sera entonces la regla que genera una
2
En el caso de que el experimento consista en tomar n observaciones de X, tendramos
: S
n
D, en que S
n
= S . . . S
| {z }
n veces
. Cada resultado muestral es un punto de S
n
. Llama-
mos a S
n
( S) espacio muestral.
1.2. RIESGO Y RIESGO DE BAYES. 3
decisin a partir del o los valores de X observados. La funcin de prdida po-
dra, al menos en principio, especicarse con facilidad. L(, d
1
) sera el coste
de aceptar una remesa con proporcin defectiva (coincidira quiz con el
precio de las piezas en malas condiciones que hay que desechar). L(, d
2
)
sera el coste de rechazar una remesa con proporcin defectiva (quiz el
coste de los portes, o una indemnizacin al proveedor, si el verdadero esta-
ba dentro de lo estipulado en las condiciones del pedido).
Ejemplo 1.4 El diagnstico mdico proporciona otro ejemplo de pro-
blema de decisin con funcin de prdida, en general, fuertemente asimtri-
ca. En un problema de esta naturaleza, el espacio de estados de la naturaleza
es:
=
1
= Paciente enfermo,
2
= Paciente sano .
El espacio de decisiones incluye tambin dos: declarar al paciente sano (d
1
),
o enfermo (d
2
). El experimento, tpicamente, consiste en hacer algn tipo de
anlisis clnico. La funcin de prdida difcil o imposible de especicar
en unidades monetarias probablemente dara mucha mayor importancia a
diagnosticar como sano a un paciente enfermo (con riesgo de agravamiento)
que a diagnosticar como enfermo a uno sano (sin ms trascendencia quiz
que el susto o la inconveniencia de un tratamiento inadecuado).
En general, como se desprende de los ejemplos anteriores, los problemas de
contraste de hiptesis o estimacin de parmetros pueden ser descritos como pro-
blemas de decisin. La Teora de la Decisin suministra un marco adecuado para
plantearlos y resolverlos.
1.2. Riesgo y riesgo de Bayes.
Queremos escoger nuestros procedimientos estadsticos de modo que propor-
cionen prdidas reducidas. Observemos que si empleamos el procedimiento to-
maremos la decisin (X), que es aleatoria: la aleatoriedad de la informacin
muestral que utilizamos se transmite a la decisin que adoptamos y en consecuen-
cia a la prdida L(
i
, (X)) en que incurrimos. Tiene por ello sentido hablar del
valor medio de dicha prdida.
Denicin 1.1 Denominamos riesgo r
() = E
() para juzgar un
procedimiento estadstico, pues proporciona, para cada , una medida promedio de
la prdida derivada de su empleo.
4 CAPTULO 1. ELEMENTOS DE TEORA DE LA DECISIN.
Figura 1.1: Procedimientos no comparables (
1
y
2
) e inadmisible (
3
)
()
Denicin 1.2 Sean dos procedimientos estadsticos
1
y
2
. Se dice que
1
es
mejor que
2
si r
(
1
) r
(
2
) , con r
(
1
) < r
(
2
) para algn .
Anlogamente, se dice que
1
es equivalente a
2
si r
(
1
) = r
(
2
), . Se dice
que ambos procedimientos no son comparables si no son equivalentes, y ninguno
de ellos mejora al otro.
Denicin 1.3 Si un procedimiento
1
es mejor que otro
2
decimos de ste ltimo
que es inadmisible. Si, por el contrario, no puede ser mejorado por ningn otro,
decimos que es admisible.
La Figura 1.1 muestra las funciones de riesgo de tres procedimientos estadsti-
cos. En ella,
1
y
2
no son comparables.
3
es inadmisible: resulta mejorado por
1
y por
2
. El Ejemplo 1.5 presenta dos procedimientos, uno de ellos inadmisible
al ser mejorado por el otro. Ntese que la admisibilidad o inadmisibilidad de un
procedimiento depende de la funcin de prdida considerada. Un procedimiento
inadmisible con respecto a una funcin de prdida, puede no serlo respecto de otra.
Ejemplo 1.5 Supongamos una situacin como la descrita en el Ejem-
plo 1.3, y admitamos que la funcin de prdida es cuadrtica:
L(, ) = ( )
2
Podemos tomar una muestra aleatoria simple formada por tres observaciones
X
i
, i = 1, 2, 3, en que X
i
= 1 si la i-sima pieza es defectuosa y X
i
= 0
1.2. RIESGO Y RIESGO DE BAYES. 5
en caso contrario. Entonces, X
i
Binaria(). Consideremos los siguientes
dos procedimientos estadsticos:
1
(X) =
X
1
+X
2
+X
3
3
(1.2)
2
(X) =
X
1
+X
3
2
(1.3)
Entonces:
r
(
1
) = E
[L(,
1
(X))] =
(1 )
3
(1.4)
r
(
2
) = E
[L(,
2
(X))] =
(1 )
2
(1.5)
y es claro que, para cualquier valor de , r
(
1
) < r
(
2
). Por tanto, el primer
procedimiento siempre sera preferible al segundo.
Podra pensarse que el objetivo debe ser la bsqueda de un procedimiento me-
jor que cualquier otro. Tal bsqueda sera infructuosa, como el siguiente ejemplo
pone de maniesto.
Ejemplo 1.6 En la situacin descrita en el Ejemplo 1.3 (continuado en
el Ejemplo 1.5) consideremos los dos siguientes procedimientos para estimar
:
1
(X) =
X
1
+X
2
+X
3
3
(1.6)
2
(X) = 0,60 (1.7)
cuyos riesgos respectivos son:
r
(
1
) =
(1 )
3
(1.8)
r
(
2
) = E
(0,60 )
2
= (0,60 )
2
(1.9)
Es claro que
2
es un procedimiento poco sensato: para nada hace uso de
la informacin muestral. Sin embargo, cuando 0,6 da excelente resulta-
do. Siendo
2
un procedimiento con el que difcilmente podemos sentirnos
satisfechos, es el ptimo para un cierto estado .
El Ejemplo 1.6 pone de maniesto que en general no existe un procedimiento
siempre mejor que cualquier otro
3
.
3
Naturalmente, frente al Ejemplo 1.6 nuestra reaccin sera: Si prescindimos de considerar pro-
cedimientos que slo excepcionalmente son muy buenos, y nos limitamos a procedimientos de buen
funcionamiento para cualquier , quiz s haya uno mejor que todos los dems. En alguna medida,
esta conjetura es cierta: si limitamos nuestra atencin a clases de procedimientos y de funciones de
prdida restringidas (por ejemplo, a los procedimientos insesgados y a las funciones de prdida con-
vexas), puede en ocasiones encontrarse un procedimiento superior a los restantes. Estudiaremos por
el momento el criterio de Bayes, para retomar esta cuestin ms adelante.
6 CAPTULO 1. ELEMENTOS DE TEORA DE LA DECISIN.
Siendo cierto en general que para dos procedimientos
1
y
2
se verica r
(
1
) <
r
(
2
) para algunos valores de y r
(
1
) > r
(
2
) para otros, podramos inten-
tar compararlos mediante un promedio ponderado de los riesgos para diferentes
valores de .
Supongamos que los estados de la naturaleza se generan de acuerdo con una
cierta distribucin
4
, cuya funcin de cuanta
5
es (). Sera razonable comparar los
dos procedimientos mediante sus riesgos promedio respectivos:
R
(
1
) = E
[r
(
1
)] =
()r
(
1
) (1.10)
R
(
2
) = E
[r
(
2
)] =
()r
(
2
) (1.11)
Denicin 1.4 Llamamos riesgo de Bayes del procedimiento relativo a la dis-
tribucin denida por () a
R
() = E
[r
()] =
()r
() (1.12)
El criterio de Bayes para la seleccin de procedimientos consiste en, dada una
cierta (), tomar aqul (o aqullos) con mnimo riesgo de Bayes. Tal (o tales)
procedimientos se denominan Bayes relativos a (). El criterio de Bayes resulta
intuitivamente atractivo y no es objeto de controversia si hay un modo objetivo e
inambiguo de especicar (). Es objeto de controversia, en cambio, si () solo
reeja creencias a priori.
Una posibilidad atractiva cuando no se tiene informacin a priori consistira
en adoptar como () una funcin de densidad que reejara ignorancia absolu-
ta. Pero no est claro qu forma debera tener, como muestra el Ejemplo 1.7 a
continuacin.
Ejemplo 1.7 Supongamos que deseamos estimar, como en el Ejem-
plo 1.3, la proporcin de piezas defectuosas en un lote. Una propuesta
frecuente para describir completa ignorancia a priori acerca del valor de
consiste en tomar una densidad () uniforme en el intervalo = [0, 1]. Pero
esta propuesta no puede ser tomada muy en serio. Pinsese que la parametri-
zacin del problema es algo completamente arbitrario: igual que estimamos
4
Hay diferentes formas de entender esto. Puede imaginarse que, efectivamente, hay un mecanis-
mo que aleatoriza los estados de la naturaleza: Dios jugando a los dados, parafraseando la clebre
armacin de Einstein. Puede pensarse tambien en esta distribucin como recogiendo las creencias
a priori del analista, que pueden reejar experiencia acumulada o ser puramente subjetivas (tal como
sucede en ocasiones en Estadstica Bayesiana).
5
En lo que resta de esta Seccin y en las dos que la siguen daremos por supuesto, por comodidad
notacional, que la distribucin de es discreta con funcin de cuanta (o probabilidad) (). El caso
en que la distribucin de es continua, requiere solo cambiar los sumatorios de las expresiones como
(1.10)-(1.11) por integrales, y la funcin de cuanta por una funcin de densidad. (El formalismo de
la integral de Stieltjes permitira recoger en una sola expresin todos los casos.)
1.3. CMPUTO DE PROCEDIMIENTOS DE BAYES. 7
, proporcin de piezas defectuosas sobre el total, podramos desear estimar
=
1
(razn de piezas defectuosas a piezas correctas). Si la completa
ignorancia sobre un parmetro se describe mediante una densidad a priori
uniforme, debiramos ahora utilizar una densidad () uniforme. Pero los
resultados a que llegamos son diferentes: puede comprobarse con facilidad
(vase el problema 1.1, p. 20) que () uniforme en = [0, 1] implica una
densidad
() =
1
(1 +)
2
(1.13)
para (0 < ). Anlogamente, una densidad uniforme
6
para implica
una densidad no uniforme para . Si la propuesta fuera adecuada, el no saber
nada acerca de supondra saber algo acerca de , y viceversa!
Hay otras opciones de distribucin a priori no informativa. Examinare-
mos una en la Observacin 5.3, pg, 63.
1.3. Cmputo de procedimientos de Bayes.
De la denicin de R
() =
()r
()
=
()
x
L(, (x))f
X|
(x[)
=
x
_
L(, (x))()f
X|
(x[)
_
. .
def
= h
(x, (x))
(1.14)
Para minimizar el riesgo, tenemos que minimizar h
(x) = mn
dD
h
() =
x
H
= 100 0 + (10) 1 = 10
r
2
(
1
) = L(
2
, d
1
)Prob
1
(X) = d
1
[
2
+L(
2
, d
2
)Prob
1
(X) = d
2
[
2
= 0 0 + 1000 1 = 1000
r
1
(
2
) = L(
1
, d
1
)Prob
2
(X) = d
1
[
1
+L(
1
, d
2
)Prob
2
(X) = d
2
[
1
= 0 1 + 1000 0 = 0
Cuadro 1.3: Procedimientos
i
(X) considerados
Procedimiento Descripcin
1
(X) Sea cual fuere X, comer la seta (d
2
).
2
(X) Si X = C, comer la seta (d
2
). En caso contrario, tirar la seta.
3
(X) Sea cual fuere X, tirar la seta (d
1
).
La Tabla 1.4 recoge los riesgos calculados. Puede observarse que ningn
procedimiento es mejor a ninguno de los restantes.
Los respectivos riesgos de Bayes relativos a la distribucin a priori es-
pecicada por () se calculan tambin fcilmente:
R
(
1
) = r
1
(
1
)(
1
) +r
2
(
1
)(
2
) = 0,90 (10) + 0,10 1000 = 91
R
(
2
) = r
1
(
2
)(
1
) +r
2
(
2
)(
2
) = 0,90 (4,5) + 0,10 5 = 3,55
R
(
3
) = r
1
(
3
)(
1
) +r
2
(
3
)(
2
) = 0,90 100 + 0,10 0 = 90
El criterio de Bayes llevara en este caso a seleccionar
2
(X). El proce-
dimiento seleccionado depende de la distribucin a priori considerada. Si en
lugar de la indicada hubiramos tenido: (
1
) = 0,001, (
2
) = 0,999 (es
decir, casi seguridad de que la seta procede de un paraje que slo produce
txicas), es fcil comprobar que el procedimiento escogido por el criterio de
10 CAPTULO 1. ELEMENTOS DE TEORA DE LA DECISIN.
Cuadro 1.4: Funciones de riesgo r
i
(
j
)
Procedimiento
1
2
j
(X) (seta comestible) (seta txica)
1
(X) -10 1000
2
(X) -4.5 5
3
(X) 100 0
Bayes sera
3
(X) (tirar la seta, incluso aunque el dictamen del experto sea
que es comestible). Sucede que nuestras creeencias a priori son tan fuertes,
que no basta la evidencia aportada por el experimento para hacernos cambiar
de opinin.
De la expresin (1.14) dedujimos que el procedimiento ptimo de acuerdo con
el criterio de Bayes minimiza
h
(x, (x)) =
L(, (x))()f
X|
(x[) (1.16)
para cada valor de x. Como
()f
X|
(x[) = f
X
(x, ) = f
|X
( [x)f
X
(x), (1.17)
tenemos que el procedimiento (o los procedimientos) Bayes relativos a la distribu-
cin a priori () minimizan
h
(x, (x)) = f
X
(x)
L(, (x))f
|X
( [x)
para cada x y, por tanto, tambin para cada x, minimizan
L(, (x))f
|X
( [x). (1.18)
En ausencia de experimento, escogeramos un procedimiento que minimizara el
riesgo de Bayes a priori , es decir:
(x) =
w()f
|X
( [x)
w()f
|X
( [x)
=
E
|x
[w()]
E
|x
[w()]
. (1.20)
DEMOSTRACION:
Para cada x, (x) ha de ser, de acuerdo con (1.18), tal que minimice:
w() [(x) ]
2
f
|X
( [x). (1.21)
Minimizando la expresin anterior respecto a (x) se llega inmediatamente a (1.20).
1.5. Familias conjugadas
El cmputo de procedimientos de Bayes se simplica si f
|X
( [x) puede ob-
tenerse con facilidad. De (1.17) se deduce que:
f
|X
( [x) ()f
X|
(x[) (1.22)
En ocasiones, () y f
X|
(x[) son tales que f
|X
( [x) pertenece a la misma
familia que (); se dice entonces que () y f
X|
(x[) pertenecen a familias
conjugadas. El siguiente ejemplo muestra las ventajas que se derivan de ello.
12 CAPTULO 1. ELEMENTOS DE TEORA DE LA DECISIN.
Ejemplo 1.9 Tenemos una nica observacin X procedente de una bi-
nomial b(, n), cuyo parmetro se trata de estimar con prdida cuadrtica
L(, (X)) = ((X) )
2
.
Si la distribucin a priori de fuera una beta de parmetros r y s, es
decir, si:
() =
(r +s)
(r)(s)
r1
(1 )
s1
con 0 < < 1, tendramos, de acuerdo con (1.22), que:
f
|X
( [x)
(r +s)
(r)(s)
r1
(1 )
s1
_
n
x
_
x
(1 )
nx
(1.23)
r+x1
(1 )
n+sx1
(1.24)
Se reconoce con facilidad en (1.24) una densidad beta de parmetros (r +x)
y (n + s x), falta slo de la correspondiente constante de normalizacin:
f
|X
( [x) por tanto pertenece a la misma familia que la () escogida.
De acuerdo con (1.20), (X) ser el valor medio condicionado de la
distribucin a posteriori de . Tratndose de una beta, se tiene (ver por ej.
Trocniz (1987), p. 299):
(X) = m =
r +X
n +s X +r +X
=
r +X
n +r +s
que puede reescribirse as:
(X) =
_
n
n +r +s
_
X
n
+
r
n +r +s
(1.25)
Cuando n , (X) X/n (nmero de aciertos entre n), como cabra
esperar. Sin embargo, para n moderado la distribucin a priori () es de
gran importancia.
El emplear una distribucin beta como () tiene la ventaja de producir
una distribucin a posteriori inmediatamente reconocible, y de la que pode-
mos obtener el valor medio con facilidad. Si () hubiera sido otra, hubiera
sido en general precisa una operacin de integracin, y el resultado no hu-
biera podido obtenerse de forma tan simple.
Ejemplo 1.10 (continuacin) Para uso posterior nos interesar dispo-
ner de la funcin de riesgo del estimador obtenido en el ejemplo anterior.
r
() = E
_
((X) )
2
[
= Var
((X)) + [Sesgo
((X))]
2
=
_
n
n +r +s
_
2
(1 )
n
+
_
r +n
n +r +s
_
2
Ejemplo 1.11 Supongamos que la distribucin de X es N(,
2
), y la
distribucin a priori sobre es N(, b
2
). Tenemos entonces que:
f
X|
(x[) =
_
1
2
_
n
exp
_
1
2
n
i=1
_
x
i
_
2
_
(1.26)
1.5. FAMILIAS CONJUGADAS 13
mientras que por otra parte, la densidad () es:
() =
1
b
2
exp
_
1
2
_
b
_
2
_
(1.27)
Por consiguiente:
f
|X
([x)f
X
(x) =
1
b
2
_
1
2
_
n
exp
_
1
2
_
n
i=1
_
x
i
_
2
+
_
b
_
2
__
exp
_
1
2
_
2
(
2
+nb
2
) 2(
2
+nb
2
x) + (
2
2
+b
2
x
2
i
)
2
b
2
__
exp
_
1
2
_
_
2
+nb
2
x
2
+nb
2
_
b
2
2
+nb
2
_
_
2
_
_
, (1.28)
esta ltima expresin obtenida al completar el cuadrado de la precedente. Es
fcil reconocer en ella una densidad normal para :
([X = x) N
_
2
+ nb
2
x
2
+nb
2
,
b
2
2
+nb
2
_
Observacin 1.1 Con una muestra de n observaciones X
i
N(,
2
),
el estimador ridge de parmetro k de vendra dado por:
=
nx
n +k
;
podemos ver que dicha expresin es idntica a
2
+nb
2
x
2
+nb
2
(1.29)
cuando hacemos = 0 y b
2
=
2
/k. Por tanto, el uso del estimador ridge
de parmetro k en este caso equivale a la utilizacin implcita de una distri-
bucin a priori N(0,
2
/k). Valores de k muy pequeos en relacin a
2
implican gran incertidumbre acerca de (y una estimacin muy prxima a
la obtenida por mxima verosimilitud o mnimos cuadrados ordinarios). Va-
lores relativamente grandes de k (siempre en relacin a
2
) suponen gran
conviccin de que est en las cercanas de = 0.
Hay otros muchos casos en que el empleo de una distribucin a priori con-
veniente simplica la obtencin de la distribucin a posteriori. La siguiente tabla
muestra algunos de los ms frecuentes.
La comodidad de manejo de las familias conjugadas no debe hacernos perder
de vista, sin embargo, algo fundamental: que el fundamento de la utilizacin de una
distribucin a priori se pierde si sta no describe bien el mecanismo que genera los
estados de la naturaleza o nuestras creencias acerca del particular, si adoptamos
una visin bayesiana.
14 CAPTULO 1. ELEMENTOS DE TEORA DE LA DECISIN.
Cuadro 1.5: Algunas distribuciones a priori conjugadas
Distribucin Parmetro A priori
de X de inters conjugada
Binomial, b(, n) Beta(r, s)
Poisson, P() (a, b)
Exponencial, f
X
(x) = e
x
(a, b)
Normal, N(,
2
0
) Normal, N(,
2
)
1.6. Procedimientos aleatorizados.
Se ha denido (Seccin 1.1) procedimiento estadstico como una aplicacin
: S D. Ampliaremos ahora esta denicin denominando procedimiento es-
tadstico aleatorizado a una aplicacin : S (D), en que (D) es el con-
junto de distribuciones sobre D. En otras palabras, un procedimiento estadstico
aleatorizado hace corresponder a cada resultado muestral una lotera en la que
se puede obtener una de varias decisiones. De este modo, el mismo resultado X
llevara en ocasiones diferentes a tomar decisiones posiblemente diferentes.
Esto es algo difcilmente asumible: por qu habramos de hacer depender
nuestra decisin de una lotera? Dada la distribucin a priori , y realizado el ex-
perimento, parece que no debiramos recurrir a aleatorizar nuestra decisin. Hay
dos formas de responder a esto. Una, que, como hace notar Kiefer (1983), tal for-
ma de actuar no debiera ser motivo de escndalo. Al n y al cabo, cuando se hace
casi cualquier tipo de experimento se aleatoriza el diseo: la evidencia muestral
depende as de una especie de lotera previa la que nos ha llevado a escoger
un diseo experimental en particular y no otro. La segunda, y ms importante
para lo que sigue, es que la consideracin de procedimientos aleatorizados permite
obtener resultados interesantes, en particular completando la clase de los procedi-
mientos de Bayes de modo que incluya algunos de inters. La Seccin 1.8 aclarar
esta cuestin.
Ejemplo 1.12 Tomemos el caso simple en que hay dos posibles esta-
dos de la naturaleza,
1
y
2
. Consideraremos tambin tres procedimientos
1
,
2
y
3
, cuyas funciones de riesgo se representan grcamente en la Fi-
gura 1.2
Puede comprobarse que ni
1
ni
2
(cuyos riesgos estn representados en
la gura por y respectivamente) son mejores que
3
; cada uno de ellos
tiene menor riesgo en uno de los estados y mayor en el otro. Sin embargo, si
1.7. CLASES COMPLETAS. 15
Figura 1.2:
4
=
1
2
1
+
1
2
2
() es mejor que
3
()
1
2
r
()
adoptamos la regla de aleatorizar entre
1
y
2
arrojando una moneda regular
al aire, obtenemos un nuevo procedimiento (aleatorizado)
4
, representado
en la gura mediante , que s es mejor que
3
. Su funcin de riesgo es
r
(
4
) =
1
2
r
(
1
) +
1
2
r
(
2
).
1.7. Clases completas.
La siguiente denicin introduce un concepto que necesitamos en lo que sigue.
Denicin 1.5 La clase C de procedimientos es completa si para cada procedi-
miento que no est en C hay uno en C que es mejor. Si C es la clase ms restringida
de procedimientos que es completa, se dice que es mnima completa.
Esta denicin podra parafrasearse diciendo que una clase completa contiene
la totalidad de procedimientos admisibles. Tenemos por otra parte la nocin de
clase esencialmente completa:
Denicin 1.6 La clase C de procedimientos es esencialmente completa si para
cada procedimiento que no est en C hay uno en C que es mejor o igual. Si C es
la clase ms restringida de procedimientos que es esencialmente completa, se dice
que es esencialmente mnima completa.
Bajo condiciones muy generales, de habitual cumplimiento en la prctica, la
nica clase mnima completa coincide con la clase de todos los procedimientos
16 CAPTULO 1. ELEMENTOS DE TEORA DE LA DECISIN.
admisibles. Una clase esencialmente mnima completa contiene un representante
de cada grupo de procedimientos admisibles equivalentes (ver Kiefer (1983), p.
54).
1.8. Representacin grca de procedimientos estadsti-
cos.
Hemos representado grcamente funciones de riesgo. Construiremos ahora
grcos en que cada punto representa un procedimiento, y cada eje un estado de
la naturaleza. Por simplicidad, consideraremos slo el caso en que =
1
,
2
.
En la Figura 1.3, el procedimiento
1
tiene riesgos r
1
(
1
) = 1, y r
2
(
1
) = 6.
Anlogamente,
2
tiene riesgos r
1
(
2
) = 2, y r
2
(
2
) = 3. Obsrvese que un
procedimiento
4
que consistiera en aleatorizar entre
1
y
3
con probabilidades
respectivas
1
y
2
tendra funcin de riesgo r
(
4
) =
1
r
(
1
) +
2
r
(
3
), com-
binacin lineal convexa de las de
1
y
3
, y podramos representarlo como un punto
del segmento que une los puntos correspondientes a
1
y
3
.
Figura 1.3: El contorno rayado en grueso incluye los procedimientos en la clase
completa minimal.
4
es inadmisible (resulta mejorado, por ejemplo, por el proce-
dimiento aleatorizado
5
, cuyo riesgo es el mismo cuando =
1
e inferior cuando
=
2
)
1
()
r
2
()
Si consideramos procedimientos aleatorizados, toda combinacin lineal con-
vexa de procedimientos puede verse como otro posible procedimiento. Ello hace
ver que el conjunto de posibles procedimientos es, cuando lo representamos como
en la Figura 1.3, un conjunto convexo.
1.8. REPRESENTACINGRFICADEPROCEDIMIENTOSESTADSTICOS.17
Por otra parte, el riesgo de Bayes de un procedimiento
i
cuando hay dos nicos
estados viene dado por:
R
(
i
) = (
1
)r
1
(
i
) +(
2
)r
2
(
i
)
y por lo tanto el lugar geomtrico de los procedimientos con igual riesgo de Bayes
c es la recta
(
1
)r
1
(
i
) +(
2
)r
2
(
i
) = c (1.30)
La Figura 1.4 muestra un conjunto de procedimientos cuyo borde inferior es la
clase minimal completa. Para diferentes valores de c, la ecuacin (1.30) proporcio-
na diferentes rectas paralelas, cuya pendiente depende de , y tanto ms cercanas
al origen cuanto menor sea c. El procedimiento de Bayes relativo a () en el ca-
so representado en dicha gura sera
2
. Para cualquier c menor que c
0
, la recta
correspondiente no intersectara .
Figura 1.4: El procedimiento de Bayes relativo a () es
2
, y el riesgo de Bayes
c
0
1
()
r
2
()
c
0
/(
1
)
Es fcil ver de modo intuitivo que para una diferente distribucin a priori el
procedimiento de Bayes sera diferente (como ilustra la Figura 1.5, en que el pro-
cedimiento de Bayes es
1
).Tambin es fcil ver que puede no haber un nico
procedimiento de Bayes; si la distribucin a priori fuera tal que las rectas de riesgo
Bayes constante tuvieran exactamente la misma pendiente que uno de los segmen-
tos (
1
,
2
) (
2
,
3
), el contacto entre la recta de mnimo riesgo y el conjunto de
procedimientos se producira en ms de un punto.
18 CAPTULO 1. ELEMENTOS DE TEORA DE LA DECISIN.
Figura 1.5: El procedimiento de Bayes relativo a () es
1
, y el riesgo de Bayes
c
0
1
()
r
2
()
c
0
/(
1
)
Finalmente, es de inters sealar que, mientras que el contorno dibujado en
grueso representa la clase mnima completa, la formada por los procedimientos
1
,
2
,
3
es esencialmente mnima completa.
1.9. Lmites de sucesiones de procedimientos de Bayes
En ocasiones, un procedimiento no es de Bayes, pero es lmite de una sucesin
de procedimientos de Bayes. El siguiente ejemplo muestra esto con claridad.
Ejemplo 1.13 Consideremos el caso en que hemos de estimar con fun-
cin de prdida cuadrtica el parmetro media de una poblacin N(,
2
), y
la distribucin a priori sobre es N(, b
2
). En tal caso, hemos visto
(Ejemplo 1.11) que la distribucin a posteriori de es:
([X) N
_
2
+nb
2
X
2
+nb
2
,
b
2
2
+nb
2
_
y por consiguiente, de acuerdo con el Teorema 1.1:
(X) = E[[X = x] =
_
f
|X
([x)d
=
Xb
2
+
2
/n
b
2
+
2
/n
=
2
/n
b
2
+
2
/n
+
b
2
b
2
+
2
/n
X
1.10. INTERS DE LOS PROCEDIMIENTOS DE BAYES. 19
Cuando n , (X) X; la distribucin a priori es reducida a la irre-
levancia por el peso abrumador de la evidencia muestral. Se dice que X es
lmite de procedimientos de Bayes.
1.10. Inters de los procedimientos de Bayes.
Hay buen nmero de razones para interesarse por los procedimientos de Bayes.
Idealmente, desearamos restringir nuestra atencin a los procedimientos admisi-
bles aquellos que no pueden ser mejorados por ningn otro, o, an mejor, a
una subclase esencialmente completa y mnima de procedimientos admisibles. La
clase de los procedimientos de Bayes y de sus lmites es, en general, algo ms am-
plia. Si D y son nitos, la clase de procedimientos de Bayes es completa. Si
no es nito, se puede en general obtener una clase completa incluyendo tam-
bin los procedimientos que son lmite de procedimientos de Bayes. La clase de
procedimientos de Bayes, quizs completada, es por ello un buen punto de partida.
Por otra parte, los procedimientos de Bayes pueden justicarse desde varios
puntos de vista, desde el totalmente bayesiano hasta aqul que utiliza como distri-
bucin a priori una distribucin derivada de la experiencia anterior.
Por ltimo, podemos relajar de diversas maneras el requerimiento de que ()
(y L(, d)) sean conocidas, y tratar de encontrar procedimientos que sean venta-
josos en condiciones muy generales, o que sean de mnimo riesgo en las circuns-
tancias ms desfavorables. Esta ltima alternativa da lugar a los procedimientos
minimax y se explora junto con la caracterizacin de procedimientos admisibles
en el Captulo 2.
20 CAPTULO 1. ELEMENTOS DE TEORA DE LA DECISIN.
CUESTIONES, COMPLEMENTOS Y COSAS PARA HACER
1.1 Comprubese que, como se dice en el Ejemplo 1.7, si () es uni-
forme en = [0, 1] la densidad de = /(1 ) es () = (1 +)
2
.
1.2 Haciendo uso del hecho de que,
y
_
b(y)
a(y)
g(x, y)dx =
b
y
g(b, y)
a
y
g(a, y) +
_
b(y)
a(y)
g(x, y)
y
dx
demustrese que el estimador
que minimiza la funcin de prdida L(
, ) =
[
[ es la mediana de la distribucin f
|X
([x) (supuesta sta ltima con-
tinua, y por tanto la mediana nicamente denida).
(Garthwaite et al. (1995), pg. 118)
Captulo 2
Procedimientos admisibles y
minimax.
2.1. Minimax y criterios globales.
El criterio de Bayes se justicaba en el Captulo anterior como un promedio
ponderado del riesgo, con ponderacin dada por (). Ello presta cierto atractivo a
dicho criterio: si un agente se enfrenta al mismo proceso de decisin muchas veces,
el minimizar el riesgo medio es una estrategia sensata.
Puede suceder que, o bien desconozcamos (), o bien enfrentemos un proceso
de decisin una nica vez. En estas circunstancias y algunas otras, puede interesar-
nos minimizar el mayor de los riesgos que hayamos de afrontar. En otras palabras,
podemos disear una estrategia consistente en hacer mnimo el riesgo en la situa-
cin (es decir, para el ) ms desfavorable. Se trata de una estrategia conservadora,
que procura la mxima cobertura frente a la peor catstrofe. La comparacin entre
procedimientos se hace as sobre la base de un slo valor (el mximo) de las corres-
pondientes funciones de riesgo, en lugar de considerar (promedindolos mediante
()) la totalidad de los riesgos.
El empleo de grcos como los introducidos en la Seccin 1.8 es ilustrativo.
La Figura 2.1 muestra un procedimiento
2
que no es minimax y uno que s lo es,
minimax. No hay
21
22 CAPTULO 2. PROCEDIMIENTOS ADMISIBLES Y MINIMAX.
Figura 2.1:
es minimax.
2
no lo es; su riesgo cuando =
2
es mayor que el de
.
r
1
()
r
2
()
) sup
() (2.1)
2.2. Caracterizacin de procedimientos minimax.
Los procedimientos minimax no tienen porqu ser nicos. Tampoco tienen ne-
cesariamente que ser admisibles (como la Figura 2.2 pone de maniesto). El si-
guiente teorema proporciona una caracterizacin til de procedimientos minimax
y una condicin suciente para que sean admisibles.
Teorema 2.1 Si
)() = sup
) (2.2)
entonces: (i)
es minimax. (ii) Si
()
()()
)() = sup
) (2.3)
El apartado (ii) se deduce inmediatamente, si tenemos en cuenta que la unicidad de
) =
)()
)() sup
) = R
) (2.4)
Dos consecuencias son inmediatas:
Corolario 2.1 Un procedimiento de Bayes de riesgo constante es minimax.
En efecto, basta comprobar que en este caso (2.2) se verica.
Corolario 2.2 Sea
: r
) = sup
), es decir, el conjunto de
estados para los que el riesgo de
es minimax
si
) = sup
1
()
r
2
()
inadmisible. Existira
otro,
0
, tal que r
(
0
) r
). Pero entonces:
R
(
0
) =
(
0
)()
)() = R
)
contra la hiptesis de que
es nico de Bayes.
Por tanto, es admisible todo procedimiento Bayes? Si es nico, es claro que s:
acabamos de ver que no puede estar dominado por ningn otro. Pero puede ocurrir
que para una cierta distribucin a priori haya ms de un procedimiento de Bayes,
y slo uno de ellos sea admisible. El ejemplo que sigue lo aclara.
Ejemplo 2.1 Consideremos el caso ilustrado en la Figura 2.2 Ambos
procedimientos
domina a
(X) y Y , en el caso en
que n = 10. R es la regin en que el estimador minimax
es mejor que Y .
R
()
La demostracin es inmediata. Ambas condiciones alternativas eliminan la po-
sibilidad de mltiples procedimientos de Bayes que dieren slo con probabilidad
cero.
2.4. Bsqueda de procedimientos admisibles y minimax.
Las Secciones anteriores proporcionan algunos instrumentos, pero como se ha
indicado la obtencin de procedimientos tanto admisibles como minimax es una
labor relativamente ad-hoc. Las siguientes consideraciones pueden ayudar.
Para probar que un procedimiento es admisible, basta probar que es Bayes
y nico para alguna distribucin a priori (Teorema 2.2). Pero puede no ser fcil
encontrar una tal distribucin.
Una condicin suciente para ser minimax es ser Bayes respecto a la distribu-
cin a priori ms desfavorable (Teorema 2.1), si tal distribucin existe
1
. De nuevo
puede no ser obvio cul es esta distribucin ms desfavorable; pero una ayuda in-
tuitiva es considerar aquellas distribuciones que ms incertidumbre crean acerca
del estado de la naturaleza prevalente (o que ms esparcen el parmetro , si es-
tamos ante un problema de estimacin). Los siguientes dos ejemplos (que pueden
encontrarse ms desarrollados en Lehmann (1983)) ilustran las dicultades que se
encuentran de ordinario.
1
Ntese que tal existencia es un supuesto del Teorema 2.1.
26 CAPTULO 2. PROCEDIMIENTOS ADMISIBLES Y MINIMAX.
Ejemplo 2.2 (un procedimiento de Bayes con riesgo constante, y por
tanto minimax) Consideremos el caso en que tenemos una moneda no regu-
lar, cuya probabilidad de proporcionar cara ( Y = 1) queremos estimar.
Contamos con una muestra formada por n observaciones independientes,
Y
1
, . . . , Y
n
, y nos preguntamos si el estimador (Y ) = Y = n
1
n
i=1
Y
i
es minimax. Nuestra funcin de prdida es cuadrtica: L(, d) = (d )
2
.
Dado que E[Y ] = , el riesgo (para un jo) es:
r
() =
(1 )
n
cuyo mximo es
1
4n
, dado que 0 1. Si r
() fuera
1
4n
para cualquier
, estaramos ante un estimador minimax, pero ste no es el caso.
La siguiente cosa que se nos ocurrira es buscar una distribucin a priori
que hiciera el riesgo de Bayes igual a su valor mximo,
1
4n
. Es claro que tal
distribucin habra de ser la que diera al valor =
1
2
probabilidad igual a 1,
pero con tal distribucin a priori el estimador de Bayes ya no sera Y , sino
1
2
!
Ante el fracaso de estos dos intentos, podramos ir a la bsqueda de una
familia de distribuciones a priori y encontrar la familia de estimadores de
Bayes asociados. Si tuviramos la suerte de que alguno de ellos fuera nico
y de riesgo constante, entonces sera minimax (Teorema 2.1). Si tomamos
una distribucin a priori (r, s), el correspondiente procedimiento de Bayes
es el que se obtuvo en el Ejemplo 1.9 (la funcin de riesgo se comput en
el Ejemplo 1.10). Hay alguna distribucin (r, s) tal que el riesgo asocia-
do al procedimiento de Bayes correspondiente sea constante? Tratemos de
encontrar r y s vericando para una constante cualquiera y todo que:
_
n
n +r +s
_
2
(1 )
n
+
_
r +n
n +r +s
_
2
= k
lo que implica, tras reducir a denominador comn, que el numerador del lado
izquierdo ha de ser constante:
n n
2
+
_
r
2
+ (r +s)
2
2
2r(r +s)
= c
Para ello es preciso que los coecientes de y
2
sean cero:
n 2r(r +s) = 0
(r +s)
2
n = 0
de donde:
r = s =
1
2
n
Llevando estos dos valores a la frmula (1.25) obtenemos el procedimiento
minimax que buscamos:
(Y ) =
_
n
n +
n
_
Y
i
n
+
1
2
n
n +
n
(2.5)
=
n
1 +
Y
i
n
+
1
2
1
1 +
n
(2.6)
2.4. BSQUEDA DE PROCEDIMIENTOS ADMISIBLES Y MINIMAX. 27
Su riesgo (constante) es:
r
() = r
2
1
(n +r +s)
2
=
1
4(1 +
n)
2
(2.7)
Es interesante comparar este riesgo con el del estimador insesgado habitual,
X = n
1
i
X
i
, que es (1 )/n. En el caso ms desfavorable para
este ltimo (cuando =
1
2
y r
() =
1
4n
, el estimador minimax es me-
jor. Sin embargo, esta reduccin de riesgo en la situacin ms desfavorable
tiene un precio; para otros valores de , el estimador minimax puede ser
considerablemente peor que el estimador insesgado habitual. La Figura 2.3
(pg. 25) muestra la funcin de riesgo del estimador minimax (horizontal al
nivel 0.01443) y la del estimador X, ambas correspondientes a un tamao
muestral n = 10. Puede verse que para 0,18 0,82 el estimador mini-
max es de menor riesgo, mientras lo contrario ocurre fuera de dicho intervalo.
Es fcil comprobar tambin que a medida que n el intervalo en que el
estimador minimax mejora a X se va estrechando en torno a =
1
2
.
Ejemplo 2.3 Supongamos que hemos de estimar la media descono-
cida de una distribucin normal N(,
2
), cuya varianza supondremos por
simplicidad conocida. Supondremos tambin que la distribucin a priori de
es N(, b
2
), y la funcin de prdida L(, d) = (d )
2
. Contamos con
una m.a.s. X = (X
1
, . . . , X
n
). Cul es el estimador minimax de ?
Comencemos por encontrar el estimador de Bayes, y, si fuera de riesgo
constante, podramos entonces armar que es minimax.
Segn comprobamos en el Ejemplo 1.11, la distribucin a posteriori de
es:
[X N
_
2
+nb
2
X
2
+nb
2
,
b
2
2
+nb
2
_
De acuerdo con el Teorema 1.1, el procedimiento de Bayes ser entonces:
(X) =
2
+nb
2
X
2
+nb
2
y su riesgo:
r
() = E
[(X) ]
2
=
nb
4
2
(
2
+nb
2
)
2
+
_
2
+nb
2
2
+nb
2
_
2
De esta ltima expresin deducimos que el riesgo no es constante y por tanto
(X) no es minimax. Observemos, sin embargo, que X, lmite de procedi-
mientos de Bayes cuando n , si tiene riesgo constante (=
2
/n), y por
tanto es minimax. La distribucin ms desfavorable es la distribucin a priori
difusa.
Ejemplo 2.4 (un procedimiento de Bayes en que los estados ms des-
favorables totalizan probabilidad 1; y, por tanto, un procedimiento mini-
max en virtud del Corolario 2.2) Consideremos el espacio paramtrico =
_
:
1
3
2
3
_
, la funcin de prdida
L(
, ) = (
)
2
.
28 CAPTULO 2. PROCEDIMIENTOS ADMISIBLES Y MINIMAX.
Podemos observar una variable aleatoria binaria tal que P(X = 1) = 1
P(X = 0) = . Consideramos el procedimiento estadstico
= (X) =
_
a si X = 0,
b si X = 1.
(2.8)
El riesgo de dicho procedimiento es
r
) = (1 )(a )
2
+(b )
2
. (2.9)
Parece que una distribucin mximamente desfavorable podra ser
() =
_
1
2
si =
1
3
,
1
2
si =
2
3
.
(2.10)
El riesgo de Bayes entonces sera
R
) =
5 8a + 9a
2
10b + 9b
2
18
Maximizando la expresin anterior respecto a a y b obtenemos a =
4
9
y
b =
5
9
. Sustituyendo estos valores en (2.9) obtenemos
r
) =
1
18
+
7
9
_
1
2
_
2
,
que toma idntico valor en =
1
3
y en =
2
3
. Por tanto, estamos ante un
procedimiento con valor constante para un conjunto de estados cuya proba-
bilidad conjunta es 1. En virtud del Corolario 2.2, dicho procedimiento es
minimax.
Captulo 3
La familia exponencial.
Suciencia
3.1. Familia exponencial.
Denicin 3.1 Sea F
X
(x; ) una funcin de distribucin dependiendo de un nico
parmetro. Se dice que pertenece a la familia exponencial si su funcin de densidad
(o cuanta, en su caso) puede expresarse as:
f
X
(x; ) = exp a()b(x) +c() +d(x) (3.1)
Esto debe ocurrir sobre el soporte de X, y tal soporte no depender de .
Puede encontrarse una denicin ms precisa en Lehmann (1983), p. 26. Un ejem-
plo de distribucin en la que el soporte depende del parmetro es la uniforme
U(0, ).
En el caso de distribuciones dependiendo de k parmetros, , la denicin
anterior se generaliza de la manera obvia, requiriendo que:
f
X
(x; ) = exp
_
k
i=1
a
i
()b
i
(x) +c() +d(x)
_
(3.2)
29
30 CAPTULO 3. LA FAMILIA EXPONENCIAL. SUFICIENCIA
Ejemplo 3.1 Si X N(,
2
), su funcin de densidad puede escri-
birse en la forma:
f
X
(x; ) =
1
2
e
1
2
(
x
)
2
= exp
_
1
2
x
2
2
1
2
2
+
x
2
+ log
_
1
2
__
= exp
_
2
i=1
a
i
()b
i
(x) +c() + d(x)
_
con:
= (,
2
)
a
1
() =
1
2
2
a
2
() =
2
b
1
(x) = x
2
b
2
(x) = x
c() =
1
2
2
+ log
_
1
2
_
d(x) = 0
Ejemplo 3.2 Si X b(p, n) tenemos que para x 0, 1, . . . , n y
p (0, 1):
P
X
(x; p) =
_
n
x
_
p
x
(1 p)
nx
= exp
_
log
_
n
x
_
+xlog(p) + (n x) log(1 p)
_
(3.3)
que responde a la forma general en (3.1) con:
= p
a() = log(p) log(1 p) = log
_
p
1 p
_
b(x) = x
c() = nlog(1 p)
d(x) = log
_
n
x
_
Ejemplo 3.3 La distribucin de Weibull tiene por funcin de densidad,
f
X
(x; , ) =
x
1
exp
_
_
x
_
(3.4)
para x > 0, > 0 y > 0. Es fcil ver que no puede expresarse en la forma
(3.1), y por tanto no pertenece a la familia exponencial.
3.1. FAMILIA EXPONENCIAL. 31
Se llama parmetro natural de la distribucin (3.5) a = a(). En trminos
del parmetro natural, si a(.) es una funcin 1-1, la expresin (3.1) queda en forma
cannica o simplicada:
f
X
(x, ) = exp b(x) +A() +d(x) . (3.5)
En el caso de distribuciones k-paramtricas, (3.5) se generaliza a
f
X
(x; ) = exp
_
k
i=1
i
b
i
(x) +A() +d(x)
_
. (3.6)
En una distribucin binomial, el parmetro natural es el logaritmo de la razn de
probabilidades (log odds) (Ejemplo 3.2, ms arriba). Vase tambin el ejemplo que
sigue.
Ejemplo 3.4 En una distribucin de Poisson, cuya funcin de probabi-
lidad es
f
X
(x; ) =
e
x
x!
con x = 1, 2, 3, . . . y > 0, el parmetro natural es log
e
, como se com-
prueba sin ms que reescribir la funcin de probabilidad en forma cannica:
f
X
(x; ) = exp +xlog
e
log
e
x! .
De (3.5), dado que
_
f
X
(x, ) =
_
exp b(x) +A() +d(x) = 1,
se deduce:
e
A()
_
exp b(x) +d(x) = 1
y por tanto
A() = log
_
exp b(x) +d(x) .
El conjunto de valores para los cuales la integral anterior es nita se denomina
espacio del parmetro natural; es el conjunto de valores de que hacen que (3.5)
dena una distribucin. Se llama a b(x) estadstico cannico de la distribucin.
En el Ejemplo 3.4 el parmetro natural es log y el espacio del parmetro natural
es (, +).
32 CAPTULO 3. LA FAMILIA EXPONENCIAL. SUFICIENCIA
3.2. Suciencia.
Denicin 3.2 Sea X = (X
1
, . . . , X
n
)
Prob X (b
s
a
s
) /Prob a
s
=
Prob (X = x) (X b
s
)[X a
s
Prob X b
s
[X a
s
i=1
Prob X
i
s
=
_
s
2
_
n
3.2. SUFICIENCIA. 35
Derivando esta ltima expresin tenemos:
f
S
(s; ) =
ns
n1
(2)
n
, (0 < s < 2)
Por otra parte:
f
X
(x; ) =
n
i=1
f
X
(x; ) =
1
(2)
n
Por consiguiente:
f
X|S
(x[s) =
f
X
(x; )
f
S
(s; )
=
1
ns
n1
expresin independiente de lo que, de acuerdo con con la Denicin 3.2,
establece la suciencia de S = X
(n)
.
En este caso, las clases de equivalencia en que queda dividido el espacio
muestral son las de expresin genrica siguiente:
a
s
=
_
x : max
i
x
i
= s
_
Cuando n = 2 dichas clases seran las que ilustra la Figura 3.1; bordes su-
perior y derecho de cuadrados de lado s apoyados sobre los ejes de coorde-
nadas.
Figura 3.1: Clases de equivalencia en la particin mnima suciente. Distribucin
U(0, 2) con n = 2. a
0,3
y a
0,6
denotan las clases correspondientes a s = 0,3 y
s = 0,6 del estadstico suciente S = maxX
1
, X
2
n
i=1
X
i
:
P
S
(s; ) =
e
n
(n)
s
s!
Por otra parte:
P
X
(x; ) =
n
i=1
e
xi
x
i
!
=
e
n
n
i=1
x
i
!
En consecuencia:
f
X|S
(x[s) =
f
X
(x; )
f
S
(s; )
=
s!
n
s
n
i=1
x
i
!
que es independiente del parmetro . Se trata de una distribucin multino-
mial de parmetros
1
n
, . . . ,
1
n
, s.
La comparacin de este ejemplo con el anterior muestra que lo que en una familia
de distribuciones es un estadstico suciente para la media, puede no serlo en otra.
Observacin 3.1 Esto obliga a ser cauto en el trabajo estadstico apli-
cado, y a no apelar alegremente a la nocin de suciencia para prescindir
de informacin. Un estadstico suciente contiene cuanta informacin puede
la muestra aportar sobre un parmetro si nuestros supuestos sobre la familia
de distribuciones generadora de la muestra son correctos. No en otro caso.
Y, en la prctica, esta certeza acerca del modelo terico adecuado rara vez
se tiene. Por el contrario, es frecuente el caso de distribuciones difcilmente
distinguibles cuando slo se cuenta con muestras pequeas o moderadas, que
tienen muy diferentes estadsticos sucientes. Un caso claro lo ofreceran las
distribuciones N(,
2
) y de Cauchy con parmetro de localizacin , (().
Ejemplo 3.9 Sea (X
1
, . . . , X
n
) una muestra aleatoria simple y deno-
temos sus correspondientes valores ordenados por (X
(1)
, . . . , X
(n)
). Cono-
cidos (X
(1)
, . . . , X
(n)
), cualquiera de las permutaciones dando lugar a tales
valores ordenados puede haberse presentado con la misma probabilidad. Por
consiguiente:
Prob
_
(X
1
, . . . , X
n
)[(X
(1)
, . . . , X
(n)
)
_
=
1
n!
sea cual fuere la distribucin generadora F
X
(x; ). Por lo tanto, (X
(1)
, . . . , X
(n)
)
es un estadstico suciente.
Ejemplo 3.10 Consideremos el caso en que =
0
,
1
y las dos
posibles distribuciones F
X
(x; ) tienen soporte comn. Entonces, la razn
de verosimilitudes:
R(x) =
f
X
(x;
0
)
f
X
(x;
1
)
3.3. CARACTERIZACIN DE ESTADSTICOS SUFICIENTES. 37
es un estadstico mnimo suciente. En efecto,
f
X
(x[R(x) = r;
0
) =
f
X
(x;
0
)
_
R(X)=r
f
X
(x;
0
)dx
=
rf
X
(x;
1
)
_
R(X)=r
rf
X
(x;
1
)dx
=
f
X
(x;
1
)
_
R(X)=r
f
X
(x;
1
)dx
= f
X
(x[R(x) = r;
1
)
lo que muestra que la densidad condicionada no depende del valor de .
3.3. Caracterizacin de estadsticos sucientes.
La aplicacin directa de la Denicin 3.2 es con frecuencia tediosa, y por otra
parte requiere una conjetura previa acerca de qu estadstico S puede ser suciente.
El siguiente teorema es de aplicacin frecuentemente mucho ms rpida y directa.
Teorema 3.3 (Teorema de factorizacin) Una condicin necesaria y suciente pa-
ra que S = S(X) sea suciente para en la familia de distribuciones F
X
(x; ),
es que la verosimilitud de la muestra pueda factorizarse as:
f
X
(x; ) = g
S
(s; )h(x) (3.8)
siendo g
S
(s; ) la funcin de densidad de S y h(x) una funcin dependiente slo
de x, pero no de .
DEMOSTRACION:
i) (Necesidad). Supongamos que S es suciente. Ello quiere decir, de acuerdo
con la Denicin 3.2, que:
f
X|S
(x[s) =
f
X
(x; )
f
S
(s; )
(3.9)
y por tanto:
f
X
(x; ) = f
X|S
(x[s)
. .
h(x)
f
S
(s; )
. .
g
S
(s;)
(3.10)
ii) (Suciencia). Denominemos (s) el conjunto formado por todos los posi-
bles valores muestrales x dando lugar al valor S = s, y supongamos que (3.8) se
38 CAPTULO 3. LA FAMILIA EXPONENCIAL. SUFICIENCIA
verica. Entonces:
f
X|S
(x[s) =
f
X
(x; )
f
S
(s; )
=
f
X
(x; )
x(s)
f
X
(x; )
=
g
S
(s; )h(x)
g
S
(s; )
x(s)
h(x)
=
h(x)
x(s)
h(x)
y el ltimo trmino de la derecha es independiente de , lo que establece la su-
ciencia de S en virtud de la Denicin 3.2. El anterior argumento supone que X es
una variable discreta y (s) un conjunto de probabilidad no nula; en el caso de una
distribucin continua, los sumatorios en la expresin anterior deben reemplazarse
por integrales.
Ejemplo 3.11 Sea una distribucin N(, 1), y una muestra formada
por n observaciones de la misma, X
1
, . . . , X
n
. La verosimilitud puede escri-
birse as:
f
X
(x; ) = exp
_
1
2
i
(x
i
)
2
+nlog
1
2
_
= exp
_
1
2
i
_
x
2
i
2x
i
+
2
_
+nlog
1
2
_
= exp
_
i
x
i
1
2
n
2
_
exp
_
1
2
i
x
2
i
+nlog
1
2
_
Podemos en la anterior expresin identicar sin dicultad
i
x
i
como esta-
dstico suciente para , de acuerdo con el teorema de factorizacin.
Ejemplo 3.12 En el Ejemplo 3.9, pg. 36, se comprob que la (X
(1)
, . . . , X
(n)
),
la muestra ordenada, era suciente. Ciertamente, es un estadstico suciente
bastante trivial, que no efecta una gran reduccin de la muestra. En ocasio-
nes, sin embargo, es todo lo lejos que se puede ir.
La distribucin de Cauchy con parmetro de localizacin , ((), propor-
ciona una ilustracin simple de ello. La densidad de una muestra (x
1
, . . . , x
n
)
es de la forma
f
X
(x; ) =
n
i=1
_
1
1
1 + (x
i
)
2
_
,
para < x
i
< , e i = 1, . . . , n. Puede verse fcilmente que cualquier
intento de factorizar la expresin anterior obliga a englobar en g
S
(s; ) una
funcin s de la muestra que depende de todos los valores muestrales. No es
posible ninguna reduccin: S = (X
(1)
, . . . , X
(n)
) es mnimo suciente.
Ejemplo 3.13 En el Ejemplo 3.7, pg. 34, se comprob que en el caso
de una distribucin uniforme U(0, 2) el mayor estadstico de orden X
(n)
es suciente para . Podemos llegar al mismo resultado haciendo uso del
teorema de factorizacin. En efecto,
f
X
(x; ) = (2)
n
H(2 x
(n)
)
con H(z) = 1 cuando z > 0 y H(z) = 0 en caso contrario. Por tanto,
2
n
H(2 x
(n)
) juega el papel de g
S
(s; ) en (3.8), y x
(n)
es suciente.
3.4. COMPLETITUD, ANCILARIDAD, Y SUFICIENCIA. 39
Ejemplo 3.14 La minimalidad en el Ejemplo 3.10 tambin es simple
de establecer haciendo uso del teorema de factorizacin. Bastar para ello
comprobar que, sea cual fuere el estadstico suciente U que consideremos,
R(X) = H(U) para alguna funcin H(). Esto sucede:
R(X) =
f
X
(X;
0
)
f
X
(X;
1
)
=
g
U
(U;
0
)h(X)
g
U
(U;
1
)h(X)
= H(U)
3.4. Completitud, ancilaridad, y suciencia.
Asociadas a la nocin de suciencia estn las de ancilaridad y completitud.
Denicin 3.3 Dada una familia de distribuciones F
X
(x; ), se dice que
V (X) es un estadstico ancilar si su distribucin es independiente de . Es ancilar
de primer orden si su valor medio no depende de .
De acuerdo con el argumento esbozado inmediatamente despus de la Deni-
cin 3.2, podemos considerar que un estadstico ancilar carece, por si mismo, de
contenido informativo acerca de . Obsrvese, sin embargo, que un estadstico an-
cilar puede, en compaa de otro, ser muy informativo quiz incluso suciente
.
Ejemplo 3.15 Sea X
(1)
, . . . , X
(n)
una muestra aleatoria simple proce-
dente de una poblacin U(0, ). Entonces, de modo enteramente anlogo a
como sucede en el Ejemplo 3.7 (pg. 34), X
(n)
es suciente para , y es cla-
ro adems que X
(1)
no es suciente. Se puede demostrar, sin embargo, que
X
(n)
/X
(1)
sigue una distribucin que para nada depende de , y es por tanto
ancilar. Y sin embargo, X
(1)
, X
(n)
/X
(1)
es suciente! Vemos aqu como un
estadstico ancilar, en compaa de otro que por s slo es bastante poco in-
formativo acerca de , proporciona un estadstico suciente. El ejemplo 8.11
en Garn y Tusell (1991) muestra con ms detalle un caso similar.
Denicin 3.4 Un estadstico T es completo en la familia F
X
(x; ), si no
existe ninguna funcin de l (salvo la funcin constante, (T) = c) que sea ancilar
de primer orden. Es decir, si de E
i=1
b(x
i
) +nc() +
n
i=1
d(x
i
)
_
= exp
_
a()
n
i=1
b(x
i
) +nc()
_
exp
_
n
i=1
d(x
i
)
_
= g
S
(s; )h(x)
con:
s =
n
i=1
b(x
i
)
La generalizacin al caso multiparamtrico es obvia, tenindose entonces que:
_
n
i=1
b
1
(x
i
), . . . ,
n
i=1
b
k
(x
i
)
_
son estadsticos conjuntamente sucientes para (a
1
(), . . . , a
k
()).
En general, pues, salvo en casos patolgicos en que est vedado el empleo
del Teorema 3.3, las distribuciones en la familia exponencial poseen estadsticos
sucientes. La relacin entre la pertenencia a dicha familia y la existencia de esta-
dsticos sucientes va ms all sin embargo, como se desprende del siguiente,
Teorema 3.4 (Teorema de Darmois) Sea X una variable aleatoria con densidad
f
X
(x; ), . Supongamos que el dominio de variacin de X es independiente
de , y que (X
1
, . . . , X
n
) es una m.a.s. de tamao n de dicha variable. Entonces:
i) Si existe n > 1 tal que (X
1
, . . . , X
n
) admite un estadstico suciente,
f
X
(x; ) = exp a()b(x) +c() +d(x) .
ii) Si f
X
(x; ) = exp a()b(x) +c() +d(x) y la aplicacin x
1
n
i=1
b(x
i
)
es biunvoca para todo x
1
, . . . , x
n
, entonces para n 1 admite un estadstico su-
ciente. En particular, r =
n
i=1
b(x
i
) es uno.
3.6. ESTADSTICOS SUFICIENTES Y SOLUCIONES DE BAYES. 41
La demostracin puede hallarse en Fourgeaud y Fuchs (1967), p. 192.
Observacin 3.2 El enunciado del teorema anterior puede sugerir que,
en la familia exponencial, cuando hay un nico parmetro, hay un estadstico
suciente escalar; o, ms generalmente, que la dimensin del vector de par-
metros y del estadstico suciente son iguales. Ello es frecuentemente el caso,
pero no siempre. Por ejemplo, consideremos el caso en que la probabilidad
de que un sujeto sobreviva ms de t unidades de tiempo es:
Prob T > t = e
t
y por tanto, la funcin de distribucin de T, tiempo de vida, es:
F
T
(t) = 1 e
t
Si en una muestra de N sujetos se producen d muertes en los momentos
t
i
, (i = 1, . . . , d), y los restantes s = N d sujetos permanecen todava
vivos en los momentos u
j
, (j = d + 1, . . . , N), la densidad conjunta puede
escribirse as:
f
T,U
(t, u) =
d
exp
_
_
_
_
_
d
i=1
t
i
+
N
j=d+1
u
j
_
_
_
_
_
(3.11)
= exp
_
_
_
_
_
d
i=1
t
i
+
N
j=d+1
u
j
_
_
+d log
_
_
_
(3.12)
Hay un slo parmetro, . Sin embargo, como estadstico suciente nece-
sitamos tanto d como
_
d
i=1
t
i
+
N
j=d+1
u
j
_
; ambos conjuntamente son
un estadstico suciente. Se dice que estamos ante una distribucin curva-
da; hay un slo parmetro, pero es como si existieran dos ( y log ). Este
ejemplo concreto procede de Berkson (1980). Otro ejemplo puede verse en
Lehmann (1983), pg. 45. En Cox y Hinkley (1974) pg. 28 y ss. se ofre-
cen ejemplos adicionales que muestran que el nmero de parmetros (q) y el
de estadsticos sucientes (m) no tienen necesariamente que coincidir: tanto
m > q como q > m son situaciones posibles.
3.6. Estadsticos sucientes y soluciones de Bayes.
Hemos justicado en la Seccin 3.2 el inters de emplear estadsticos sucien-
tes apelando a la intuicin. Pueden ahora darse argumentos adicionales.
Recordemos (Seccin 1.10) que estamos interesados en la clase de procedi-
mientos de Bayes y sus lmites, como punto de partida para localizar procedimien-
tos admisibles. Pues bien: de acuerdo con (1.18), especicada una funcin de pr-
dida, el procedimiento de Bayes depende de X slo a travs de f
|X
([x), que a
42 CAPTULO 3. LA FAMILIA EXPONENCIAL. SUFICIENCIA
su vez depende de X slo a travs del estadstico suciente S(X). En efecto:
f
|X
([x) =
f
X|
(x[)()
f
X
(x)
=
g
S
(s; )h(x)()
_
g
S
(s;
)h(x)(
)d
=
g
S
(s; )()
_
g
S
(s;
)(
)d
= G(s; )
Una vez constatado que el limitar nuestra atencin a procedimientos que son
funcin de estadsticos sucientes nos da acceso a todos los procedimientos de Ba-
yes, es claro que desearemos la mxima simplicacin, limitndonos a considerar
estadsticos no slo sucientes sino mnimos sucientes.
3.7. Caracterizacin de la suciencia minimal.
Hemos visto (comentario tras el Teorema 3.1, pg. 33) que la nocin realmente
importante es la de particin suciente. La particin mnima suciente ser la
particin suciente menos na posible. Tenemos entonces el siguiente resultado.
Teorema 3.5 Sea X
1
, . . . , X
n
una muestra generada por una distribucin en la
familia F
X
(x; ), . Sea o la particin del espacio muestral que se obtiene
al agrupar en clases de equivalencia los puntos cuya razn de verosimilitudes
no depende de ; es decir, denotando por la pertenencia a la misma clase de
equivalencia, aquella particin tal que
x y
f
X
(y; )
f
X
(x; )
= m(x, y). (3.13)
Entonces, o es mnima suciente, y cualquier estadstico T tomando valores dife-
rentes en cada clase o
t
o es mnimo suciente.
DEMOSTRACION:
En lo que sigue, se hace la demostracin para el caso de una distribucin dis-
creta; el caso continuo es sustancialmente idntico en esencia, pero formalmente
mas difcil de tratar. Comprobemos en primer lugar que la particin es suciente.
Sea,
g(t, ) =
ySt
f
X
(y; ) (3.14)
y denamos
h(x[t) =
f
X
(x; )
ySt
f
X
(y; )
=
_
_
ySt
m(x, y)
_
_
1
. (3.15)
3.7. CARACTERIZACIN DE LA SUFICIENCIA MINIMAL. 43
Es claro entonces que,
f
X
(x; ) = g(t, )h(x[t) (3.16)
Como g(t, ) depende de la muestra slo a travs de t y h(x[t) no depende de ,
el Teorema 3.3 garantiza la suciencia de T.
Tenemos ahora que ver que T es mnimo suciente. Bastara para ello probar
que, para cualquier otro estadstico suciente U, U(x) = U(y) = T(x) =
T(y). Pero esto se deduce sin dicultad: como U es suciente,
f
X
(x; ) = g
1
(u(x), )g
2
(x)
f
X
(y; ) = g
1
(u(y), )g
2
(y),
y
f
X
(x; )
f
X
(y; )
=
g
1
(u(x), )g
2
(x)
g
1
(u(y), )g
2
(y)
=
g
2
(x)
g
2
(y)
.
Como este ltimo trmino es funcin exclusivamente de x y de y, es claro que
x y y en consecuencia T(x) = T(y).
Ejemplo 3.18 Consideremos una distribucin binaria de la que se ob-
tiene una muestra de tamao n. Estarn en la misma clase de la particin
mnima suciente aquellos puntos vericando
P
n
i=1
xi
(1 )
n
P
n
i=1
xi
P
n
i=1
yi
(1 )
n
P
n
i=1
yi
= m(x, y);
ello requiere
n
i=1
x
i
=
n
i=1
y
i
.
Hay algunos otros resultados que permiten en ocasiones caracterizar la su-
ciencia minimal. Los enunciamos a continuacin.
Teorema 3.6 Si un estadstico es suciente y acotado completo, es minimal su-
ciente.
Una demostracin puede encontrarse en Fourgeaud y Fuchs (1967).
Ejemplo 3.19 Comprobemos que S = X
(n)
es minimal suciente en
una distribucin U(0, 2). En el Ejemplo 3.7 vimos que S es suciente para
en dicha distribucin, y que su funcin de densidad es
f
S
(s; ) =
ns
n1
(2)
n
;
44 CAPTULO 3. LA FAMILIA EXPONENCIAL. SUFICIENCIA
podemos pues limitarnos ahora a comprobar que es acotado completo. De
acuerdo con la Denicin 3.4, pg. 39, basta que comprobemos que de E[(S)] =
0 para todo se deduce necesariamente (S) = 0. Y as es, pues derivando
la igualdad
E[(S)] =
_
2
0
(s)
ns
n1
(2)
n
ds = 0 (3.17)
respecto de su lmite superior, obtenemos
(2)
n(2)
n1
(2)
n
= 0
de donde se sigue que (2) = 0.
En la familia exponencial, es simple establecer suciencia minimal. Es eviden-
te en virtud del teorema de factorizacin y de la expresin (3.1) ( (3.2), si estamos
ante una familia multiparamtrica) que
j
b(X
j
) (o, en el caso multiparamtri-
co,
j
b
1
(X
j
), . . . ,
j
b
k
(X
j
)) son estadsticos sucientes. El siguiente teorema
permite establecer suciencia minimal.
Teorema 3.7 Si X sigue una distribucin en la familia exponencial y de rango
completo
1
, entonces
_
_
j
b
1
(X
j
), . . . ,
j
b
k
(X
j
)
_
_
(3.18)
es mnimo suciente.
DEMOSTRACION:Puede demostrarse como corolario del Teorema 3.5. En efecto,
la condicin de suciencia mnima (3.13) requiere en el caso de distribuciones en
la familia exponencial
f
X
(y; )
f
X
(x; )
=
exp
_
k
j=1
(a
j
()
n
i=1
b
j
(y
i
)) +nc() +
n
i=1
d(y
i
)
_
exp
_
k
j=1
(a
j
()
n
i=1
b
j
(x
i
)) +nc() +
n
i=1
d(x
i
)
_
= exp
_
_
_
k
j=1
a
j
()
_
n
i=1
b
j
(x
i
)
n
i=1
b
j
(y
i
)
_
+
n
i=1
d(x
i
)
n
i=1
d(y
i
)
_
_
_
.
En el caso de rango completo, para que la expresin anterior no dependa de sera
preciso que
n
i=1
b
j
(x
i
) =
n
i=1
b
j
(y
i
) (i = 1, 2, . . . , k.)
1
Se dice que la familia es de rango completo si (a1(), . . . , a
k
()) genera un conjunto conte-
niendo un rectngulo de dimensin k cuando toma valores en .
3.7. CARACTERIZACIN DE LA SUFICIENCIA MINIMAL. 45
Por tanto, cada vector k-dimensional
_
n
i=1
b
1
(x
i
),
n
i=1
b
2
(x
i
), . . . ,
n
i=1
b
k
(x
i
)
_
determina una clase de la particin mnima suciente.
Ejemplo 3.20 Sea X
1
, . . . , X
n
una m.a.s. generada por una distribu-
cin N(,
2
). Entonces, (X, S
2
) es un estadstico mnimo suciente para
(,
2
). En efecto,
f
X
(x, ,
2
) =
_
1
2
_
n n
i=1
exp
_
(x
i
)
2
2
2
_
= exp
_
1
2
n
i=1
x
2
i
2
n
2
2
2
+
n
i=1
x
i
2
+nlog
e
_
1
2
__
La expresin anterior puede escribirse en la forma cannica de las densidades
de la familia exponencial (vase (3.2) y Ejemplo 3.1),
f
X
(x; ) = exp
_
k
i=1
a
i
()b
i
(x) +nc() +d(x)
_
, (3.19)
con
= (,
2
)
a
1
() =
1
2
2
a
2
() =
2
n
i=1
b
1
(x
i
) =
n
i=1
x
2
i
n
i=1
b
2
(x
i
) =
n
i=1
x
i
c() =
n
2
2
2
+nlog
e
_
1
2
_
.
Por consiguiente, en aplicacin del Teorema 3.7, (
x
i
,
x
2
i
) o cualquier
funcin biunvoca de l es un estadstico suciente para (,
2
).
Ejemplo 3.21 Podramos tambin llegar al mismo resultado del ejem-
plo anterior mediante aplicacin del Teorema 3.5. La particin mnima su-
ciente sera aqulla que pusiera en la misma clase de equivalencia puntos x,
y vericando
f
X
(y; )
f
X
(x; )
= m(x, y).
46 CAPTULO 3. LA FAMILIA EXPONENCIAL. SUFICIENCIA
En nuestro caso,
f
X
(y; )
f
X
(x; )
= exp
_
1
2
2
n
i=1
_
(x
i
)
2
(y
i
)
2
_
= exp
_
1
2
2
_
n
i=1
x
2
i
n
i=1
y
2
i
2
_
n
i=1
x
i
n
i=1
y
i
___
.
Para que esta funcin no dependa de ni de
2
todo lo que se requiere es
que
n
i=1
x
2
i
=
n
i=1
y
2
i
(3.20)
n
i=1
x
i
=
n
i=1
y
i
(3.21)
Por consiguiente (
n
i=1
x
i
,
n
i=1
x
2
i
), o cualquier funcin biunvoca de di-
cho estadstico, como por ejemplo (x,
n
i=1
(x
i
x)
2
), es un estadstico
mnimo suciente.
CUESTIONES, COMPLEMENTOS Y COSAS PARA HACER
3.1 Utilcese el procedimiento en el Ejemplo 3.21 para mostrar que al
estimar el modelo lineal ordinario Y = X+ con las condiciones habitua-
les ms la de normalidad,
= (X
X)
1
X
Y y SSE = (Y X
)
(Y
X
) son conjuntamente sucientes para los parmetros (,
2
)
3.2 En la familia de distribuciones uniformes, U(
1
2
, +
1
2
). en-
cuntrese un estadstico suciente para . Es completo?
3.3 Sea X
1
, . . . , X
n
una m.a.s. procedente de una distribucin con
densidad
f
X
(x; ) =
_
e
(x)
si x > ,
0 n otro caso.
Mustrese que X
(1)
es suciente para .
3.4 Sea X
1
, . . . , X
n
una m.a.s. procedente de una distribucin beta
con densidad
f
X
(x; r, s) =
1
(r, s)
x
r1
(1 x)
s1
en que 0 < x < 1, r > 0, s > 0 y (r, s) es la constante de normalizacin.
Comprubese que (
i
log(X
i
),
i
log(1 X
i
)) es suciente para r y s.
3.5 Sean Y
1
, . . . , Y
n
variables aleatorias independientes con densida-
des respectivas
j
e
jyj
,
j
> 0, j = 1, . . . , n. Supongamos que log(
j
) =
x
j
, j = 1, . . . , n, y que x
1
, . . . , x
n
son constantes jas y positivas. Mus-
trese que no es de rango completo.
Captulo 4
Procedimientos insesgados.
4.1. La condicin de insesgadez.
Vimos (Ejemplo 1.6, pg. 5) que la bsqueda de un procedimiento mejor que
cualquier otro estaba condenada al fracaso. Pero se apunt all que quiz si nos
restringimos a una clase de procedimientos razonable, que excluya comporta-
mientos excelentes en casos aislados y muy malos en todos los dems estados de
la naturaleza, s podramos encontrar un procedimiento ptimo.
La restriccin de insesgadez es una forma de imponer tal comportamiento ra-
zonable a los procedimientos que estamos dispuestos a considerar
1
.
En un problema de decisin, se dice que el procedimiento (X) es insesgado
si:
E
L(
, (X)) E
L(, (X)) ,
(4.1)
Restringir nuestra atencin a procedimientos que verican (4.1) elimina de nuestra
consideracin procedimientos como
2
(X) en el referido Ejemplo 1.6.
En problemas de estimacin puntual de una funcin () se dice que (X) es
un procedimiento insesgado si:
E
((X)) = () (4.2)
Ambas condiciones de insesgadez (la dada por (4.1) y la dada por (4.2)) pue-
den reconciliarse fcilmente, dado que, salvo en condiciones bastante anmalas, se
implican mutuamente. El siguiente ejemplo lo ilustra.
1
En palabras de Lehmann (ver Lehmann (1983)) es una condicin de imparcialidad.
47
48 CAPTULO 4. PROCEDIMIENTOS INSESGADOS.
Ejemplo 4.1 Supongamos un problema de estimacin puntual con fun-
cin de prdida cuadrtica. La condicin de insesgadez (4.1) requiere:
E
(X))
2
E
( (X))
2
,
(4.3)
Sumando y restando E
(X)]
2
E
[ E
(X)]
2
,
(4.4)
que se verica slo si E
[ 5 = 1
En consecuencia, es inadmisible.
Existen otros muchos ejemplos de estimadores de Bayes que son ses-
gados, menos articialmente simples que el presente. La teora de Modelos
Lineales muestra que, si la prdida es cuadrtica, un estimador sesgado (el
estimador ridge) puede ser preferible al (insesgado ptimo) proporcionado
por mnimos cuadrados ordinarios, y que la mejora derivada de tolerar al-
gn sesgo puede ser notable (en los casos de acusada multicolinealidad).
Garthwaite et al. (1995), pg. 35, proporciona un ejemplo alternativo a ste.
Ejemplo 4.3 (un estimador insesgado puede ocasionalmente dar re-
sultados absurdos) La insesgadez, cuando el estimando est constreido a
estar en un cierto rango, da lugar a situaciones anmalas. Supongamos que
se desea estimar
2
o coeciente de correlacin al cuadrado entre dos va-
riables. Por denicin, 0
2
1. Si obligamos a un estimador
2
a ser
insesgado, nos encontraremos con que podemos obtener
2
< 0 sobre otras
2
> 1. En efecto, el ser insesgado cuando
2
= 0 obliga a que eventual-
mente
2
< 0 (si siempre fuera
2
0, E[
2
] > 0 contra el supuesto de
insesgadez). Lo mismo ocurre cuando
2
= 1.
4.2. FUNCIONES CONVEXAS. 49
Ejemplo 4.4 (no existencia de estimadores insesgados de una cierta
funcin) Consideremos una moneda cuya probabilidad de dar cara al ser
arrojada es . Estamos interesados en estimar no , sino la razn de pro-
babilidades cara/cruz, es decir, () = /(1 ), y contamos con una mues-
tra formada por n observaciones independientes X
1
, . . . , X
n
. Sea S(X) =
X
1
+. . . X
n
.
No existe un estimador insesgado. Si lo hubiera, debera vericar:
E
(X) =
xX
(x)
s(x)
(1 )
ns(x)
=
1
(4.5)
en que s(x) =
x
i
y A es el conjunto formado por todas las posibles n-
tuplas de ceros y unos. Sin embargo, el lado izquierdo de la igualdad anterior
es un polinomio de grado nito en , en tanto que el lado derecho puede
escribirse como (1 + +
2
+ . . .); ningn polinomio puede igualar a la
serie de potencias en el lado derecho para cualquier valor de .
4.2. Funciones convexas.
Una funcin (x) real-valorada en el intervalo (a, b) ( a < b ) es
convexa si para cualesquiera x, y, con a < x < y < b y para cualquier 0 < < 1
se verica:
(x + (1 )y) (x) + (1 )(y) (4.6)
Decimos que es una funcin estrictamente convexa si la desigualdad en la expre-
sin anterior es estricta. Una funcin (x) es cncava en [a, b] si (x) es convexa
en el mismo intervalo. Es inmediato ver que, en el caso de funciones derivables,
+
i
De acuerdo con el teorema de Gauss-Markov, sabemos entonces que una
prediccin insesgada y de varianza mnima del valor y
del regresando es
x
+. Es decir:
E[x
] = y
(4.8)
Sin embargo, la variable que deseamos predecir es z
= e
y
. Como la fun-
cin exponencial es convexa, de acuerdo con la desigualdad de Jensen se
tiene:
E[Z
] e
E[Y]
Si x
].
Si quisiramos corregir este sesgo, podramos quiz linealizar la funcin
logaritmo. En la prctica, el sesgo suele ser de entidad lo sucientemente
reducida en comparacin con la varianza de la prediccin como para no ser
considerado.
4.3. Estimacin insesgada puntual.
Demostraremos en lo que sigue algunos resultados de gran alcance, que mues-
tran la forma de obtener estimadores insesgados ptimos con funciones de prdida
bastante generales (convexas
3
, lo que en particular incluye la estimacin mnimo-
cuadrtica).
3
La convexidad es una propiedad intuitivamente plausible en una funcin de prdida. En esencia
supone, en un problema de estimacin paramtrica, que la prdida en que se incurre al estimar un
parmetro crece ms que proporcionalmente al error cometido en la estimacin.
4.3. ESTIMACIN INSESGADA PUNTUAL. 51
Teorema 4.3 (Rao - Blackwell) Sea X una v.a. con distribucin F
X
(x, ),
, y S = S(X) un estadstico suciente para . Sea
(X) un estimador de , y
L(
) = E
_
L(
, )
_
<
y denimos:
(s) = E
_
(X)[S = s
_
entonces:
r
( (s)) < r
)
DEMOSTRACION:
Es una aplicacin de la desigualdad de Jensen:
L( , ) = L(E
X|S
_
(X)
_
, )
= (E
X|S
_
(X)
_
)
E
X|S
_
(
(X))
_
= E
X|S
_
L(
(X), )
_
Tomando ahora valor medio respecto de la distribucin de S tenemos:
E
S
[L( , )] E
S
_
E
X|S
_
L(
(X), )
__
y como E
S
_
E
X|S
[]
= E
X
[] obtenemos en denitiva:
E
S
[L( , )] E
_
L(
(X), )
_
r
( ) r
)
La desigualdad es estricta si la funcin de prdida es estrictamente convexa.
Observemos, de paso, que, si
(X) es insesgado, la aplicacin del teorema de
Rao-Blackwell proporciona un (S) tambin insesgado. En efecto:
= E
(X)
_
= E
S
_
E
X|S
_
(X)[S
__
= E
S
[ (S)]
52 CAPTULO 4. PROCEDIMIENTOS INSESGADOS.
Observacin 4.1 Dnde se ha hecho uso de la suciencia de S? Pa-
rece a primera vista que en ninguna parte, y que bastara condicionar sobre
cualquier cosa para que el teorema de Rao-Blackwell surtiera efecto.
Observemos que ello no es as. Si queremos que (S) sea un estimador,
no debe depender del parmetro . Si S es suciente,
(S) = E
X|S
_
(X)[S
_
=
_
(X)f
X|S
(x[s)dx
y se verica esta condicin de no dependencia de (pues, por denicin de
suciencia, f
X|S
(x[s) no depende de dicho parmetro). No podra armarse
lo mismo si S no fuera suciente.
Cuando en un problema de estimacin puntual con prdida convexa se dispone
de un estadstico que no slo es suciente sino tambin completo, puede armarse
la existencia de un estimador nico y de riesgo mnimo para cualquier funcin es-
timable de (es decir, para cualquier () para la que exista alguna funcin de la
muestra vericando E
[ (S)] = E
[ (S)] =E
[ (S) (S)]
. .
g(S)
= 0
Pero la condicin de completo de S permite entonces conclur que E
[g(S)] =
0 g(S) = 0 con probabilidad 1, y por tanto (S) = (S) (con probabilidad 1).
Si a las condiciones del teorema anterior unimos convexidad de la funcin de
prdida, tenemos el siguiente interesante resultado.
Teorema 4.5 En las condiciones del Teorema 4.4, si L(
(X), ) es estrictamente
convexa y r
n
i=1
X
i
(y, equivalentemente, X) es un estadstico suciente para
en la clase de distribuciones de Poisson, P(). Adems, X es un estadstico
completo.
El Teorema 4.4 (pg. 52) muestra entonces que X es el nico estimador
insesgado de mnima varianza de (ms generalmente, de mnimo riesgo
para cualquier funcin de prdida convexa).
Ejemplo 4.7 Consideremos de nuevo el caso de una distribucin U(0, 2)
y una m.a.s. X
1
, . . . , X
n
procedente de ella. Vimos (Ejemplo 3.7, pg. 34)
que X
(n)
es suciente para y adems completo (Ejemplo 3.19, pg. 43).
Sea S = X
(n)
. Entonces,
E
[S] =
_
2
0
ns
n1
(2)
n
sds =
n
(2)
n
_
s
n+1
n + 1
_
2
0
=
2n
n + 1
.
Por tanto, (2n)
1
(n + 1)X
(n)
es un estimador insesgado de que depende
slo del estadstico suciente X
(n)
. Es insesgado de mnima varianza.
En este caso, ha sido fcil aplicar la primera va aludida en el texto:
buscar una funcin del estadstico suciente, calcular su sesgo y corregirlo.
El ejemplo siguiente hace tambin uso de la primera va: imponer la insesgadez
a una funcin de un estadstico completo suciente.
54 CAPTULO 4. PROCEDIMIENTOS INSESGADOS.
Ejemplo 4.8 (estimador insesgado de mnima varianza de la varianza
de una distribucin binaria) Consideremos una distribucin binaria de pa-
rmetro p; su varianza es pq = p(1 p). Sea p el estimador habitual de
p,
p = n
1
n
i=1
X
i
. (4.9)
Es fcil ver que p es insesgado para p y tambin suciente y completo. Sin
embargo, el estimador de la varianza p(1 p) no es insesgado. En efecto, en
virtud de la desigualdad de Jensen (Seccin 4.2, pg. 49),
E [ p(1 p] = E [( p)] (E( p)) = p(1 p),
dado que (.) es una funcin cncava.
Podemos sin embargo acometer en este caso la correccin directa del
sesgo. Sea T =
n
i=1
X
i
(completo suciente) y (T) una funcin arbitraria
de dicho estadstico. Dado que T sigue una distribucin binomial, el valor
medio de (T) es:
E [(T)] =
n
t=0
(t)
_
n
t
_
p
t
(1 p)
nt
.
Deniendo = p(1p)
1
(por tanto p = (1+)
1
y (1p) = (1+)
1
),
E [(T)] =
n
t=0
(t)
_
n
t
_
p
t
(1 p)
nt
=
n
t=0
(t)
_
n
t
_
t
(1 +)
t
1
(1 +)
nt
. (4.10)
Igualando (4.10) a p(1 p) y simplicando tenemos:
n
t=0
(t)
_
n
t
_
t
(1 +)
t
1
(1 +)
nt
=
(1 +)
2
n
t=0
(t)
_
n
t
_
t
= (1 +)
n2
n
t=0
(t)
_
n
t
_
t
=
__
n 2
0
_
+
_
n 1
1
_
+. . . +
_
n 2
n 2
_
n2
_
n
t=0
(t)
_
n
t
_
t
=
n1
t=1
_
n 2
t 1
_
t
. (4.11)
Igualando trminos de igual orden a ambos lados de (4.11) vemos que debe
vericarse:
(t)
_
n
t
_
=
_
n 2
t 1
_
=(t) =
t(n t)
n(n 1)
(4.12)
para t = 1, . . . , n 1 (y (0) = (n) = 0, que ya quedan recogidos en la
expresin general).
4.3. ESTIMACIN INSESGADA PUNTUAL. 55
Ejemplo 4.9 Supongamos que la v.a. X sigue una distribucin de Pois-
son y que el parmetro que tenemos inters en estimar es = e
=
Prob X = 0. Denamos
(X) as:
(X) = 1 si X = 0 y
(X) = 0 en otro
caso. Entonces,
(X) es un estimador insesgado de , funcin de un estads-
tico completo suciente, y por tanto uniformemente de mnima varianza, de
acuerdo con el Teorema 4.4. Vemoslo.
1. El estadstico X es suciente; claro, puesto que la totalidad de la mues-
tra es siempre suciente.
2. El estadstico X es completo en la familia de distribuciones de Poisson
T(). Comprobmoslo. Sea una funcin g(x) tal que E[g(X)] = c.
Ello signicara que:
j=0
g(j)
e
j
j!
= c =
j=0
[g(j) c]
e
j
j!
= 0
y por tanto:
[g(j) c] = 0 j entero = g(j) = c j entero
En consecuencia, la nica funcin g(x) vericando E[g(X)] = c es la
funcin constante.
3. Finalmente, observemos que:
E[
(X)] = 1
e
0
0!
+ 0 Prob X > 0 = e
luego
(X) es insesgado.
Este ejemplo o similares han sido objeto de debate en la literatura. El estima-
dor slo puede proporcionar dos estimaciones: 0 1. Ello es particularmente
molesto cuando = e
, el estimador ob-
vio e
X
es sesgado (desigualdad de Jensen); y no es inmediato el valor de su
sesgo ni la forma de eliminarlo.
Sin embargo, lo cierto es que X (o, equivalentemente, S = X
1
+ . . . +
X
n
) es un estadstico completo suciente (lo que se puede demostrar de mo-
do exactamente anlogo al empleado en el Ejemplo 4.9).
56 CAPTULO 4. PROCEDIMIENTOS INSESGADOS.
Busquemos un estimador insesgado cualquiera de = e
; recordando
que = Prob X = 0 vemos que:
(X) =
_
1 si X
1
= 0
0 en otro caso.
es efectivamente insesgado. Entonces, de acuerdo con el Teorema 4.3 tene-
mos
5
que:
(S) = E[
(X)[S] =
_
1
1
n
_
S
(4.13)
es el estimador insesgado (esencialmente nico) de mnima varianza. A la
vista de (4.13) es claro que el indagar directamente qu funcin de S (o de
X) es insesgada no hubiera tenido grandes posibilidades de xito!
4.4. El jackknife
En ocasiones puede ser difcil encontrar un estimador insesgado de partida y
aplicar el procedimiento de Rao-Blackwell para obtener el estimador insesgado de
varianza mnima. Quenouille (1956) propuso un procedimiento para, partiendo de
un estimador sesgado, obtener otro insesgado o con sesgo muy reducido respecto
al estimador inicial. Es la tcnica conocida como jackkning.
Supongamos que el estimador
n
, basado en una muestra de tamao n, tiene
un sesgo de orden O(n
1
) como es lo habitual. Supongamos que
E[
n
] = +
i=1
a
i
n
i
en que los coecientes a
i
pueden depender de (pero no de n) y al menos el
primero es distinto de cero (de forma que el orden del sesgo es el estipulado). El
procedimiento de jackkning consiste en lo siguiente:
1. Recalcular el estimador n veces, dejando cada vez fuera una observacin.
Esto proporcionar n versiones del estimador que denotaremos por
n1,i
,
i = 1, . . . , n, en que el primer subndice alude al tamao de muestra em-
pleado y el segundo a la observacin omitida.
2. Computar la media aritmtica
n1
de las n versiones del estimador calcu-
ladas en el apartado anterior.
3. Denir el estimador jackknife as:
J
n
=
n
+ (n 1)(
n
n1
) (4.14)
= n
n
(n 1)
n1
(4.15)
5
Condicionalmente sobre S, la distribucin de X es multinomial (vase Ejemplo 3.8, pg. 36), y
por tanto la distribucin de X1 condicionado por S es binomial de parmetros
1
n
, s.
4.4. EL JACKKNIFE 57
Es fcil comprobar que el sesgo de
J
n
es de menor orden que el de
n
. En efecto,
E[
J
n
] = n( +
i=1
a
i
n
i
) (n 1)
_
+
i=1
a
i
(n 1)
i
_
(4.16)
=
a
2
n(n 1)
+O(n
3
). (4.17)
Por consiguiente, el sesgo original que era O(n
1
) ha quedado reducido a O(n
2
).
Ejemplo 4.11 (estimacin de
2
en una distribucin binaria b()) Si
disponemos de una muestra de n observaciones, sabemos que X = X
1
+
. . . + X
n
(o, alternativamente,
n
= X = X/n) son estadsticos sucientes
para . Es claro no obstante que, si bien
n
es insesgado para , =
2
n
=
X
2
es sesgado para =
2
(consecuencia inmediata de la desigualdad de
Jensen). Veamos cul es este sesgo y cmo eliminarlo o reducirlo haciendo
uso del jackknife. Dado que
E[X
2
] = Var(X) +
_
E(X)
2
=
(1 )
n
+
2
(4.18)
vemos que Sesgo( ) = E[X
2
]
2
= n
1
(1 ).
Dejando de lado la observacin i-sima slo se pueden obtener dos va-
lores para
n1,i
:
n1,i
=
_
_
_
x 1
n 1
_
2
con probabilidad x/n
_
x
n 1
_
2
con probabilidad
n x
n
;
por consiguiente, el clculo del
n1
puede hacerse directamente sin necesi-
dad de recomputar n veces el estimador y promediar los resultados:
n1
=
x
n
_
x 1
n 1
_
2
+
n x
n
_
x
n 1
_
2
=
(n 2)x
2
+x
n(n 1)
2
El estimador jackknife es por tanto:
J
n
= n
n
(n 1)
n1
(4.19)
= n
_
x
n
_
2
(n 1)
(n 2)x
2
+x
n(n 1)
2
(4.20)
=
x(x 1)
n(n 1)
(4.21)
Puede vericarse con facilidad que, en este caso particular, el jackknife no
slo ha reducido el orden del sesgo, sino que lo ha cancelado en su totalidad.
Recordemos que, de acuerdo con (4.18), el sesgo de X
2
es n
1
(1 ); por
tanto, la remocin del sesgo de orden O(n) supone la remocin de todo el
sesgo.
58 CAPTULO 4. PROCEDIMIENTOS INSESGADOS.
CUESTIONES, COMPLEMENTOS Y COSAS PARA HACER
4.1 En la situacin descrita en el Ejemplo 4.9, obtngase un estimador
insesgado de mnima varianza para = Prob
n
i=1
X
i
1.
4.2 Se cuenta con dos observaciones independientes X
1
y X
2
proce-
dentes de una distribucin con densidad
f
X
(x; ) = e
x
.
Hllese el estimador de mnima varianza insesgado de = Prob X 1.
4.3 Sea una m.a.s. X
1
, . . . , X
n
procedente de una distribucin cuya
densidad es,
_
f
X
(x, ) para x [a, b()],
0 en otro caso.
El parmetro a estimar es ; a es una constante y b() una funcin ja de
. Comprubese que, si existe un estadstico suciente, debe ser X
(n)
, y que
una condicin suciente para ello es que f
X
(x, ) = g(x)h().
(Garthwaite et al. (1995), pg. 37)
4.4 Sea una m.a.s. X
1
, . . . , X
n
procedente de una distribucin cuya
densidad es,
f
X
(x, ) =
_
1
e
x/
si x 0,
0 en otro caso.
Indquese cules de los siguientes estimadores de : i)
= X
1
; ii)
=
n
1
n
i=1
X
i
; iii)
= (n + 1)
1
n
i=1
X
i
; iv)
= nX
(1)
; v)
= X
1
; vi)
= X
(n)
, son: a) Insesgados, b) Funcin de estadsticos sucientes y c) De
mnima varianza insesgados.
4.5 Sean X
1
, . . . , X
n
, variables aleatorias con densidad comn f
X|
(x[) =
x
1
, en que 0 x 1 y > 0.
i) Encuntrese un estadstico suciente para .
ii) Comprubese que log X
1
es un estimador insesgado de
1
.
iii) Haciendo uso del hecho establecido en el apartado anterior, utilcese
el teorema de Rao-Blackwell para encontrar el estimador insesgado de
mnima varianza de
1
.
4.6 Sean X
1
, . . . , X
n
variables independientes con densidad comn
f
X
(x[
1
,
2
). Supongamos dos estadsticos T
1
y T
2
tales que T
1
es suciente
para
1
cuando
2
est dado, y T
2
es suciente para
2
cuando
1
est dado.
Comprubese que T = (T
1
, T
2
) es conjuntamente suciente para (
1
,
2
).
Captulo 5
Eciencia. La cota de
Cramr-Rao.
5.1. Introduccin
La teora que precede, y en particular el Teorema 4.5, muestran el modo de
establecer optimalidad de un estimador insesgado.
En lo que sigue, probaremos un resultado de menor alcance: bajo ciertas con-
diciones de regularidad, si
es un estimador de se verica
Var
) H(), (5.1)
en que H() es una funcin que podemos obtener fcilmente. Entonces, si para un
estimador
insesgado de tuviramos
Var
) = H(), (5.2)
no existira ningn otro de varianza menor, y podramos declarar
ptimo (en
trminos de varianza y en la clase de los insesgados, no se olvide).
Este procedimiento es inferior al proporcionado por el Teorema 4.5 por varias
razones. En primer lugar, son precisas condiciones de regularidad bsicamente,
la funcin de verosimilitud debe ser lo sucientemente suave, en un sentido que
quedar claro ms abajo. En segundo lugar, (5.1) se reere slo a prdidas cua-
drticas. Finalmente, (5.1) no es una desigualdad ajustada, en el sentido de que
puede suceder que, para todo
insesgado,
Var
_
f
X
(x; )dx =
_
f
X
(x; )dx. (5.4)
Entonces,
E
0
_
log f
X
(X; )
_
=
0
= 0. (5.5)
DEMOSTRACION:
En efecto, observemos que
log f
X
(x; )
=
_
f
X
(x; )
_
f
X
(x; )
.
Por consiguiente,
E
0
_
log f
X
(X; )
_
=
0
=
_
f
X
(x; )
log f
X
(x; )
dx
=
_
f
X
(x; )
f
X
(x; )
f
X
(x; )
dx
=
_
f
X
(x; )dx
=
_
f
X
(x; )dx
= 0.
Ejemplo 5.1 Ilustramos (5.5) en el caso simple en que X N(,
2
=
1) y X
1
, . . . , X
n
es una muestra aleatoria simple. Entonces,
f
X
(X; ) =
n
i=1
_
1
2
exp
_
(X
i
)
2
/2
_
_
,
5.2. ALGUNOS RESULTADOS INSTRUMENTALES 61
y
log f
X
(X; )
=
n
i=1
(X
i
).
Tomando valor medio de esta ltima expresin comprobamos que se anula:
E
_
n
i=1
(X
i
)
_
= n n = 0.
Obsrvese que ello es cierto slo si coinciden los valores del parmetro que
se sustrae de cada X
i
y el valor del parmetro para el cul se toma el valor
medio.
Observacin 5.1 En el Lema 5.1 se ha empleado la notacin
E
0
_
log f
X
(X; )
_
=0
para enfatizar el hecho de que se toma el valor medio de la derivada del
logaritmo de la verosimilitud evaluada para el valor
0
del parmetro , y
que este valor medio lo es con respecto a la densidad f
X
(x;
0
). Ntese que
esto es crtico para que el Lema 5.1 sea vlido.
En lo que sigue, para aligerar la notacin, denota a un tiempo el valor
del parmetro y la variable respecto de la que se deriva, sin que esta notacin
deba inducir a error. Adems, salvo expresa mencin en contrario, las deri-
vadas respecto a se suponen tambin evaluadas en el valor del parmetro.
Lema 5.2 Bajo condiciones de regularidad
1
se tiene:
Var
_
log f
X
(X; )
_
= E
_
log f
X
(X; )
_
2
(5.6)
= E
2
log f
X
(X; )
2
_
. (5.7)
DEMOSTRACION:
1
Que permitan intercambiar el orden de las operaciones de derivacin e integracin en los ca-
sos en que esto se hace en la demostracin. Las condiciones de regularidad tambin incluyen que
el recorrido de la distribucin no dependa del parmetro (como sucedera, por ejemplo, en una
U(0, )).
62 CAPTULO 5. EFICIENCIA. LA COTA DE CRAMR-RAO.
Se tiene que:
0 =
(0) (5.8)
=
_
log f
X
(X; )
_
(5.9)
=
_
_
log f
X
(x; )
f
X
(x; )
_
dx (5.10)
=
_ _
f
X
(x; )
2
log f
X
(x; )
2
+
log f
X
(x; )
f
X
(x; )
_
dx(5.11)
= E
2
log f
X
(X; )
2
_
+
_ _
log f
X
(x; )
_
2
f
X
(x; )dx (5.12)
= E
2
log f
X
(X; )
2
_
+E
_
log f
X
(X; )
_
2
. (5.13)
Se ha hecho uso de
log f
X
(x; )
=
1
f
X
(x; )
f
X
(x; )
para pasar de (5.10) a (5.11). Del hecho de ser (5.13) igual a cero, se deduce
E
_
log f
X
(X; )
_
2
= E
2
log f
X
(X; )
2
_
.
5.3. Informacin de Fisher. Cota de Cramr-Rao
Denicin 5.1 Consideremos la variable aleatoria
log f
X
(X, )
.
Su varianza se denota por I
X
() y se denomina informacin de Fisher asociada a
una observacin. De acuerdo con el lema anterior:
I
X
() = E
_
log f
X
(X, )
_
2
= E
2
log f
X
(X, )
2
_
Observacin 5.2 El nombre de informacin dado a I
X
() encuentra
en parte su justicacin en el papel que I
X
() juega en la desigualdad de
Cramr-Frechet-Rao (Teorema 5.1, pg. 64). Una justicacin alternativa,
que puede tener cierto atractivo intuitivo, sera la siguiente.
5.3. INFORMACIN DE FISHER. COTA DE CRAMR-RAO 63
Consideremos una familia de distribuciones, f
X
(x, ), , y dos
miembros de la misma correspondientes a sendos valores del parmetro,
0
(el correcto) y
=
0
+d. Pueden proponerse diversas formas de medir
la distancia o discrepancia entre f
X
(x,
0
) y f
X
(x,
) = E
0
[log f
X
(X,
0
) log f
X
(X,
)] (5.14)
Si suponemos f
X
(x,
) E
0
_
log f
X
(X,
0
) log f
X
(x,
0
)
_
log f
X
(X, )
_
=0
d
1
2
_
2
log f
X
(X, )
2
_
=0
(d)
2
_
= E
0
_
1
2
2
log f
X
(X, )
2
_
(d)
2
=
1
2
I
X
(
0
)(d)
2
Ello muestra I
X
() como el coeciente de (d)
2
en la medida aproximada
de la distancia entre las dos distribuciones. Cuando I
X
() es grande, una al-
teracin de d en el valor del parmetro da lugar a dos distribuciones muy
separadas, y cada observacin es muy informativa. El caso extremo contra-
rio se presentara cuando I
X
() fuera cero. Entonces, ambas distribuciones
seran (hasta trminos de segundo orden) iguales, y las observaciones de X
sera nulamente informativas (si los dos valores del parmetro, y
, dan lu-
gar a distribuciones idnticas, el observar los valores que toma X no permite
discriminar entre una y otra).
El argumento esbozado no depende de manera crtica de la medida de
discrepancia (,
=
n
i=1
log f
X
(X
i
, )
(5.16)
Tomando el valor medio del cuadrado de la expresin anterior, tenemos en el lado
izquierdo la informacin de Fisher correspondiente a la muestra X:
E
_
log f
X
(X; )
_
2
=
n
i=1
E
_
log f
X
(X
i
, )
_
2
+2
n
i=1
n
j=i+1
E
_
log f
X
(X
i
, )
_
E
_
log f
X
(X
j
, )
_
= nI
X
()
habida cuenta de que E
_
log f
X
(X
j
, )
_
= 0 (Lema 5.1, pg. 60).
Con ayuda de los lemas anteriores podemos ahora fcilmente probar el siguien-
te teorema.
Teorema 5.1 Sea
=
(X) un estimador del parmetro y () su valor medio,
() = E
_
. Entonces, bajo condiciones de regularidad,
Var
)
[
()]
2
E
_
log f
X
(x; )
_
2
(5.17)
DEMOSTRACION:
() =
(X)
_
=
_
(x)f
X
(x; )dx
=
_
(x)
f
X
(x; )dx
=
_
(x)
log f
X
(x; )
f
X
(x; )dx
= E
(X)
log f
X
(X; )
_
= E
_
(
(X) ())
log f
X
(X; )
_
5.3. INFORMACIN DE FISHER. COTA DE CRAMR-RAO 65
En el ltimo paso se ha tenido en cuenta (Lema 5.1, pg. 60) que
E
_
log f
X
(X, )
_
= 0.
Elevando al cuadrado la igualdad anterior tenemos:
_
()
2
=
_
E
_
(
(X) ())
log f
X
(X; )
__
2
(5.18)
E
_
(
(X) ())
2
_
E
_
log f
X
(X; )
_
2
(5.19)
= Var
) E
_
log f
X
(X; )
_
2
(5.20)
en que el resulta de aplicar la desigualdad de Schwarz a la expresin precedente.
Despejando Var
)
1
nI
X
()
(5.21)
Observacin 5.5 Por analoga con la denicin de informacin de Fis-
her sobre contenida en X, podemos denir informacin de Fisher sobre
contenida en
as:
I
() = E
_
log f
; )
_
2
Hagamos el cambio de variables X (,
) (siendo variables cualesquie-
ra, que, junto con
, permiten recuperar X; vase Cramr (1960), pg. 548 y
siguientes). Entonces:
f
X
(x; ) = f
|
([
; )f
; )
(,
)
x
y se tiene que:
log f
X
(X; )
=
log f
|
([
; )
+
log f
; )
_
log f
|
([
; )
_
2
+E
_
log f
; )
_
2
+2E
_
log f
|
([
; )
log f
; )
_
= E
_
log f
|
([
; )
_
2
+I
() (5.22)
ya que:
E
_
log f
|
([
; )
log f
; )
_
= E
_
E
|
_
log f
|
([
; )
log f
; )
__
= E
_
log f
; )
_
E
|
_
log f
|
([
; )
___
y el trmino en el corchete es cero (Lema 5.1, pg. 60). De (5.22) se despren-
de que I
() I
X
(), y que para que se verique la igualdad es necesario
que:
E
_
log f
|
([
; )
_
2
= 0 (5.23)
Ahora bien, (5.23) se verica siempre que
es un estadstico suciente (pues
entonces, condicionalmente en
, el resto de la muestra tiene distribucin
independiente de ).
Observacin 5.6 Relacionada con la observacin anterior, tenemos la
siguiente: si I
() = I
X
(), es decir, si
es suciente, la aplicacin del
Teorema 5.1 a la variable aleatoria
, supuesta insesgada, proporciona:
E
)
2
1
I
()
=
1
I
X
()
(5.24)
La ltima igualdad est garantizada por la suciencia, pero ello todava no
implica que el primer trmino y el ltimo sean iguales. La suciencia no
garantiza que un estimador alcance la cota de Cramr-Rao. Para que ello
ocurra es preciso, adems, que
E
)
2
=
1
I
()
. (5.25)
El Problema 5.2 proporciona una condicin necesaria y suciente (bajo con-
diciones de regularidad) para que ello ocurra.
5.4. EFICIENCIA 67
Examinemos a continuacin casos simples en que la cota de Cramr-Rao per-
mite concluir que estamos ante estimadores insesgados de mnima varianza entre
los que verican condiciones de regularidad.
Ejemplo 5.2 Consideremos X N(,
2
= 1). Vimos en el Ejem-
plo 5.1, pg. 60, que
log f
X
(X; )
=
n
i=1
(X
i
).
Tomando valor medio en dicha expresin,
I
X
() = E
_
log f
X
(X; )
_
2
= E
_
n
i=1
(X
i
)
_
2
= n
2
= n.
Por consiguiente, la varianza de cualquier estimador insesgado regular est
acotada inferiormente por I
X
()
1
= n
1
. Como quiera que Var(X) = n
1
e insesgado, tenemos que X es insesgado de mnima varianza regular.
Ntese que al mismo resultado se puede llegar a partir del teorema de
Rao-Blackwell sin requerir condiciones de regularidad: basta notar el carc-
ter de insesgado de X y que es funcin de un estadstico completo suciente.
Ejemplo 5.3 (cota de Cramr-Rao para el parmetro de una Poisson)
Sea X P
X
(x; ) = e
x
(x!)
1
. Entonces,
log P
X
(X; )
= 1 +
1
X
E
_
log P
X
(X; )
_
2
= E
_
X
1
1
_
2
= E
_
X
_
2
=
1
.
Por consiguiente, I
X
() =
1
y la cota de Cramr-Rao para cualquier
estimador
basado en n observaciones independientes es
Var(
)
1
n
1
=
n
.
Como quiera que X tiene varianza precisamente /n, concluimos que es
estimador insesgado de mnima varianza.
5.4. Eciencia
En relacin con la Observacin 5.4, tenemos la siguiente denicin.
Denicin 5.2 Se llama eciencia (o, a veces, eciencia de Bahadur) de un esti-
mador insesgado al cociente
1/I
X
()
Var(
)
68 CAPTULO 5. EFICIENCIA. LA COTA DE CRAMR-RAO.
Un estimador que alcance la cota de Cramr-Rao tiene pues eciencia 1; se dice
que es eciente.
Es preciso notar que la eciencia as denida no implica optimalidad en un sentido
demasiado amplio, y, de hecho, es quiz un nombre no muy afortunado. En efecto,
un estimador eciente es mejor slo:
En la clase de estimadores regulares insesgados.
Si adoptamos como funcin de prdida una mnimo cuadrtica (recurde-
se que, en cambio, el Teorema 4.3 proporcionaba estimadores insesgados
ptimos para cualquier funcin de prdida convexa y sin supuestos de regu-
laridad).
Es tambin interesante sealar que la nocin de eciencia surge de la compa-
racin de la varianza de un estimador insesgado con un ptimo optimorum (en la
clase de los estimadores regulares insesgados) que no tiene porqu ser alcanzable.
Puede as darse el caso de que un estimador sea ineciente de acuerdo con la deni-
cin anterior, y sin embargo no exista ninguno mejor en la clase de los insesgados.
El siguiente ejemplo lo pone de maniesto.
Ejemplo 5.4 (un estimador insesgado de varianza mnima que, sin em-
bargo, no alcanza la cota de Cramr-Rao para estimadores insesgados) Como
ejemplo de situacin descrita en la observacin anterior, puede tomarse el
siguiente (ver Romano y Siegel (1986), ejemplo 9.4). Consideremos de nue-
vo el Ejemplo 4.9 (pg. 55), que a su vez haca referencia al Ejemplo 3.8
(pg. 36). Nos plantebamos all el problema de estimar insesgadamente el
= e
=
_
1 si X = 0
0 en otro caso
vimos que era insesgado y de varianza mnima. Esta varianza es la de una
binaria de parmetro = e
, es decir, e
(1 e
). En trminos de , la
funcin de cuanta de X es:
P
X
(x; ) =
(log )
x
x!
y el clculo de la cota de Cramr-Rao es simple:
log P
X
(X; )
=
1
+X
(log )
(log )
=
1
+X
(1/)
log
=
1
_
log +X
log
_
5.4. EFICIENCIA 69
Por tanto:
I
X
() = E
_
log P
X
(X; )
_
2
=
1
2
E
_
X
_
2
=
1
2
E(X )
2
=
1
)
2
2
1
=
e
2
1
Fcilmente se comprueba que e
(1 e
) > e
2
(viendo que las fun-
ciones a ambos lados de la desigualdad toman el valor 0 cuando = 0 y
que la derivada del lado izquierdo es mayor que la del lado derecho). La cota
de Cramr-Rao no es por tanto alcanzable en este caso por ningn estimador
insesgado.
En el mismo espritu que la Denicin 5.2 tenemos la siguiente.
Denicin 5.3 Se llama eciencia relativa de un estimador
1
respecto a otro
2
al cociente
Var(
2
)
Var(
1
)
.
Las eciencias, relativas o no, pueden variar con el tamao muestral, por lo que en
ocasiones se recurre a especicarlas para muestras muy grandes. Ello da lugar a
las nociones de eciencia asinttica y eciencia asinttica relativa, que encontra-
remos en la Seccin 6.5.
Ejemplo 5.5 (eciencia relativa de varios estimadores de en una dis-
tribucin U(0, 2)) Consideremos de nuevo el caso de una distribucin uni-
forme U(0, 2). Dada una m.a.s. X
1
, . . . , X
n
procedente de esta distribucin
hemos visto que X
(n)
es suciente (Ejemplo 3.7, pg. 34), completo (Ejem-
plo 3.19, pg. 43) y puede dar lugar, mediante la oportuna correccin de su
sesgo, a un estimador insesgado de mnima varianza de ,
=
n + 1
2n
X
(n)
,
(Ejemplo 4.7, pg. 53). Examinemos ahora la eciencia relativa de
1
= X.
Ambos estimadores
y
1
son insesgados. La varianza del segundo es
Var(
1
) = n
2
n
i=1
Var(X
i
) = n
2
n
i=1
(2 0)
2
12
=
2
3n
.
70 CAPTULO 5. EFICIENCIA. LA COTA DE CRAMR-RAO.
La varianza de
se calcula tambin con facilidad. Tenemos
E
_
2
_
=
_
n + 1
2n
_
2
_
2
0
n
n+1
(2)
n
d
= (n + 1)
2
(n + 2)
1
2
;
la varianza de
es por tanto
Var(
) = (n + 1)
2
(n + 2)
1
2
=
2
n(n + 2)
.
Comparando, vemos que el estimador
tiene varianza igual (cuando n = 1)
menor, y tanto menor cuanto mayor es n. De hecho, la varianza de
tiende
a cero con orden O(n
2
), mientras que la de
1
tiende a cero linealmente.
La eciencia relativa de
1
respecto de
es
Ef.rel.(
1
;
) =
n
1
(n + 2)
1
2
(3n)
1
2
=
3
n + 2
.
Ejemplo 5.6 (cuando fallan las condiciones de regularidad, la varian-
za de un estimador puede descender por debajo de la cota de Cramr-Rao)
En el Ejercicio 5.5 se ha calculado la varianza del estimador insesgado de
mnima varianza. Podemos ahora comprobar que dicha varianza es inferior a
la cota que resultara de una aplicacin mecnica (e incorrecta) de la cota de
Cramr-Rao.
En efecto:
f
X
(X; ) =
_
(2)
1
si 2 > X
(n)
,
0 en otro caso,
log f
X
(X, )
=
_
1/ si 2 > X
(n)
,
0 en otro caso.
Hay que sealar que la derivada no existe en el punto anguloso = X
(n)
. Si
ahora calculamos la informacin de Fisher, obtenemos:
I
X
() =
_
2
0
_
_
2
1
2
dx =
1
2
.
Por consiguiente, la cota de Cramr-Rao dara
Var(
)
1
n
2
=
2
n
,
mientras que en el Ejemplo 5.5 hemos comprobado que el estimador inses-
gado ptimo tiene varianza
2
n
1
(n + 2)
1
.
La razn por la que la desigualdad de Cramr-Rao no es de aplicacin
aqu, es que fallan las condiciones de regularidad. En efecto,
_
f
X
(x, )dx = 0,
mientras que
_
f
X
(x, )dx =
_
dx =
_
1
2
dx ,= 0.
5.4. EFICIENCIA 71
CUESTIONES, COMPLEMENTOS Y COSAS PARA HACER
5.1 Demustrese que la expresin (5.14), pg. 63, propuesta como dis-
tancia entre f
X
(x,
0
) y f
X
(x,
)
log f
X
(x; )
.
(Garthwaite et al. (1995), pg. 14)
5.3 Completando el problema anterior, verifquese que bajo condicio-
nes de regularidad, un estimador insesgado alcanza la cota de Cramr-Rao si,
y slo si,
(
) = I
X
()
1
log f
X
(x; )
.
5.4 Sea una distribucin de Poisson con funcin de cuanta P
X
(x; ).
Haciendo uso de que E[X(X 1)] =
2
, obtngase:
1. El mejor estimador insesgado de
2
basado en una nica observacin
X.
2. El mejor estimador insesgado de
2
basado en n observaciones.
5.5 Sea X
1
, . . . , X
n
una m.a.s. procedente de una distribucin N(,
2
).
Comprubese que S
2
= (n 1)
1
n
i=1
(X
i
N)
2
no alcanza la cota de
Cramr-Rao, pero la diferencia entre su varianza y dicha cota tiende hacia
cero cuando n .
72 CAPTULO 5. EFICIENCIA. LA COTA DE CRAMR-RAO.
Captulo 6
Mxima verosimilitud
6.1. La lgica mximo verosmil
En (Trocniz, 1987, pg. 214) se propone el siguiente ejemplo:
Supongamos que se dispone de tres urnas simbolizadas por
U
4
=
_
4 bolas blancas
96 bolas negras
U
50
=
_
50 bolas blancas
50 bolas negras
U
99
=
_
99 bolas blancas
1 bolas negras
y que nos presentan una muestra de cuatro bolas tomadas de una de
las urnas U
4
, U
50
U
99
; las cuatro bolas resultaron ser blancas.
Con cierta lgica, si debiramos emitir un juicio sobre la urna de
procedencia nos inclinaramos por U
99
, pues es grande la probabilidad
de que esta urna proporcione una muestra de cuatro bolas blancas, y
pequea la probabilidad en las urnas U
4
y U
50
. [. . .] La lgica que
contiene esta forma de decidir es la lgica de la mxima verosimili-
tud.
Es lo cierto que difcilmente alguien podra, confrontado con el mismo pro-
blema, resolver de diferente modo. Ello dice mucho de la fuerte base intuitiva que
subyace a la lgica de la mxima verosimilitud.
73
74 CAPTULO 6. MXIMA VEROSIMILITUD
Examinemos algunas cuestiones de inters, y tratemos de racionalizar el com-
portamiento que parece tan intuitivamente correcto. En primer lugar, podemos pen-
sar en las urnas como estados de la Naturaleza que generan observables. Ello nos
devuelve al marco de la teora esbozada en captulos anteriores.
Si las bolas sacadas hubieran sido cinco, y las cinco blancas, ello hara de in-
mediato descartable la urna U
4
. No podemos considerar un estado de la Naturaleza
como plausible si es incapaz de generar la evidencia que hemos observado. Ob-
servemos que la lgica mximo verosmil va un paso ms all, y permite manejar
casos en que la conclusin no puede alcanzarse con absoluta certeza. No es im-
posible que la urna U
4
genere cuatro bolas blancas en un muestreo, pero si muy
raro; y por lo tanto adoptamos como estado de la Naturaleza otro (en el ejemplo
propuesto, U
99
) que genera la evidencia observada con mayor facilidad. Podemos
pues ver la lgica mximo verosmil como una extensin de la lgica ordinaria que
nos obliga a excluir hiptesis o explicaciones que no dan cuenta de lo observado.
Observemos tambin que, en un sentido vago e impreciso, que ser perlado
en el Captulo 9, la lgica mximo verosmil conduce a escoger el estado de la
Naturaleza o hiptesis explicativa menos compleja. El razonamiento subyacente
al enfrentarnos al ejemplo de las tres urnas es: Por qu habramos de aceptar
que la urna generadora de las cuatro bolas blancas es U
4
que slo rarsimamente
genera cuatro bolas blancas cuando la urna U
99
genera el mismo observable con
gran frecuencia? Por qu admitir que ha ocurrido algo muy raro cuando hay una
explicacin alternativa que lo hace frecuente?
En otras palabras, lo que hacemos es escalafonar los posibles estados de la Na-
turaleza, considerando ms complejos (y por ello menos deseables) a aqullos
que ms raramente generan evidencia como la observada. Veremos (en el Cap-
tulo 9) que esta intuicin se puede precisar considerablemente en una nocin de
complejidad.
En parte por su atrayente contenido intuitivo y en parte por las buenas propieda-
des asintticas de que disfruta, el mtodo de estimacin mximo verosmil alcanz
enseguida una enorme popularidad. En lo que sigue se examinan las propiedades
asintticas del estimador, destacando que las mismas no siempre se trasladan a
pequeas muestras, donde el estimador MV puede ser marcadamente ineciente.
6.2. Verosimilitud y estimacin mximo verosmil.
Sea f
X
(X; ) la funcin de densidad conjunta de una muestra X = X
1
, . . . , X
n
.
Si consideramos ja la muestra en los valores observados, tenemos una funcin
f
X
(x; ) de llamada funcin de verosimilitud. Proporciona la densidad (o cuan-
ta en el caso de variables aleatorias discretas) que correspondera a la muestra ja
considerada bajo cada posible valor de .
Ejemplo 6.1 Sea una muestra aleatoria simple (X
1
, . . . , X
n
) proce-
dente de una distribucin N(,
2
0
), de la que se conoce la varianza
2
0
. Fija-
6.2. VEROSIMILITUD Y ESTIMACIN MXIMO VEROSMIL. 75
dos en el muestreo los n valores (x
1
, . . . , x
n
), la verosimilitud es:
f
X
(x; ) =
_
1
2
_
n
exp
_
1
2
2
0
n
i=1
(x
i
)
2
_
(6.1)
Como funcin de , es una distribucin normal con varianza
2
0
centrada
sobre x.
Figura 6.1: Verosimilitud asociada a una muestra (x
1
, . . . , x
17
), cuando X es bi-
naria de parmetro y
17
i=1
x
i
= 12.
0.0 0.2 0.4 0.6 0.8 1.0
0
.
0
e
+
0
0
5
.
0
e
0
6
1
.
0
e
0
5
1
.
5
e
0
5
2
.
0
e
0
5
2
.
5
e
0
5
3
.
0
e
0
5
3
.
5
e
0
5
1
2
(
1
)
1
7
1
2
Ejemplo 6.2 Sea una muestra aleatoria simple (X
1
, . . . , X
n
) proce-
dente de una distribucin binaria de parmetro . Sea s = x
1
+. . . +x
n
. La
funcin de cuanta conjunta es:
P
X
(x; ) =
_
n
s
_
s
(1 )
ns
(6.2)
Como funcin de , su forma es la que muestra la Figura 6.1. El mximo se
alcanza sobre s/n (que en el caso representado en la Figura 6.1 es 12/17).
Denicin 6.1 Llamamos estimador mximo verosmil
MV
del parmetro en la
familia de distribuciones f
X|
(x[), a
MV
def
= arg max
f
X|
(x[).
76 CAPTULO 6. MXIMA VEROSIMILITUD
Puede ocurrir que
MV
no est unvocamente denido. Cuando necesitemos enfati-
zar la dependencia de
MV
del tamao muestral escribiremos
MV,n
.
Se sigue inmediatamente de la Denicin 6.1 que si
MV
es el estimador m-
ximo verosmil de y g(.) es cualquier funcin 1-1 de , entonces g(
MV
) es el
estimador mximo verosmil de g() (Ejercicio 6.3).
Observacin 6.1 Es de inters comprobar que, como cabe esperar de
cualquier estimador sensato, si hay un estadstico suciente S = S(X)
para y
MV
es nico, entonces
MV
= (S). En efecto, como consecuencia
del teorema de factorizacin (Teorema 3.3, pg. 37),
f
X
(x; ) = g
S
(s, )h(x)
Como funcin de , dada x, f
X
(x; ) tiene un perl idntico al de g
S
(s, );
h(x) es un mero factor de escala. Por tanto, f
X
(x; ) alcanza su mximo
dondequiera que g
S
(s, ) alcance el suyo. Este ltimo depende de x slo a
travs de s, y por tanto,
MV
ha de ser funcin de s solamente. Si
MV
no es
nico, cabra imaginar un estimador mximo verosmil que no dependera de
la muestra slo a travs de s: vase Romano y Siegel (1986), Ejemplo 8.13,
o Levy (1985).
Observacin 6.2 Relacionada con la anterior observacin est la si-
guiente: si hay un estadstico suciente y el estimador mximo verosmil es
nico, entonces ste no puede ser mejorado con ayuda del mtodo de Rao-
Blackwell. En efecto: de acuerdo con la observacin precedente, el estima-
dor MV en este caso sera una funcin unvoca del estadstico suciente, y
el condicionar sobre el valor que toma ste nos dara de nuevo el estimador
MV.
Observacin 6.3 En ocasiones se dice que el estimador mximo ve-
rosmil extrae cuanta informacin hay en la muestra, lo que sugiere una
especie de suciencia automtica. Esto es frecuentemente, pero no necesa-
riamente, cierto. Es cierto cuando el estimador MV es funcin 1 1 de un
estadstico suciente (en cuyo caso es suciente; vase Seccin 3.2). Pero
ste no tiene porqu ser necesariamente el caso. Consideremos de nuevo el
ejemplo propuesto en la Observacin 3.2, pg. 41. La verosimilitud era
f
T,U
(t, u) =
d
exp
_
_
_
_
_
d
i=1
t
i
+
N
j=d+1
u
j
_
_
_
_
_
.
Se puede comprobar que el estimador mximo verosmil es
MV
=
d
d
i=1
t
i
+
N
j=d+1
u
j
.
Fcilmente se ve que
MV
no es suciente; un mismo valor de
MV
es com-
patible con multitud de valores del estadstico (2-dimensional) suciente
(d, (
t
i
+
u
j
)).
6.3. CONSISTENCIA FUERTE DEL ESTIMADOR MXIMO VEROSMIL.77
6.3. Consistencia fuerte del estimador mximo verosmil.
Decimos que un estimador
n
basado en una muestra de tamao n es consis-
tente para el parmetro si:
n
p
. Decimos que es fuertemente consistente si
la convergencia anterior es casi segura:
n
c.s.
.
El lema a continuacin hace uso de la desigualdad de Jensen para establecer
un resultado instrumental.
Lema 6.1 Supongamos que f
X
(x;
) = f
X
(x;
0
) (salvo acaso sobre un conjun-
to de medida nula) slo cuando
=
0
. Sea
0
el verdadero valor del parmetro
. Entonces,
E
0
_
log
f
X
(X;
)
f
X
(X;
0
)
_
< log E
0
_
f
X
(X;
)
f
X
(X;
0
)
_
= 0. (6.3)
DEMOSTRACION:
Como log() es una funcin estrictamente cncava, la desigualdad es conse-
cuencia directa de la de Jensen. La nulidad del lado derecho es tambin fcil de
establecer. En efecto,
log E
0
_
f
X
(X;
)
f
X
(X;
0
)
_
= log
_
f
X
(x;
0
)
f
X
(x;
)
f
X
(x;
0
)
dx
= log
_
f
X
(x;
)dx
= log(1) = 0;
si la distribucin fuera discreta, las integrales se convertiran en sumatorios.
Teorema 6.1 En las condiciones bajo las que se verica el Lema anterior,
MV
c.s.
0
.
DEMOSTRACION:
Como
E
0
_
log
f
X
(X;
)
f
X
(X;
0
)
_
= c < 0
segn el Lema anterior, en virtud de la ley fuerte de grandes nmeros (A.3) tenemos
que para todo
,=
0
,
1
n
n
i=1
_
log
f
X
(X
i
;
)
f
X
(X
i
;
0
)
_
c.s.
c < 0
Prob
_
lm
n
1
n
n
i=1
log
_
f
X
(X
i
;
)
f
X
(X
i
;
0
)
_
< 0
_
= 1
Prob
_
lm
n
1
n
n
i=1
log f
X
(X
i
;
) < lm
n
1
n
n
i=1
log f
X
(X
i
;
0
)
_
= 1
78 CAPTULO 6. MXIMA VEROSIMILITUD
Sin embargo, de acuerdo con la denicin de
MV
, ha de suceder:
lm
n
1
n
n
i=1
log f
X
(X
i
,
MV,n
) lm
n
1
n
n
i=1
log f
X
(X
i
;
0
)
Las dos desigualdades anteriores slo pueden reconciliarse si
MV,n
c.s.
0
, lo que
prueba la consistencia fuerte del estimador MV.
6.4. Informacin de Kullback-Leibler y estimacin mxi-
mo verosmil
Hay una relacin interesante entre la estimacin mximo verosmil y la infor-
macin de Kullback-Leibler. La ilustraremos mediante un caso muy simple.
Supongamos que =
0
,
1
, y que la variable aleatoria X se distribuye
segn F
X
(x;
i
), i = 0 1. Llamamos informacin en una observacin X para
discriminar entre
0
y
1
a:
log
_
f
X
(X;
1
)
f
X
(X;
0
)
_
(6.4)
Observemos que si X = x tuviera exactamente la misma densidad bajo
0
que
bajo
1
, la observacin en cuestin carecera de informacin a efectos de discri-
minar entre ambos estados de la naturaleza, y (6.4) sera cero. El caso opuesto se
presenta cuando la densidad bajo un estado y otro es muy diferente: en este caso,
la observacin podra considerarse como muy informativa acerca del estado de la
naturaleza, y (6.4) sera grande en valor absoluto.
Una medida razonable de la separacin entre F
X
(x;
0
) y F
X
(x;
1
) podra
ser la informacin media que proporciona una observacin:
d(
0
,
1
) =
_
f
X
(x;
0
) log
_
f
X
(x;
1
)
f
X
(x;
0
)
_
dx (6.5)
o, en el caso de variables discretas:
d(
0
,
1
) =
P
X
(x,
0
) log
_
P
X
(x,
1
)
P
X
(x,
0
)
_
(6.6)
Llamamos a (6.5)-(6.6) informacin de Kullback-Leibler para la discriminacin
entre
0
y
1
contenida en una observacin. De nuevo, obsrvese que se trata de
una denicin intuitivamente plausible. En particular, si f
X
(x;
0
) = f
X
(x;
1
)
para todo valor x tendramos que d(
0
,
1
) = 0, y sera imposible discriminar.
6.5. EFICIENCIA Y EFICIENCIA ASINTTICA 79
Observacin 6.4 La informacin de Kullback-Leibler esta relaciona-
da con la de Fisher, que puede verse como una aproximacin de segundo
orden: vase la Observacin 5.2, pg. 62.
Observacin 6.5 La expresin (6.5) toma valor no negativo (mismo
argumento que el empleado en el Lema 6.1) y puede verse por ello como
una medida de separacin o distancia. No es sin embargo simtrica en sus
argumentos, a diferencia de una distancia.
Es interesante ver el problema de estimacin mximo verosmil como un problema
de seleccin de una distribucin en una familia paramtrica, F
X
(x; ), .
Razonemos sobre el caso en que X es una variable aleatoria discreta.
La muestra (x
1
, . . . , x
n
) puede verse como generando una distribucin emp-
rica F
X
(x), que atribuye probabilidad 1/n a cada uno de los valores muestrales
observados ( k/n a aqullos que se han repetido k veces). Es decir,
F
X
(x) =
(Total observaciones x)
n
.
De aqu podemos obtener
P
X
(x) = F
X
(x) F
X
(x
).
Podramos pensar en estimar seleccionando en la clase paramtrica F
X
(x; ),
aquella distribucin que minimiza la distancia de Kullback-Leibler a la distri-
bucin emprica observada, es decir, que minimiza:
i=1
P
X
(x
i
) log
P
X
(x
i
; )
P
X
(x
i
)
=
n
i=1
P
X
(x
i
) log
P
X
(x
i
)
P
X
(x
i
; )
=
n
i=1
1
n
log
1/n
P
X
(x
i
; )
=
1
n
n
i=1
log
1
n
1
n
n
i=1
log P
X
(x
i
; )
Como el primer sumando del lado derecho es constante, la minimizacin de la
expresin anterior llevara a hacer mximo
n
i=1
log P
X
(x
i
; ) lo que da lugar al
estimador mximo verosmil de .
6.5. Eciencia y eciencia asinttica
Vimos (Teorema 5.1, pg. 64) que un estimador
n
insesgado de basado en
una muestra aleatoria simple formada por n observaciones tena su varianza acota-
da inferiormente:
Var
n
)
1
nI
X
()
(6.7)
80 CAPTULO 6. MXIMA VEROSIMILITUD
y decamos que
n
es eciente (Denicin 5.2, pg. 68) si la relacin anterior se
verica con igualdad. Es claro que un estimador eciente no puede ser mejorado
(en trminos de varianza) por ningn otro en la clase de los insesgados regulares,
pues el que lo hiciera violara (6.7).
Consideremos una sucesin estimadora
n
cada uno de cuyos trminos es-
tima insesgadamente , y supongamos que se dan las condiciones de regularidad
necesarias. Entonces, (6.7) se verica para cada
n
, n = 1, 2, . . ., y Var
n
)
(, equivalentemente, Var
n[
n
]) = nVar
n
)) ha de ser mayor o igual
que 1/I
X
(). Cabra esperar que si
n[
n
]
L
N(0, v()),
en que
L
designa convergencia en distribucin (Denicin A.1, p. 144), la va-
rianza de la distribucin asinttica vericase:
v()
1
I
X
()
(6.8)
Este no es el caso. La aparente paradoja se desvanece cuando observamos que
la varianza asinttica (= varianza de la distribucin asinttica) no necesariamente
tiene mucho que ver con el lmite de la sucesin de varianzas. El siguiente ejemplo
lo ilustra.
Ejemplo 6.3 Sea Y
n
una sucesin de variables aleatorias indepen-
dientes e idnticamente distribuidas como N(0, 1), y X
n
una sucesin de
variables aleatorias denidas as:
X
n
=
_
Y
n
con probabilidad 1
1
n
,
n con probabilidad
1
n
Entonces, es evidente que X
n
L
X, siendo X una variable N(0, 1), la me-
dia asinttica es 0 y la varianza asinttica 1. Sin embargo:
E[X
n
] = 0
_
1
1
n
_
+n
1
n
= 1
Var(X
n
) = E[X
2
n
] (E[X
n
])
2
=
_
1
1
n
_
1 +n
2
1
n
1
2
=
_
n
1
n
_
Mientras que la media y varianza de la distribucin asinttica son respectiva-
mente 0 y 1, los lmites de la sucesin de medias y varianzas son:
lm
n
E[X
n
] = 1
lm
n
Var(X
n
) =
En general, se verica (vase Lehmann (1983), pg. 405) que la varianza
asinttica es menor o igual que el lmite inferior de la sucesin de varianzas.
6.6. NORMALIDADYEFICIENCIAASINTTICADELESTIMADORMXIMOVEROSMIL.81
El ejemplo anterior muestra que lmite de la sucesin de varianzas y varianza
asinttica no tienen por qu coincidir. Una sucesin estimadora todos cuyos tr-
minos alcanzan la correspondiente cota de Cramr-Rao, podra dar lugar a una va-
rianza asinttica menor que la que se deducira de dicha cota. De nuevo un ejemplo
aclara la situacin.
Ejemplo 6.4 Sea X
1
, . . . , X
n
una muestra formada por observaciones
N(, 1), y consideremos el siguiente estimador de :
n
=
_
X si [X[ n
1/4
,
bX si [X[ < n
1/4
.
(6.9)
Entonces encontramos la siguiente situacin:
n
se distribuye asintticamen-
te como N(,
2
=
1
n
), salvo si = 0. En este ltimo caso, la distribucin
asinttica es N(0, b
2
/n), lo que mejora la varianza de X si b
2
< 1. Tenemos
un estimador de tan bueno como X que sabemos insesgado de mnima
varianza, y alcanzando la cota de Cramr-Rao pero asintticamente mejor
para algunos valores del parmetro! En este caso, para = 0. En efecto:
n[
n
0] converge en distribucin a una variable aleatoria Z tal que:
Var(Z) = b
2
< 1 =
1
I()
El punto = 0 en que el estimador considerado ve su varianza asinttica
decrecer por debajo de 1/I() se dice que es de supereciencia. Este ejemplo
se debe a J. Hodges (ver Romano y Siegel (1986), pg. 229).
La existencia de puntos de supereciencia, en que la varianza asinttica de un
estimador regular puede descender por debajo de la cota de Cramer-Rao, es un
fenmeno sin mayor inters prctico. En realidad, (6.8) casi es cierta, en el sentido
de que el conjunto de puntos para los cuales no se verica es de medida de
Lebesgue cero. Por otra parte, el comportamiento supereciente para algunos va
siempre asociado a un comportamiento no eciente en la vecindad de los mismos
(ver Lehmann (1983), p. 408).
6.6. Normalidad y eciencia asinttica del estimador m-
ximo verosmil.
En condiciones bastante generales, el estimador MV no slo es fuertemente
consistente, sino que su distribucin asinttica es normal. El siguiente resultado,
cuya demostracin meramente bosquejamos, muestra las condiciones necesarias
para ello.
Teorema 6.2 Sean (X
1
, . . . , X
n
) independientes e idnticamente distribuidas, con
densidad comn f
X
(x; ). Supongamos que se verican las siguientes condiciones
de regularidad:
82 CAPTULO 6. MXIMA VEROSIMILITUD
1. El espacio paramtrico es un intervalo abierto no necesariamente nito
.
2. Las funciones de densidad f
X
(x; ) tienen soporte comn, que no depende
de .
3. Las funciones de densidad f
X
(x; ) son tres veces diferenciables respecto a
para cada x, y las derivadas son continuas en .
4. La integral
_
f
X
(x; )dx puede ser diferenciada dos veces bajo el smbolo
integral.
5. La informacin de Fisher verica 0 < I() < .
6. La tercera derivada de log f
X
(x; ) respecto a est acotada superiormente
por una funcin M(x) tal que E
0
[M(x)] < .
Entonces, cualquier sucesin consistente
n
de soluciones de la ecuacin de vero-
similitud (y el estimador mximo verosmil proporciona una) satisface:
n(
n
0
)
L
N(0, I(
0
)
1
) (6.10)
DEMOSTRACION:
Designemos, para aligerar la notacin,
U
j
() =
log f
X
(X
j
, )
(6.11)
Desarrollando
n
j=1
U
j
(
MV,n
) en torno a
0
, obtenemos:
n
j=1
U
j
(
MV,n
) =
n
j=1
U
j
(
0
) +
n
j=1
U
j
(
0
)(
MV,n
0
)
+
1
2
n
j=1
U
j
(
)(
MV,n
0
)
2
(6.12)
en que
es un punto intermedio entre
MV,n
y
0
, es decir, [
0
[ < [
MV,n
0
[.
Pero
MV,n
, bajo condiciones de regularidad, anula el lado izquierdo de (6.12).
Por tanto, tenemos que:
n
j=1
U
j
(
0
) =
n
j=1
U
j
(
0
)(
MV,n
0
)
1
2
n
j=1
U
j
(
)(
MV,n
0
)
2
(6.13)
Sabemos (Lema 5.1, pg. 60) que E
0
[U
j
(
0
)] = 0. Por otra parte,
E
0
[U
j
(
0
)] = E
0
[U
j
(
0
)]
2
= I(
0
)
6.6. NORMALIDADYEFICIENCIAASINTTICADELESTIMADORMXIMOVEROSMIL.83
(Lema 5.2, pg. 61 y denicin inmediatamente posterior). Dividiendo (6.13) entre
_
nI(
0
) tenemos la igualdad:
n
j=1
U
j
(
0
)
_
nI(
0
)
=
_
nI(
0
)(
MV,n
0
)
_
n
j=1
U
j
(
0
)
nI(
0
)
1
2
n
j=1
U
j
(
)
nI(
0
)
(
MV,n
0
)
_
(6.14)
Los Lemas invocados y el teorema central del lmite muestran que el lado izquierdo
de (6.14) converge en distribucin a una N(0, 1), y el primer trmino del corchete
converge en probabilidad a 1 (ley dbil de los grandes nmeros, Teorema A.2).
Como U
j
(
MV,n
p
0
, el
segundo trmino del corchete converge en probabilidad a cero. En consecuencia,
reescribiendo (6.14) as:
_
nI(
0
)(
MV,n
0
) =
n
j=1
U
j
(
0
)
_
nI(
0
)
_
n
j=1
U
j
(
0
)
nI(
0
)
1
2
n
j=1
U
j
(
)
nI(
0
)
(
MV,n
0
)
_
1
vemos que
_
nI(
0
)(
MV,n
0
) es el producto de una sucesin aleatoria que
converge en probabilidad a 1 y una sucesin aleatoria que converge en distribucin
a una N(0, 1). El Teorema A.1 permite entonces asegurar
_
nI(
0
)(
MV,n
0
)
L
N(0, 1)
que equivale a (6.10) en el enunciado del teorema.
Observacin 6.6 Si g(.) es funcin 1-1 de se ha mencionado ya que
el estimador mximo verosmil de g() es g(
MV
). Supongamos adems que
para el verdadero valor del parmetro,
0
, se verica que g
(
0
) ,= 0. Enton-
ces el teorema anterior admite la siguiente generalizacin:
n(g(
MV
g(
0
))
L
N(0, I(
0
)
1
[g
(
0
)]
2
).
La demostracin es muy simple y se bosqueja a continuacin. Desarrollando
en serie g(
MV
) hasta trminos de primer orden,
g(
MV
) = g(
0
) + (
MV
0
) [g
(
0
) +R
n
] ,
en que R
n
es el trmino complementario. Pero R
n
p
0 cuando
MV
p
0
. Por
consiguiente, siempre en uso del Teorema A.1, tenemos:
n(g(
MV
) g(
0
))
L
g
(
0
)
n(
MV
0
)
84 CAPTULO 6. MXIMA VEROSIMILITUD
y por tanto
n(g(
MV
) g(
0
))
L
g
(
0
)N(0, I(
0
)
1
)
equivalente a la tesis.
6.7. Estimacin mximo verosmil: inconvenientes
El desarrollo anterior muestra la estimacin mximo verosmil desde una pers-
pectiva muy favorable. No slo es consistente cualidad compartida con muchos
otros tipos de estimadores, y ciertamente con cualquiera que estemos dispuestos a
considerar, sino tambin asintticamente eciente. Su distribucin asinttica es
normal sea cual fuere la de la poblacin muestreada. Estas propiedades se verican
de modo bastante general, como los enunciados de los teoremas anteriores dejan
traslucir.
Es importante ver, sin embargo, que se trata de propiedades que operan en
grandes muestras. En pequeas muestras, el comportamiento del estimador mxi-
mo verosmil puede ser bastante pobre. En ocasiones, la obtencin del estimador
mximo verosmil puede ser computacionalmente infactible. En otras, puede sen-
cillamente no existir un mximo de la funcin de verosimilitud. Los ejemplos y
observaciones que siguen tienen por objeto mostrar tales problemas en algunas
situaciones. Ilustran algunos de los inconvenientes con que se puede tropezar al
emplear estimadores mximo verosmiles.
Ejemplo 6.5 (un estimador mximo verosmil de inviable utilizacin
prctica) Consideremos una variable aleatoria X con distribucin de Cauchy
y parmetro de localizacin . La verosimilitud asociada a una muestra de
tamao n es:
f
X
(x; ) =
n
i=1
1
1
1 + (x
i
)
2
Tomando logaritmos, derivando, e igualando la derivada a cero, tenemos:
log f
X
(x; )
=
n
i=1
2(x
i
)(1)
1 + (x
i
)
2
(6.15)
= 2
n
i=1
(x
i
)
j=i
_
1 + (x
j
)
2
n
j=1
[1 + (x
j
)
2
]
(6.16)
= 0 (6.17)
El estimador mximo verosmil
MV,n
ha de hacer que la igualdad anterior se
verique. Obsrvese que el numerador que ha de anularse es un polino-
mio de grado 2n 1. La bsqueda de todas sus races para seleccionar entre
ellas
MV,n
es infactible a poco grande que sea n.
En ocasiones, el estimador mximo verosmil no existe, porque la verosimilitud
no est acotada. Un caso trivial sera el de una variable aleatoria X N(,
2
),
6.7. ESTIMACIN MXIMO VEROSMIL: INCONVENIENTES 85
de la que tenemos una nica observacin. Si quisiramos estimadores mximo ve-
rosmiles de y
2
, habramos de maximizar:
log f
X
(x; ,
2
) =
1
2
log(2
2
)
(x )
2
2
2
Esta funcin no est acotada: tiende a cuando
2
0.
El caso anterior es irrelevante a efectos prcticos, dado que nunca nos pro-
pondramos estimar los dos parmetros de una distribucin normal con una sla
observacin. Sin embargo, el siguiente ejemplo muestra que situaciones similares
son plausibles en la prctica.
Ejemplo 6.6 (funcin de verosimilitud no acotada) Supongamos una
situacin en que la variable aleatoria aleatoria X sigue habitualmente una
distribucin N(, 1). Sin embargo, con probabilidad p, X puede proceder de
una distribucin N(,
2
), con varianza desconocida. La descripcin ante-
rior podra convenir, por ejemplo, a un fenmeno en que la variable X est
sujeta espordicamente a cambios de rgimen, dando lugar a outliers, u ob-
servaciones anmalas. La funcin de verosimilitud sera:
f
X
(x; ,
2
) =
n
i=1
1
2
_
p
exp
_
(x
i
)
2
2
2
_
+ (1 p) exp
_
(x
i
)
2
2
__
Observemos que dicho producto involucra trminos que no estn acotados.
En efecto, consideremos un trmino tal como
p
exp
_
(x
i
)
2
2
2
_
n
j=1
j=i
(1 p) exp
_
(x
j
)
2
2
_
;
es fcil ver que para = x
i
la expresin anterior crece sin lmite cuan-
do 0. Por tanto, incluso aunque tengamos muchas observaciones y la
probabilidad p sea muy pequea, el problema de inexistencia de un mxi-
mo global para la funcin de verosimilitud puede presentarse. Vase Cox y
Hinkley (1974), pg. 291.
En ocasiones, el estimador mximo verosmil existe, pero con pequeas mues-
tras puede ser de muy pobres resultados. El siguiente ejemplo, algo articial si se
quiere, lo muestra de un modo bastante espectacular.
Ejemplo 6.7 (un estimador mximo verosmil inadmisible) Conside-
remos una variable aleatoria X binaria de parmetro . Sabemos que
(
1
3
,
2
3
), y hemos de estimar dicho parmetro con ayuda de una nica obser-
vacin. La verosimilitud tendra por expresin:
f
X
(x, ) =
x
(1 )
(1x)
(x = 0, 1)
Con constreida a estar en el intervalo indicado anteriormente, el estimador
mximo verosmil es:
MV,n
=
_
1
3
si x = 0,
2
3
si x = 1
86 CAPTULO 6. MXIMA VEROSIMILITUD
y su error cuadrtico medio resulta ser:
E[
MV,n
]
2
=
_
2
3
_
2
+ (1 )
_
1
3
_
2
=
3
2
3 + 1
9
(6.18)
Consideremos ahora un estimador que ignora el valor tomado por X y atri-
buye siempre a el valor
1
2
. Su error cuadrtico medio sera:
E
_
1
2
_
2
=
_
1
2
_
2
+ (1 )
_
1
2
_
2
=
4
2
4 + 1
4
(6.19)
Efectuando la diferencia (6.18)-(6.19) vemos que es
24
2
+ 24 5
36
.
Examinando esta funcin se comprueba que en el intervalo (
1
3
,
2
3
) es siem-
pre positiva; el estimador mximo verosmil resulta dominado incluso por
uno que, como el propuesto, lejos de hacer uso ptimo de la informacin
muestral, no hace ningn uso.
El valor de que maximiza la verosimilitud no tiene porqu ser nico.
Ejemplo 6.8 Consideremos una distribucin uniforme U(
1
2
, +
1
2
),
de la que tomamos una muestra X
1
, . . . , X
n
. Es fcil ver que cualquier valor
[X
(n)
1, X
(1)
+1] da lugar al mismo valor de la verosimilitud (= 1), y
por tanto es igualmente vlido como estimador mximo verosmil.
Menos simple, pero ms frecuente en la prctica, es el caso de mlti-
ples mximos locales y/o globales en la funcin de verosimilitud. Vase el
Ejercicio 6.1.
El estimador mximo verosmil es frecuentemente sesgado en pequeas mues-
tras, aunque asintticamente insesgado bajo las condiciones de regularidad que
otorgan vigencia al Teorema 6.2.
Ejemplo 6.9 Consideremos el problema de estimar en una distribu-
cin uniforme, U(0, ), con ayuda de una muestra de tamao n. El estadstico
suciente y estimador mximo verosmil de es X
(n)
, mayor de las obser-
vaciones (vase el Ejemplo 3.7, pg. 3.7). Es evidente que X
(n)
y como
estimador de es por tanto sesgado por defecto.
De nuevo este es un ejemplo algo acadmico; pero en la prctica pueden
encontrarse multitud de otros. As, el estimador mximo verosmil de la va-
rianza en una distribucin normal es s
2
= n
1
n
i=1
(x
i
x)
2
. Como en el
caso anterior, el sesgo tiende a cero cuando n .
Quiz la objecin ms seria que puede plantearse al uso del estimador mximo
verosmil es que obliga a especicar, salvo en los parmetros que se estiman, la
forma de las distribuciones: es un requisito previo el jar la familia de distribu-
ciones que estamos dispuestos a considerar. Esto puede originar estimadores con
propiedades no imaginadas. Por ejemplo, el suponer que la distribucin originan-
do X es N(, 1) nos llevara a adoptar X como estimador de . Si la distribucin
6.7. ESTIMACIN MXIMO VEROSMIL: INCONVENIENTES 87
fuera de Cauchy, ((), tal estimador tendra desastrosas propiedades de hecho,
no tendra varianza nita, cualquiera que fuera el tamao muestral.
Si la ausencia de robustez frente al incumplimiento de los supuestos distribu-
cionales, la complejidad de cmputo, y el comportamiento, a veces, pobre en pe-
queas muestras son inconvenientes, es preciso sealar que el estimador MV tiene
todava mucho en su haber
1
. Requiere no obstante cuidado el hacer uso inteligente
de l.
CUESTIONES, COMPLEMENTOS Y COSAS PARA HACER
6.1 Examnese la funcin de verosimilitud de una distribucin de Cau-
chy (() (se introdujo en el Ejemplo 6.5, pg. 84) y demustrese que tiene
en general mltiples mximos relativos.
6.2 Sean X
1
, . . . , X
n
v.a. independientes con distribucin binaria de
parmetro . Se comprob (Ejemplo 3.8, pg. 36) que no existe estimador
insesgado de () = (1 ). Hay estimador mximo verosmil de ()?
Es nico?
6.3 Si
MV
es el estimador mximo verosmil de y = () es una
funcin 1-1 de , entonces
MV
= (
MV
). Demustrese. Si () es una fun-
cin, por ejemplo, convexa, y
MV
es insesgado qu podemos decir del ses-
go de
MV
? (Ayuda: hgase uso de la desigualdad de Jensen (Teorema 4.2,
pg. 49).)
1
Una vehemente opinin contraria al uso de mxima verosimilitud, enrgicamente contestada,
puede verse en Berkson (1980). Es tambin interesante Rao (1962).
88 CAPTULO 6. MXIMA VEROSIMILITUD
Captulo 7
Estimacin mximo verosmil en
la prctica.
7.1. Introduccin.
Como el Ejemplo 6.5 pona de maniesto, la obtencin del estimador mximo
verosmil puede no ser fcil. Incluso en el caso en que se tiene la certeza de que
la verosimilitud tiene un nico mximo relativo y es bien comportada, la solucin
analtica de la ecuacin de verosimilitud
L
() =
n
j=1
U
j
() = 0
puede ser inabordable. Se hace preciso acudir a mtodos numricos aproximados
en muchas ocasiones.
La Seccin 7.2 muestra que en la familia exponencial es posible en ocasiones
obtener soluciones de las ecuaciones de verosimilitud de modo simple, igualan-
do los valores muestrales de los estadsticos sucientes a sus valores medios. La
Seccin 7.3 presenta la aplicacin del mtodo general de Newton-Raphson a la re-
solucin de la ecuacin de verosimilitud. La Seccin 7.4 presenta el mtodo cono-
cido como de scoring, estrechamente relacionado con el anterior. La Seccin 7.5
describe con algn detalle el algoritmo EM, muy utilizado para maximizar verosi-
militudes, que presenta la interesante ventaja de permitir trabajar de modo simple
con verosimilitudes de datos incompletos.
89
90 CAPTULO 7. ESTIMACIN MXIMO VEROSMIL EN LA PRCTICA.
7.2. Estimacin mximo verosmil en la familia exponen-
cial.
Consideremos el logartmo de la verosimilitud en forma cannica de una dis-
tribucin en la familia exponencial. Sin prdida de generalidad, la escrbiremos en
trminos de sus parmetros naturales:
L(, x) =
n
i=1
_
_
k
j=1
j
b
j
(x
i
) +c() +d(x
i
)
_
_
(7.1)
Como vimos en la Seccin 3.5, el vector
(T
1
, . . . , T
k
) =
_
n
i=1
b
1
(x
1
), . . . ,
n
i=1
b
k
(x
1
_
proporciona de inmediato los estadsticos mnimos sucientes para el vector .
Derivando el logaritmo de la verosimilitud respecto de
1
, . . . ,
k
e igualando a
cero para obtener puntos estacionarios de la funcin de verosimilitud tenemos:
L(, x)
j
= T
j
+
nc()
j
= 0 (7.2)
Las ecuaciones anteriores podran proporcionar, si son de fcil solucin, valores de
1
, . . . ,
k
, funciones de los estadsticos sucientes, candidatos a ser estimadores
mximo verosmiles. Si recordamos (Lema 5.1) que
E
_
L(, x)
j
_
= 0
obtenemos de (7.2) que:
E
_
L(, x)
j
_
= E
[T
j
] +
nc()
j
= 0 (7.3)
De (7.2)-(7.3) obtenemos entonces que ha de vericarse:
T
j
E
[T
j
] = 0
para j = 1, . . . , k. La regla es pues simple: basta igualar los estadsticos sucientes
a sus valores medios (funciones stos ltimos de ) para obtener soluciones de las
ecuaciones de verosimilitud. El ejemplo que sigue lo ilustra.
Ejemplo 7.1 Consideremos el caso de una normal multivariante N(, ).
Se desean los estimadores mximo verosmiles de = (, ).
La verosimilitud de una mestra de tamao n viene dada, por:
n
i=1
_
[[
1
2
exp
_
1
2
(x
i
)
1
(x
i
)
__
7.3. MTODO DE NEWTON-RAPHSON. 91
Si tomamos logaritmo nepariano de la expresin anterior y reordenamos sus
trminos podemos llegar a:
L() =
n
2
log [[
n
2
1
+
1
_
n
i=1
x
i
_
1
2
traza
_
1
_
n
i=1
x
i
x
i
__
La expresin anterior exhibe los estadsticos conjuntamente sucientes para
= (, ): (T
1
, T
2
) = (
n
i=1
x
i
,
n
i=1
x
i
x
i
[T
1
] = n =
n
i=1
x
i
(7.4)
E
[T
2
] = n+n
=
n
i=1
x
i
x
i
; (7.5)
la primera ecuacin inmediatamente proporciona
MV
= n
1
n
i=1
x
i
=
x, que sustituido en la segunda proporciona
= n
1
n
i=1
x
i
x
i
MV
MV
.
7.3. Mtodo de Newton-Raphson.
7.3.1. Descripcin
Sea
una raz de la ecuacin de verosimilitud y
(1)
una solucin inicial apro-
ximada. Desarrollando en serie de potencias en torno a
(1)
hasta trminos de se-
gundo orden, obtenemos:
L
) = 0 L
(1)
) +L
(1)
)(
(1)
) (7.6)
de donde:
(1)
L
(1)
)
L
(1)
)
(7.7)
A partir de una aproximacin inicial
(1)
la relacin anterior proporciona otra.
Nada impide emplear esta ltima como nueva aproximacin inicial y repetir el
proceso cuantas veces haga falta hasta convergencia, si se produce. Es decir, dada
la aproximacin
(n)
obtendremos la siguiente,
(n+1)
, as:
(n+1)
=
(n)
L
(n)
)
L
(n)
)
(7.8)
deteniendo la iteracin cuando
(n+1)
y
(n)
dieran entre s en menos de una
tolerancia preespecicada.
Es interesante sealar que una sola iteracin empleando (7.8) basta para pro-
ducir un estimador consistente y asintticamente eciente, siempre que el punto de
partida
(1)
sea consistente a la suciente velocidad. El siguiente teorema hace
precisa la anterior armacin.
92 CAPTULO 7. ESTIMACIN MXIMO VEROSMIL EN LA PRCTICA.
Teorema 7.1 Supongamos que se verican las condiciones en el Teorema 6.2, y
que
n
es un estimador que converge en probabilidad a de tal forma
1
que (
n
) = O
p
(n
1
2
). Entonces,
n
=
n
L
n
)
L
n
)
(7.9)
es asintticamente eciente y normal.
La demostracin puede encontrarse en Lehmann (1983), pg. 422.
La discusin precedente se generaliza fcilmente al caso en que hay un vector
de parmetros a estimar, sin ms que reemplazar en (7.6)
por un vector de esti-
madores y L
() y L
n+1
=
n
_
2
L(
n
)
_
1
L(
n
) (7.10)
7.3.2. Propiedades
Con el mtodo de Newton-Raphson la convergencia no est garantizada. No
obstante, si la verosimilitud es bien comportada, es un mtodo ecaz y conduce en
un nmero habitualmente pequeo de iteraciones a una raz de la ecuacin L
() =
0.
Denicin 7.1 Sea una ecuacin g(x) = 0 cuya solucin x
buscamos. Sea x
n
la aproximacin obtenida mediante un mtodo iterativo en la iteracin n-sima y
e
n
= x
n
x
. Consideremos
f(x) = x g(x)/g
(x). Entonces,
e
n
= x
n
x
= x
n
f(x
) (7.11)
= f(x
n1
) f(x
) (7.12)
Si desarrollamos f(x
n1
) en torno al punto x
) +f
(x
)(x
n1
x
) +
1
2
f
(z)(x
n1
x
)
2
f(x
)(7.13)
1
Vase en el Apndice A.4 el signicado de la notacin Op().
7.3. MTODO DE NEWTON-RAPHSON. 93
siendo z un punto entre x
n1
y x
. Como
f
(x
) = 1
(g
(x
))
2
(g
(x
))
2
+
g(x
)g
(x
)
(g
(x
))
2
= 0, (7.14)
tenemos
e
n
=
1
2
f
(z)(x
n1
x
)
2
,
lo que muestra que la iteracin de Newton converge cuando lo hace cuadrti-
camente.
No monotona. Naturalmente, nada garantiza que no podamos alcanzar una so-
lucin que sea mximo relativo de la verosimilitud en lugar de mximo global
2
. De
hecho, la iteracin anterior puede dar lugar a verosimilitudes decrecientes: el apro-
ximarnos a una raz de L
n
))
1
L(
n
) = AL(
n
), con A = (
2
L(
n
))
1
Desarro-
llando en serie en torno al punto
n
:
L(
n
+
) L(
n
) = [L(
n
)]
A[L(
n
)] +o() (7.15)
Para lo sucientemente pequeo, el signo del lado derecho viene dado por el del
primer sumando. Si A es simtrica denida positiva, entonces el signo es positivo
y L(
) se incrementa al pasar de
n
a
n+1
=
n
+
n
.
Si con A denida como se ha indicado la forma cuadrtica en la derecha de
(7.15) no fuera denida positiva, podramos denir: = AL(
n
) con cualquier
A simtrica denida positiva, y el argumento anterior proporcionara un algoritmo
monnotamente creciente en L(). Hay muchas posibles elecciones: con A igual a
la matriz unidad, tenemos un algoritmo gradiente convencional. Si hacemos
A = E
_
2
L(
n
)
_
tenemos el algoritmo de scoring descrito en la seccin que sigue. Otras elecciones
y variantes son posibles: puede verse una discusin ms completa en Lange (1998).
2
La distribucin de Cauchy, tan fecunda suministradora de contraejemplos, ilustra una vez ms
esta situacin. La verosimilitud de su parmetro de ubicacin tiene con gran frecuencia varios extre-
mos relativos, si la muestra es grande.
94 CAPTULO 7. ESTIMACIN MXIMO VEROSMIL EN LA PRCTICA.
7.4. Mtodo scoring de Fisher.
El algoritmo de scoring procede de forma enteramente anloga al de Newton-
Raphson. Su rasgo distintivo consiste en sustituir
2
L() por E [(L()L()
].
Obsrvese que esta ltima matriz es, bajo las habituales condiciones de regulari-
dad, denida positiva. A menudo su expresin es tambin relativamente simple, lo
que hace fcil su clculo en cada iteracin. Por contra, el mtodo de scoring puede
ser acusadamente ms lento que el de Newton-Raphson.
7.5. El algoritmo EM.
Aunque utilizable con completa generalidad, el algoritmo EM es preferente-
mente utilizado en el caso en que hay datos faltantes. La referencia seminal es
Dempster et al. (1976), aunque en forma menos general las ideas subyacentes pa-
recen haber existido antes. La descripcin a continuacin hace uso tambin de
Laird (1993) y Navidi (1997). Una monografa reciente con muchas referencias es
G.J.McLachlan y Krishnan (1997).
7.5.1. Notacin
Consideraremos, por simplicidad notacional, el caso de un nico parmetro ;
el caso multivariante no aade nada esencial. Denotaremos por f
X
(x; ) la verosi-
militud de la muestra completa, si fuera observada: x es un vector o una matriz, no
todas cuyas componentes son observadas. Observamos slo y, y hay una relacin
x = A(y) que a cada y hace corresponder muchos posibles x (dicho de otro modo:
la sla observacin de y no permite obtener de manera unvoca x).
Como parte de x es no observada, tendr sentido escribir valores medios como
Q([
)
def
= Elog
_
f
X
(x; )[
, y
(7.16)
=
_
X(y)
log f
X
(x; )f
X|Y
(x[y;
)dx (7.17)
H([
)
def
= Elog
_
f
X|Y
(x[y; )[
, y
(7.18)
=
_
X(y)
log f
X|Y
(x[y; )f
X|Y
(x[y;
)dx (7.19)
Denominemos,
L()
def
= log f
Y
(y; ). (7.20)
Como
log f
X|Y
(x[y; ) = log f
X
(x; ) log f
Y
(y; ), (7.21)
multiplicando cada trmino de (7.21) por f
X|Y
(x[y;
) e integrando, obtenemos:
Q([
) = L() +H([
). (7.22)
7.5. EL ALGORITMO EM. 95
Estamos interesados en maximizar L(), la verosimilitud calculada con la parte de
muestra y que realmente observamos.
7.5.2. La iteracin EM
Si observramos todo x, el problema de estimacin mximo verosmil de se
reducira a maximizar una funcin. Como parte de x es inobservable, no podemos
acometer directamente la maximizacin de log f
X
(x; ). Una posibilidad sera sus-
tituir la funcin desconocida por su valor esperado dada la parte de muestra que s
conocemos y bajo el supuesto de que =
) para un valor
) respecto de .
3. Iterar los pasos anteriores hasta convergencia, si se produce.
La idea es que al ejecutar por primera vez el paso E (de valor Esperado, porque en
dicho paso tomamos un valor medio) obtendremos una funcin no muy similar a
la que querramos maximizar. Por ello, el paso M (de Maximizar) no dar el mxi-
mo de la funcin que realmente desearamos maximizar, sino el de una diferente.
Pero este mximo suministra una nueva estimacin de diferente de la inicial,
presumiblemente mejor, que nos permite reiniciar el proceso.
La idea anterior constituye el ncleo del algoritmo EM, cuya iteracin bsica
describimos ms formalmente como Algoritmo 1.
Algorithm 1 Algoritmo EM
1: Fijar valor inicial
(0)
de .
2: Fijar {Mnima diferencia entre valores sucesivos de para seguir iterando.}
3: i 0
4: repeat
5: i i + 1
6: Q([
(i1)
) E
_
log f
X
(x; )[
(i1)
, y
7:
(i)
arg max
Q([
(i1)
)
8: until
_
[
(i)
(i1)
[ <
_
9:
MV
(i)
3
Ntese que para calcular el valor esperado de log fX(x; ) necesitamos un punto de partida, es
decir, un valor inicial
(i1)
)
2
entonces
(i)
.
3. Si
(i)
y
_
Q([
(i1)
)
_
=
(i)
= 0,
entonces
_
L()
_
=
= 0.
Obsrvese que los tres resultados anteriores tomados en su conjunto, todava no
garantizan la convergencia del algoritmo EM a
MV
o a un mximo local. Para ello
hara falta mostrar que el valor estacionario de la verosimilitud
corresponde a
un mximo y no a un mnimo o punto de silla. Una demostracin completa que
incluye ste y otros detalles puede encontrarse en Dempster et al. (1976).
Teorema 7.2 En el Algoritmo 1, la verosimilitud crece montonamente.
DEMOSTRACION:
De (7.22) deducimos:
L(
(i)
) = Q(
(i)
[
(i1)
) H(
(i)
[
(i1)
) (7.23)
L(
(i1)
) = Q(
(i1)
[
(i1)
) H(
(i1)
[
(i1)
). (7.24)
Restando (7.24) de (7.23) obtenemos
L(
(i)
) L(
(i1)
) = (Q(
(i)
[
(i1)
) Q(
(i1)
[
(i1)
))
+ (H(
(i1)
[
(i1)
) H(
(i)
[
(i1)
)).(7.25)
El primer miembro de la derecha de (7.25) es no negativo por el modo en que ha
sido tomado el paso M de la iteracin (se maximiza Q([
(i1)
) respecto de ,
7.5. EL ALGORITMO EM. 97
y por tanto necesariamente Q(
(i)
[
(i1)
) Q(
(i1)
[
(i1)
) 0). El segundo
trmino es necesariamente no negativo
4
. Por tanto, L(
(i)
) L(
(i1)
) 0.
Teorema 7.3 Cuando la verosimilitud est acotada, L(
(i)
) L
, para algn
valor L
. Si, adems,
Q(
(i)
[
(i1)
) Q(
(i1)
[
(i1)
) (
(i)
(i1)
)
2
para todo i, entonces
(i)
.
DEMOSTRACION:
Una sucesin montona acotada necesariamente tiene un lmite: esto da cuenta
de la existencia de L
j=1
(L(
(p+j)
L(
p+j1)
)) = [L(
(p+r)
L(
p)
[ < ,
y por consiguiente
>
r
j=1
(L(
(p+j)
L(
p+j1)
))
j=1
(Q(
(p+j)
[
(p+j1)
) Q(
(p+j1)
[
(p+j1)
))
r
j=1
(
(p+j)
(p+j1)
)
2
(
(p+r)
(p)
)
2
.
Ello muestra que
(p)
verica tambin una condicin de Cauchy y en consecuencia
converge a algn
.
Establecido que
(i)
converge, resta por ver que el lmite, si es un punto esta-
cionario de Q([), lo es tambin de la funcin de verosimilitud.
4
Puede verse H(
(i)
|
(i1)
) H(
(i1)
|
(i1)
) como la distancia de Kullback-Leibler (vase
(6.5), pg. 78) entre dos distribuciones de parmetros respectivos
(i)
y
(i1)
. Esta distancia se
minimiza cuando
(i)
=
(i1)
.
98 CAPTULO 7. ESTIMACIN MXIMO VEROSMIL EN LA PRCTICA.
Teorema 7.4 Supongamos que
(i)
_
=
= 0.
DEMOSTRACION:
Derivando en (7.22) obtenemos
_
L()
_
=
(i)
=
_
Q([
(i1)
)
_
=
(i)
_
H([
(i1)
)
_
=
(i)
.(7.26)
Es claro que si la iteracin converge,
(i)
y
(i1)
en la expresin anterior pueden
ambos sustituirse por
. La derivada de H([
) se anula para =
. La
de Q(
i=1
_
e
b(x
i
)+c()+d(x
i
)
_
=
n
i=1
b(x
i
) +nc() +
n
i=1
d(x
i
)
= T(x) +C() +D(x).
Entonces, la expresin (7.16) se convierte en
Q([
(i)
) = E
_
log f
X
(x; )[
(i)
, y
_
(7.27)
= E
_
T(x) +C() +D(x)[
(i)
, y
_
(7.28)
= T
(i)
+C() +E
_
D(x)[
(i)
, y
_
. (7.29)
7.5. EL ALGORITMO EM. 99
Podemos reemplazar esta expresin de Q([
(i)
) en el lugar correspondiente del
Algoritmo 1. Observemos, adicionalmente, que el ltimo trmino en (7.29) no de-
pende de . Por lo tanto, podemos maximizar respecto de slamente la expresin
T
(i)
+ C(). Incorporando estos cambios al Algoritmo 1, obtenemos el Algorit-
mo 2.
Algorithm 2 Algoritmo EM para distribuciones en la familia exponencial
1: Fijar valor inicial
(0)
de .
2: Fijar {Mnima diferencia entre valores sucesivos de para seguir iterando.}
3: i 0
4: repeat
5: i i + 1
6: T
(i)
E
_
T(x)[
(i1)
, y
7:
(i)
arg max
_
T
(i)
+C()
_
8: until
_
[
(i)
(i1)
[ <
_
9:
MV
(i)
Ejemplo 7.2 El siguiente ejemplo, adaptado de Laird (1993), ilustra el
funcionamiento del algoritmo EM en una distribucin de la familia exponen-
cial. Supongamos observaciones procedentes de uan distribucin trinomial
con vector de parmetros = (
1
,
2
,
3
) (uno redundante, al estar cons-
treidos a sumar 1). Poseemos una muestra tomada al azar incompletamente
clasicada, como recoge la siguiente tabla:
1
2
3
21 9 20 n
1.
= 50
8 7 n
2.
= 15
n
,1
n
,2
n
,3
Hay n
1.
= 50 observaciones completamente clasicadas; por el contrario,
hay n
2.
= 15 de las que slo sabemos si pertenecen a la clase tercera o a una
de las dos primeras.
Es claro que n
,1
, n
,2
, n
,3
son estadsticos sucientes para ; pero slo
n
,3
es conocido. El algoritmo EM procede sustituyendo n
,1
y n
,2
por sus
respectivos valores esperados para obtener una estimacin de . Obtenida
sta, se utiliza para recalcular los valores esperados de n
,1
y n
,2
, y se itera
hasta convergencia.
En el caso que nos ocupa, una estimacin inicial de podra ser la
mximo verosmil con las 50 observaciones completamente clasicadas
5
:
(0)
= (
21
50
,
9
50
,
20
50
).
5
Podramos comenzar con un vector arbitrario, pero si tenemos alguna aproximacin razonable,
como en este caso, ello acelera la convergencia.
100CAPTULO 7. ESTIMACIN MXIMO VEROSMIL EN LA PRCTICA.
Tenemos ahora que los valores esperados de los estadsticos sucientes
n
,1
, n
,2
y n
,3
dado =
(0)
son:
n
(1)
,1
= 21 + 8
(0)
1
(0)
1
+
(0)
2
26,6
n
(1)
,2
= 9 + 8
(0)
2
(0)
1
+
(0)
2
11,4
n
(1)
,3
= 27.
En esencia, hemos repartido las 8 observaciones cuya adscripcin no cons-
ta entre las clases primera y segunda sobre la base de la mejor informacin
disponible acerca de . Con los valores esperados (de n
,1
y n
,2
) u observados
(de n
,3
) de los estadsticos sucientes podemos ahora obtener una estimacin
renada del vector de parmetros,
(1)
= (
26,6
65
,
11,4
65
,
27
65
), con la que recal-
cular los valores medios de los estadsticos sucientes que lo precisan, y as
hasta convergencia.
Captulo 8
Contraste de Hiptesis.
8.1. Introduccin.
Examinaremos en lo que sigue el caso en que existen dos posibles estados de
la naturaleza, asociados a sendos conjuntos de valores de un cierto parmetro: as,
un estado corresponde a
0
y otro a
a
. Un contraste de hiptesis es un
procedimiento estadstico (X) para escoger entre ambos estados (inobservables)
sobre la base de la informacin muestral proporcionada por una variable aleatoria
X con densidad (o cuanta) f
X|
(x[). El procedimiento (X) puede proporcio-
nar una de dos decisiones: d
0
(= el estado es
0
) y d
a
(= el estado es
a
).
Frecuentemente, sta es una eleccin bastante articial, entre dos alternativas
ninguna de las cuales tiene visos de ser exactamente cierta. Esto es particular-
mente cierto cuando se contrastan hiptesis que especican un nico y preciso
valor para algn parmetro (como H
0
: =
0
). Sin embargo, como hace notar
Garthwaite et al. (1995), pg. 2, el contraste de hiptesis
. . .es a menudo un modo conveniente de actuar y subyace a una
parte importante de la investigacin cientca.
De que esto es as da testimonio el uso continuo e intenso que se hace del con-
traste de hiptesis en muchas ramas del saber. Que la metodologa habitualmente
utilizada para contrastar hiptesis no siempre se emplea debidamente, es tambin
un hecho. Vase al respecto la crtica enrgica y virulenta que del contraste de
hiptesis se hace en Wang (1993).
Se dice que una clase de distribuciones es simple si contiene una nica distri-
bucin. Es compuesta en caso contrario. Un contraste de hiptesis ser simple si
tanto
0
como
a
especican una nica distribucin.
101
102 CAPTULO 8. CONTRASTE DE HIPTESIS.
Si disponemos de una funcin de prdida completamente especicada, emplea-
remos la teora examinada en captulos anteriores para seleccionar un procedimien-
to adecuado: procedimiento de Bayes (si disponemos adems de una distribucin
a priori para ), minimax, etc.
Es frecuente, sin embargo, que no haya una funcin de prdida bien especi-
cada. El contraste se efecta entonces de manera convencional minimizando la
probabilidad de error, que puede ser de dos clases: el error de tipo I (o de tipo )
consiste en seleccionar d
a
cuando
0
, mientras que el error de tipo II (o de tipo
) consiste en seleccionar d
0
cuando
a
. Denominamos nivel de signicacin
de un contraste (a veces tambin llamado tamao del contraste) al supremo de la
probabilidad de error de tipo I:
def
= sup
0
Prob (X) = d
a
0
de la regin crtica. Tal problema puede sin embargo resolverse recurriendo a
procedimientos aleatorizados.
Ejemplo 8.2 Supongamos que, en el ejemplo anterior, estamos dis-
puestos a considerar procedimientos aleatorizados. Entonces podramos ob-
tener un nivel de signicacin exacto de 0.07. Podramos, por ejemplo, tomar
una regin crtica S = 4, 5, que totaliza = 0,05 y aadir parte del pun-
to x = 3. Para despiezar dicho punto, podemos construir una lotera que
con probabilidad
1
2
proporcione rechazo de H
0
y con probabilidad
1
2
acepta-
cin de H
0
. Si adoptamos la regla de rechazar H
0
siempre que obtengamos
X = 4 X = 5 y de jugar a la lotera indicada cuando obtengamos X = 3,
la probabilidad total de rechazo cuando =
0
es:
= 0,04 + 0,01 +
1
2
Prob X = 3;
0
= 0,07
Para recoger el caso en que nos vemos obligados a realizar contrastes aleatori-
zados debemos considerar funciones crticas algo ms complejas que la descrita en
(8.1). Un contraste general vendr as especicado por una funcin crtica como:
(x)
def
=
_
_
_
1 si x S
+
,
si x S
=
def
= (S
+
S
)
c
,
0 si x S
.
(8.2)
S
+
es la regin crtica, y S
= 0, 1, 2 y (S
+
S
)
c
= 3.
Observemos nalmente que en trminos de la funcin crtica:
Potencia = () = 1 () = E
((X))
y para contrastes con nivel de signicacin ha de vericarse:
E
(X)
0
8.2. El Teorema de NeymanPearson.
La construccin de regiones crticas para el contraste de una hiptesis simple
=
0
frente a una alternativa tambin simple =
a
resulta sumamente fcil (al
menos conceptualmente) gracias al siguiente resultado.
104 CAPTULO 8. CONTRASTE DE HIPTESIS.
Teorema 8.1 Sea un problema de decisin consistente en escoger entre dos posi-
bles estados de la naturaleza,
0
y
a
. Para cualquier [0, 1], existe un contraste
(x) y una constante k > 0 vericando:
(i)
(x) =
_
_
_
1 cuando f
X
(x;
a
) > kf
X
(x;
0
),
cuando f
X
(x;
a
) = kf
X
(x;
0
),
0 cuando f
X
(x;
a
) < kf
X
(x;
0
).
(8.3)
E
0
(X) = (8.4)
(ii) Las condiciones (8.3)(8.4) son sucientes para garantizar que el contraste
(x) es el ms potente para la hiptesis
0
frente a
a
al nivel .
(iii) Recprocamente, si (x) es el contraste ms potente para el par de hip-
tesis citadas, entonces verica (8.3)(8.4) para algn valor k, a menos que exista
un contraste de tamao menor que y potencia 1.
DEMOSTRACION:
Bosquejamos a continuacin la demostracin. Un mayor detalle puede encon-
trarse en Lehmann (1959), p. 65.
Para = 0 = 1 el teorema es trivial. Sea:
(c)
def
= Prob f
X
(x;
a
) > cf
X
(x;
0
)[
0
0
)
Sea el contraste:
(x) =
_
_
1 cuando f
X
(x;
a
) > c
0
f
X
(x;
0
),
(c
0
)
(c
0
) (c
0
)
cuando f
X
(x;
a
) = c
0
f
X
(x;
0
),
0 cuando f
X
(x;
a
) < c
0
f
X
(x;
0
).
(8.5)
8.2. EL TEOREMA DE NEYMANPEARSON. 105
Es fcil ver que no hay problemas de anulacin del denominador en el quebrado
que aparece en la denicin, pues el conjunto de puntos en que ste se anula tiene
probabilidad cero. En consecuencia, (8.5) dene casi en todo punto (con respecto
a f
X
(x;
0
)) el contraste (x). El tamao de dicho contraste es:
E
0
[(X)] = Prob
_
f
X
(x;
a
)
f
X
(x;
0
)
> c
0
[
0
_
+
(c
0
)
(c
0
) (c
0
)
Prob
_
f
X
(x;
a
)
f
X
(x;
0
)
= c
0
[
0
_
=
Esto da cuenta de la existencia. Comprobemos ahora (ii). Sea (x) el contraste
denido en (8.5) y
(X)
. Sean S
+
, S
=
, y S
(x))(f
X
(x;
a
) c
0
f
X
(x;
0
))dx 0 (8.6)
En efecto: cuando (f
X
(x;
a
) c
0
f
X
(x;
0
)) > 0, (x) = 1, y por tanto ((x)
(x))f
X
(x;
a
)dx
_
S
((x)
(x))c
0
f
X
(x;
0
))dx 0 (8.7)
Potencia((X)) Potencia(
(X)) c
0
( E
(X))
. .
0
0 (8.8)
Por tanto:
Potencia((X)) Potencia(
(X))
Comprobemos nalmente (iii). Sea
(x) ,= (x)] [f
X
(x;
a
) ,= kf
X
(x;
0
)]
Vamos a ver que ( tiene medida cero, y por tanto ambos contrastes son esencial-
mente el mismo. Como ya se ha visto en el apartado (ii):
_
S
((x)
(x))(f
X
(x;
a
) kf
X
(x;
0
))dx 0
106 CAPTULO 8. CONTRASTE DE HIPTESIS.
Pero basta que integremos en ( (pues fuera de ( el integrando se anula). Por tanto:
_
C
((x)
(x))f
X
(x;
a
)dx > k
_
C
((x)
(x))f
X
(x;
0
)dx
= k ( E
(X))
La integral del lado izquierdo es la diferencia de potencias, y el lado derecho
si
a
.
8.4. CONTRASTES UNIFORMEMENTE MS POTENTES (UMP). 107
Designemos por c
0
y c
a
los costes respectivos de tomar equivocadamente las
decisiones d
0
: =
0
y d
a
: =
a
.
Estudiemos el problema de construir un contraste (x) cuyo riesgo de Bayes
R
() =
_
R
n
c
a
0
(x)f
X
(x;
0
)dx +
_
R
n
c
0
a
(1 (x))f
X
(x;
a
)dx
=
_
R
n
(x) [c
a
0
f
X
(x;
0
) c
0
a
f
X
(x;
a
)] dx
+
_
R
n
c
0
a
f
X
(x;
a
)dx (8.9)
Como quiera que el segundo sumando de (8.9) no depende de (x), basta minimi-
zar el primero; y es claro que para ello debemos tomar:
(x) = 1 cuando c
0
a
f
X
(x;
a
) c
a
0
f
X
(x;
0
) > 0
(x) = 0 cuando c
0
a
f
X
(x;
a
) c
a
0
f
X
(x;
0
) < 0
Es decir, (x) = 1 si:
f
X
(x;
0
)
f
X
(x;
a
)
<
c
0
a
c
a
0
(8.10)
que es precisamente la condicin que establece el teorema de Neyman-Pearson
para rechazar
0
en benecio de
a
. Hay una diferencia, no obstante: el enfoque
basado en la Teora de la Decisin ja el valor que debe tener el umbral a superar
por la razn de verosimilitudes para que se produzca el rechazo de
0
; analizando
(8.10) vemos adems que dicho umbral depende de la forma intuitivamente espe-
rable de los parmetros c
0
, c
a
,
0
y
a
.
El enfoque basado en el Teorema de Neyman-Pearson proporciona una familia
de contrastes idntica, pero el umbral a superar por la razn de verosimilitudes se
ja estableciendo (habitualmente de modo un tanto arbitrario) el nivel de signi-
cacin deseado. Cuando se disponga de una funcin de prdida especicada y de
una distribucin a priori sobre las dos posibles hiptesis competidoras, el uso de
(8.10) parece lo indicado. En caso contrario, habr de hacerse uso del Teorema de
Neyman-Pearson, con la precaucin de especicar un nivel de signicacin tanto
ms pequeo (= un rechazo tanto ms difcil) cuanto ms grave sea la adopcin
injusticada de
a
, o ms fuerte sea la creencia de encontrarnos ante
0
.
8.4. Contrastes uniformemente ms potentes (UMP).
Se ha indicado ya que, en general, el contraste ms potente proporcionado por
el Teorema de Neyman-Pearson depende tanto de la hiptesis nula como de la
alternativa. En algunas circunstancias, no obstante, dada una hiptesis nula H
0
, el
108 CAPTULO 8. CONTRASTE DE HIPTESIS.
mismo contraste (x) es el ms potente de tamao para todas las alternativas en
una cierta clase. Se dice que es uniformemente ms potente (UMP) en dicha clase.
Ejemplo 8.3 Consideremos una muestra procedente de una poblacin
con distribucin exponencial f
X
(x, ) =
1
e
x/
, > 0, con ayuda de
la cual queremos contrastar H
0
: =
0
frente a la alternativa (compues-
ta) H
a
: >
0
. Para cualquier
a
>
0
, el teorema de Neyman-Pearson
prescribe tomar como regin crtica la formada por los x vericando
f
X
(x;
a
)
f
X
(x;
0
)
=
_
a
_
n
exp
_
i=1
x
i
_
1
0
_
_
c,
o equivalentemente
exp
_
i=1
x
i
_
0
a
a
_
_
> c
_
0
_
n
n
i=1
x
i
>
_
log
e
c nlog
_
a
__ _
a
0
a
_
1
. (8.11)
Por consiguiente, todo se reduce a calcular el valor del estadstico
n
i=1
x
i
y compararlo con la constante, k, dada por el lado derecho de (8.11). Dicha
k se calcula de modo que
n
i=1
X
i
> k bajo H
0
con la probabilidad que
hayamos prejado. En el caso que nos ocupa,
n
i=1
X
i
sigue bajo H
0
una
distribucin (
1
0
, n), y k resulta de resolver
_
k
1
(n)
n
0
e
x/0
x
n1
dx = .
Por tanto, k no depende de cul sea
a
(con tal de que
a
>
0
) y el contraste
es uniformemente ms potente en la clase indicada.
Hay una caracterizacin simple que permite detectar la existencia de contrastes
UMP cuando existen. Requiere la siguiente denicin.
Denicin 8.1 Sea X una v.a. con distribucin F
x
(x; ), . Sea f
X|
(x[)
la funcin de verosimilitud asociada a una muestra x = (x
1
, . . . , x
n
). Se dice que
F
x
(x; ), tiene razn de verosimilitud montona si para algn estadstico
T(x) y cualquier x se verica
f
X|
(x[)
f
X
(x;
0
)
= g(T(x)), (8.12)
siendo g(.) una funcin montona no decreciente y
0
, valores cualesquiera en
con >
0
.
Ejemplo 8.4 El Ejemplo 8.3 muestra una familia de distribuciones con
una razn de verosimilitud montona. Si hacemos T(x) =
n
i=1
x
i
, tene-
mos que
f
X|
(x[)
f
X
(x;
0
)
exp
_
T(x)
_
0
__
,
8.5. CONTRASTES RAZN DE VEROSIMILITUDES GENERALIZADA. 109
que es una funcin creciente de T(x) para cualesquiera ,
0
con >
0
.
Se deduce con facilidad de (8.12) que si una familia de distribuciones tiene razn
de verosimilitud montona,
f
X|
(x[)
f
X
(x;
0
)
c g(T(x)) c T(x) g
1
(c).
Por tanto, el contraste ms potente que proporciona el Teorema de NeymanPearson
es independiente de la alternativa dentro de la familia considerada: es UMP y puede
construirse haciendo uso del estadstico T(x).
Por otra parte, es fcil identicar T(x) en las distribuciones de la familia ex-
ponencial cuando existe un contraste UMP. En efecto, sea >
0
; para cualquier
distribucin en la familia exponencial,
f
X|
(x[)
f
X
(x;
0
)
=
exp a()
n
i=1
b(x
i
) +c() +
n
i=1
d(x
i
)
exp a(
0
)
n
i=1
b(x
i
) +c(
0
) +
n
i=1
d(x
i
)
= exp
_
(a() a(
0
))
n
i=1
b(x
i
) + (c() c(
0
))
_
.
Por consiguiente, si a() es funcin no decreciente de , la distribucin considerada
tiene razn de verosimilitud montona, y admite un contraste UMP que puede
expresarse en funcin del estadstico suciente T(x) =
n
i=1
b(x
i
).
8.5. Contrastes razn de verosimilitudes generalizada.
Con frecuencia tenemos hiptesis anidadas, del tipo: H
0
:
0
versus
H
a
:
a
, en que
a
=
0
; es decir, la hiptesis nula prescribe que
toma valores en un subconjunto propio de . Tpicamente, H
0
constrie a un
subconjunto de dimensin menor que la de .
Cuando esto ocurre, bajo condiciones de regularidad que hagan el estimador
MV de asintticamente insesgado y normal, el resultado a continuacin permite
construir contrastes que son en ocasiones los nicos disponibles.
Teorema 8.2 Sea el contraste H
0
:
0
versus H
a
:
a
, en que
a
=
0
, y supongamos que dim(
a
) = r. Bajo condiciones de regularidad como
las requeridas en el Teorema 6.2, pg, 81,
= 2 log
e
_
sup
0
f
X|
(x[)
sup
f
X|
(x[)
_
2
r
. (8.13)
DEMOSTRACION:
110 CAPTULO 8. CONTRASTE DE HIPTESIS.
Presentamos, por simplicidad, la demostracin para el caso unidimensional en
que la hiptesis nula es simple, H
0
: =
0
, en tanto la alternativa es H
a
:
con dim() = 1 (y, por tanto, r = dim() dim(
0
) = 1). Sean
= sup
f
X|
(x[), (8.14)
U
i
() =
log
e
f
X
(X
i
, )
, (8.15)
Tenemos que
= 2
_
log
e
f
X
(X;
) log
e
f
X
(X;
0
)
_
. (8.16)
Desarrollando en serie el segundo sumando de la derecha de (8.16) en torno al
punto
obtenemos
log
e
f
X
(X;
0
) = log
e
f
X
(X;
) +
_
log
e
f
X
(X; )
_
=
(
0
)
+
1
2!
_
2
log
e
f
X
(X; )
2
_
=
(
0
)
2
(8.17)
en que
es un punto entre
0
y
, es decir, [
0
[ < [
0
[. Sustituyendo (8.17)
en (8.16) obtenemos
= 2
_
log
e
f
X
(X; )
_
=
(
0
)
2
log
e
f
X
(X; )
2
_
=
0
)
2
(8.18)
= 2(
0
)
n
i=1
U
i
(
) (
0
)
2
n
i=1
U
i
(
) (8.19)
Ahora bien, bajo las condiciones de regularidad impuestas, el estimador mximo
verosmil anula la primera derivada de la funcin de verosimilitud, y
n
i=1
U
i
(
) =
_
log
e
f
X
(X; )
_
=
= 0;
por tanto, (8.19) queda reducida a
= (
0
)
2
_
n
i=1
U
i
(
)
_
= n(
0
)
2
_
n
i=1
U
i
(
)
n
_
. (8.20)
En virtud del Teorema 6.2,
n(
0
)
2
L
I(
0
)
1
2
1
. (8.21)
8.5. CONTRASTES RAZN DE VEROSIMILITUDES GENERALIZADA. 111
Por otra parte,
c.s.
0
(ya que
c.s.
0
y [
0
[ < [
0
[), y por consiguiente
n
1
n
j=1
U
j
(
)
p
n
1
n
j=1
U
j
(
0
). (8.22)
La expresin (8.22) converge en probabilidad al valor medio de cada uno de los
sumando promediados, E
0
[U
j
(
0
)] = I(
0
), en virtud de la ley dbil de los
grandes nmeros (Teorema A.2, pg. 148):
n
i=1
U
i
(
)
n
p
I(
0
). (8.23)
Haciendo uso de (8.21) y (8.23) vemos que la expresin (8.20) converge en distri-
bucin a una
2
1
.
Observacin 8.4 (criterio AIC y verosimilitudes penalizadas) Inci-
dentalmente, hay una conexin interesante entre el contraste razn de vero-
similitudes generalizada y el criterio conocido como AIC (An Information
Criterion, o Akaikes Information Criterion).
Supongamos que deseamos comparar modelos con diferente nmero de
parmetros. Consideremos, por ejemplo, uno cuyo vector de parmetros
pertenece a , y otro competidor tal que
0
con
0
y dim()
dim(
0
) = r. Del Teorema 8.2 deducimos que, bajo H
0
,
2 log
e
_
sup
f
X|
(x[)
sup
0
f
X|
(x[)
_
2
r
. (8.24)
Numerador y denominador de (8.24) son las verosimilitudes maximizadas
bajo H
a
y bajo H
0
respectivamente. Dado que
0
, es claro que la
verosimilitud bajo H
0
nunca ser mayor: no tiene pues sentido una compara-
cin directa de ambas verosimilitudes para escoger entre ambos modelos. Si
tomamos valor medio en (8.24) y dividimos entre dos vemos que, bajo H
0
,
E
_
log
e
sup
f
X|
(x[) log
e
sup
0
f
X|
(x[)
_
=
r
2
. (8.25)
Es decir, incluso cuando H
0
es cierta y no tiene objeto seleccionar el modelo
alternativo con
0
, la verosimilitud de dicho modelo alternativo
ser en promedio
r
2
unidades mayor, siendo r la diferencia de dimensin
entre y
0
(normalmente coincidente con la diferencia en el nmero de
parmetros ajustados). Podra parecer adecuado corregir las verosimilitudes
correspondientes a modelos diferentes, restando al logaritmo de cada una la
mitad del nmero de parmetros utilizado,
r
2
. Ello las pondra en pie de
igualdad, recticando en valor medio el incremento de verosimilitud que
se produce por el mero hecho de ajustar un mayor nmero de parmetros.
112 CAPTULO 8. CONTRASTE DE HIPTESIS.
As, en lugar de logaritmos de verosimilitudes, compararamos logaritmos
de verosimilitudes corregidos en valor medio como
log
e
f
X
(x,
MV
0
)
r
1
2
(8.26)
log
e
f
X
(x,
MV
)
r
2
2
. (8.27)
No obstante, preferir el segundo modelo al primero sobre la base de que
log
e
f
X
(x,
MV
)
r
1
2
> log
e
f
X
(x,
MV
0
)
r
2
2
,
o, equivalentemente,
2
_
log
e
f
X
(x,
MV
)
f
X
(x,
MV
0
)
_
> (r
1
r
2
),
es tanto como hacer un contraste de hiptesis de uno frente a otro tomando
como valor crtico de una
2
r1r2
su valor medio. Ello dara lugar a un
(error de tipo I) inaceptablemente grande. Parece que se impone una penali-
zacin mayor del nmero de parmetros.
La expresin,
2 log
e
f
X
(x,
MV
) 2r
siendo r el nmero de parmetros libres en que hemos ajustado se conoce
como criterio AIC y fue propuesto en Akaike (1972), haciendo uso de un ar-
gumento diferente. Obsrvese que penaliza adicionalmente la verosimilitud
respecto de la propuesta en (8.26)(8.27). Discrimina con ello ms a favor de
modelos simples. Es slo una de las muchas manifestaciones de una idea
bastante ms general: la de penalizar las verosimilitudes de modo que se to-
me en consideracin su diferente complejidad, medida de ordinario por el
nmero de parmetros ajustados o alguna funcin del nmero de parmetros
y el tamao de la muestra. Sobre esta cuestin volvemos en el Captulo 9.
8.6. Contrastes de signicacin puros
8.6.1. Caso de hiptesis simples
En ocasiones, deseamos contrastar una hiptesis sin especicar una alternati-
va. Tpicamente, la hiptesis H
0
que se desea contrastar puede describirse como
una hiptesis statu quo o comnmente aceptada, que queremos poner a prue-
ba. no tenemos una idea clara de cuales puedan ser las alternativas competidoras.
Deseamos simplemente examinar si la evidencia muestral es compatible con H
0
.
Los ingredientes necesarios para un contraste de esta naturaleza son:
La hiptesis nula de inters, H
0
.
Un estadstico T(X) cuya distribucin bajo H
0
es conocida, y sobre el que
adoptaremos la convencin de que valores mayores suponen un mayor ale-
jamiento de la muestra del comportamiento esperable bajo H
0
.
8.6. CONTRASTES DE SIGNIFICACIN PUROS 113
Procederemos entonces del modo habitual:
1. Realizaremos el muestreo, obteniendo x.
2. Calcularemos el valor del estadstico de contraste, T(X), correspondiente a
la muestra x. Sea dicho valor t
obs
= T(x).
3. Calcularemos,
p
obs
= Prob T(X) t
obs
[H
0
, (8.28)
nivel de signicacin emprico o p-value. Para un nivel de signicacin
(probabilidad de error de tipo I) prejado, , rechazaremos H
0
si p
obs
< ,
y no rechazaremos en caso contrario.
Podemos interpretar p
obs
como la probabilidad cuando H
0
es cierta de obtener una
muestra tan o ms rara que la obtenida. En efecto, valores crecientes de T(x)
reejan discrepancias crecientes de la muestra con el comportamiento previsible
bajo H
0
. La lgica del contraste de signicacin consiste pues en rechazar H
0
cuando lo que observamos sera excesivamente raro en una situacin en que H
0
prevaleciera.
Ejemplo 8.5 El contraste de ajuste
2
es posiblemente el de ms uso (y
abuso) de entre todos los contrastes de signicacin puros. Si particionamos
los valores obtenibles de la variable aleatoria en k clases,
T(X) =
k
i=1
(n
i
e
i
)
2
e
i
, (8.29)
siendo n
i
el nmero de observaciones en la clase i-sima, y e
i
el nmero de
observaciones que esperaramos obtener en dicha clase bajo H
0
(vase por
ej. Trocniz (1987), p. 245). Valores grandes de T(X) corresponden a dis-
crepancias notables en una o varias clases entre el nmero de observaciones
esperado y el que se ha presentado en la muestra.
Si H
0
especica por completo una distribucin, T(X) se distribuye apro-
ximadamente (para muestras grandes y clases no muy despobladas) como
una
2
k1
.
Obsrvese que estamos contrastando acuerdo de la muestra con H
0
sin
especicar ninguna alternativa, es decir, sin precisar en qu modo habra de
presentarse, de existir, la discrepancia entre la muestra y la distribucin pres-
crita por H
0
.
Otros muchos ejemplos pueden darse de contrastes de signicacin puros: el
contraste de ajuste de Kolmogorov-Smirnov (vase Trocniz (1987), p. 255), con-
trastes de independencia, etc.
8.6.2. Caso de hiptesis compuestas
El problema se hace un poco ms complejo cuando la hiptesis de inters no
es simple sino compuesta; es decir, H
0
no especica por completo la distribucin
de la que supuestamente procede la muestra.
114 CAPTULO 8. CONTRASTE DE HIPTESIS.
Ejemplo 8.6 La hiptesis de normalidad sera compuesta: no hay una
nica distribucin normal, sino una familia de ellas.
Cuando esto ocurre, el modo tan simple de operar descrito ms arriba ya no es
de aplicacin. Podemos quiz encontrar todava un estadstico T(X) que sea buen
indicador de la discrepancia entre el comportamiento de la muestra y el esperable
bajo H
0
. El clculo de p
obs
ya no es en general, sin embargo, tan simple como el
mostrado en (8.28). Puede ocurrir que la probabilidad en el lado derecho de (8.28
sea diferente, dependiendo de la distribucin concreta que consideremos de entre
todas las que componen H
0
.
En general, las hiptesis compuestas suelen prescribir una familia de distribu-
ciones indeterminadas en el valor de uno o varios parmetros de ruido. As, en el
Ejemplo 8.6, H
0
prescriba para la muestra una distribucin N(,
2
) para valores
indeterminados de y . Cuando esto ocurre, hay varias soluciones que podemos
adoptar para realizar el contraste de signicacin deseado.
1. Estimar el o los parmetros de ruido. Esto es tanto como convertir la hipte-
sis compuesta en una simple similar, individualizando una nica distribu-
cin de entre todas las que componen H
0
.
Ejemplo 8.7 Supongamos que deseamos contrastar la hiptesis
de que una determinada muestra procede del muestreo de una distribu-
cin de Poisson, T(). Podramos estimar por
= N
1
i
X
i
y
contrastar la hiptesis simple resultante.
Hay que tener presente que, al estimar el o los parmetros haciendo
uso de la muestra, estamos seleccionando de entre todas las distribucio-
nes que componen H
0
una particularmente cercana a los datos anali-
zados. Este efecto deber de ordinario tenerse en cuenta en la obtencin
de la distribucin del estadstico de contraste T(X). Si hacemos uso de
un contraste
2
como el descrito en el Ejemplo 8.5, deberemos ahora
comparar el valor t
obs
con los cuantiles de una
2
k2
; el grado de libertad
perdido en la
2
recoge el hecho de que la distribucin T(
) es la ms
cercana a los datos de entre todas las T(), y por este motivo debemos
esperar que el valor de T(X) sea en promedio menor que si fuera un
valor previamente jado sin hacer uso de la muestra.
Observacin 8.5 Puede formalizarse la expresin la ms cerca-
na empleada en el ejemplo anterior. Si el procedimiento de estimacin
del o los parmetros de ruido es el de mxima verosimilitud, la distribu-
cin seleccionada de entre la familia que componen H
0
es la que est a
mnima distancia de Kullback-Leibler de la distribucin emprica de la
muestra.
Ejemplo 8.8 (contraste de normalidad) Para hacer un contraste
de normalidad sin especicar la distribucin normal concreta, po-
dramos estimar y y emplear un contraste de ajuste de Kolmogorov-
Smirnov. Compararamos as la distribucin emprica de la muestra con
la de una N( , ). Siendo el de Kolmogorov-Smirnov un contraste de
8.6. CONTRASTES DE SIGNIFICACIN PUROS 115
naturaleza asinttica, que se realiza con muestras de tamao bastante
grande, podramos en general prescindir del hecho de que hemos esti-
mado dos parmetros.
Lo que antecede es una ilustracin y no un modo aconsejado de
operar: hay contrastes especializados como el de dAgostino (vase
DAgostino (1971)) o el de Shapiro-Wilk (vase Shapiro y Francia (1972)
por ejemplo).
2. Podemos en algunos casos convertir la hiptesis compuesta en simple de un
modo ad hoc, como ilustra el ejemplo siguiente.
Ejemplo 8.9 Consideremos el caso en que X N(,
0
) y de-
seamos contrastar H
0
:
0
con
0
conocida. Un estadstico ade-
cuado sera T(X) = X, conduciendo al rechazo de H
0
valores conve-
nientemente grandes.
Necesitamos individualizar una entre todas las distribuciones en
N(,
0
) para hacer el clculo de p
obs
:
p
obs
= Prob T(X) t
obs
[H
0
; (8.30)
tiene sentido entonces calcular p
obs
as:
p
obs
= Prob T(X) t
obs
[N(
0
,
0
) . (8.31)
Hemos escogido la distribucin en la familia H
0
ms extrema. La lgica
de hacerlo as es que el p
obs
calculado bajo dicha distribucin es el mxi-
mo de los que calcularamos bajo cualquiera de las que componen H
0
.
Estamos as actuando de manera conservadora. La probabilidad de ob-
tener bajo H
0
una muestra tan o ms rara que la observada ser como
mximo p
obs
. Si p
obs
es convenientemente pequeo, podemos rechazar
conadamente H
0
.
3. Hay una tercera opcin, que cuando es factible es frecuentemente la pre-
ferida. En lugar de estimar los parmetros de ruido, podemos eliminarlos
considerando la distribucin condicional sobre un estadstico suciente para
los mismos. El ejemplo que sigue ilustra el modo de operar.
Ejemplo 8.10 Estamos interesados en contrastar ajuste a una dis-
tribucin de Poisson T(), sin precisar . Disponemos de una mues-
tra X = (X
1
, . . . , X
n
). Sabemos (ver Ejemplo 3.8, p. 36) que S =
n
i=1
X
i
es un estadstico suciente para , y que la distribucin con-
dicionada es
f
X|S
(x[s) =
s!
n
s
n
i=1
x
i
!
. (8.32)
Por consiguiente, condicionalmente en el valor observado s del esta-
dstico suciente, una muestra como la obtenido tiene una probabilidad
dada por el lado derecho de (8.32; llammosle . Podemos computar
p
obs
como la probabilidad de encontrar, dado S = s, una muestra tan o
ms rara que la obtenida:
p
obs
=
xC(s)
s!
n
s
n
i=1
x
i
!
, (8.33)
116 CAPTULO 8. CONTRASTE DE HIPTESIS.
siendo
((s) =
_
x :
s!
n
s
n
i=1
x
i
!
_
.
El problema de contrastar si la muestra dada procede de una T() con
indeterminado, ha quedado convertido en el problema de contrastar
si es plausible que la muestra obtenida x proceda de una distribucin
multinomial de parmetros (
1
n
, . . . ,
1
n
).
Ejemplo 8.11 (contraste exacto de Fisher) Un caso de gran apli-
cacin (y que ya fue discutido por Fisher) es aqul en que estamos in-
teresados en contrastar la independencia entre dos caracteres. Por ejem-
plo, si deseramos contrastar la efectividad de un cierto tratamiento pre-
ventivo, podramos administrarlo a un grupo de pacientes en tanto otros
homogneos reciben un placebo. Tras un periodo de tiempo, podramos
ver cuantos enfermaron de uno y otro grupo y compilar una tabla como
la siguiente (c
1
, c
2
, r
1
, r
2
son los totales de las y columnas respectiva-
mente):
Sano Enfermo
Placebo n
11
n
12
r
1
Tratamiento n
21
n
22
r
2
c
1
c
2
A la vista de la misma, desearamos contrastar independencia entre los
sucesos Tomar el tratamiento y Mantenerse sano.
Bajo la hiptesis de independencia entre ambos caracteres, la pro-
babilidad de estar en la casilla ij es p
ij
= p
i.
p
.j
, siendo p
i.
y p
.j
las
probabilidades marginales de estar en la la i y en la columna j. Las
probabilidades de cada casilla bajo la hiptesis de independencia de-
penden exclusivamente de las probabilidades marginales y c
1
, c
2
, r
1
, r
2
son estadsticos sucientes para las mismas (se comprueba fcilmente).
La distribucin condicionada sobre c
1
, c
2
, r
1
, r
2
de un resultado como
el recogido en la tabla es, bajo independencia, independiente de los pa-
rmetros: puede comprobarse (ver el desarrollo en, por ejemplo, Garn
y Tusell (1991), ejercicio 6.16) que dicha probabilidad es
p
=
_
c1
n11
__
c2
n12
_
_
n
r1
_ .
Podemos ahora considerar la clase formada por todas las tablas t que
pueden construirse respetando los mrgenes c
1
, c
2
, r
1
, r
2
y tienen una
probabilidad condicional menor que p
t
Prob t.
8.6.3. Hay que tener en cuenta que. . .
Los contrastes de signicacin tienen algunas peculiaridades que es preciso
considerar.
8.6. CONTRASTES DE SIGNIFICACIN PUROS 117
1. Los contrastes de signicacin evalan el acuerdo entre una muestra y una
determinada hiptesis nula, H
0
. No se explicita la alternativa, y ello puede
dar lugar a resultados absurdos por falta de cuidado al interpretar los resul-
tados. En particular, una muestra puede ser extremadamente rara bajo H
0
,
y an serlo ms bajo cualquiera de las situaciones que podamos considerar
como alternativas. En este caso, es necesario tomar en cuenta explcitamente
estas alternativas en el proceso de decisin.
Ejemplo 8.12 Si hubiramos de contrastar la hiptesis H
0
: X
N(0,
2
= 1) frente a toda alternativa, y contamos con 100 observacio-
nes, parece sensato computar como estadstico de contraste X y recha-
zar H
0
cuando X no est incluido en el intervalo (1,96/
100, 1,96/
100);
esto dara lugar a una prueba con un = 0,05. Si, sin embargo, la na-
turaleza del problema sugiriera que las nicas alternativas posibles son
distribuciones normales con varianza unitaria y media mayor que 5, se-
ra claramente inadecuado rechazar H
0
con un valor, por ejemplo, de
X = 2. Tal valor sera extremadamente raro bajo H
0
estara a veinte
desviaciones tpicas de la media, y sugerira su rechazo; pero an
sera ms raro bajo cualquiera de las alternativas! An cuando un con-
traste de signicacin no requiera la jacin de alternativas, debemos
estar vigilantes ante situaciones como la descrita, que sugieren una in-
suciente consideracin de los estados de naturaleza posibles.
2. En el caso de contrastes de signicacin es particularmente importante dis-
tinguir entre signicacin estadstica y relevancia prctica de la discrepancia
con H
0
que el contraste pone de maniesto. Sobre esta cuestin puede verse
Wang (1993), Cap. 1. El siguiente ejemplo ilustra la naturaleza del problema.
Ejemplo 8.13 Consideremos de nuevo la situacin en el Ejem-
plo 8.12. A efectos prcticos, puede acontecer que sea indiferente el
que la media sea = 10
8
en lugar de exactamente cero. No obs-
tante, incluso una diferencia tan minscula sera declarada signicati-
va con probabilidad tan cercana a uno como deseramos si el tamao
muestral crece lo suciente. En efecto, si adoptamos una regin crtica
como (t
/2
/
n, +t
/2
/
n)
c
, un n lo sucientemente grande har
que [t
/2
/
obs
y p
obs
. Siendo interpretables como probabilida-
des (de obtener una muestra tanto o ms rara que la obtenida, cuando H
0
es cierta), podra pensarse en p
obs
= p
obs
p
obs
como un nivel de signicacin
emprico sumarizando toda la evidencia disponible. Esto es incorrecto: vase
Cox y Hinkley (1974), Cap. 4 y Garn y Tusell (1991), ejercicio 9.12.
8.7. Contrastes localmente ms potentes
En ocasiones, la hiptesis alternativa es compuesta y no hay un contraste uni-
formemente mas potente. Una tctica que parece sensata podra ser maximizar la
potencia frente a una alternativa prxima. Por ejemplo, si tenemos H
0
: =
0
vs. H
a
: >
0
, podramos plantearnos escoger el contrate que permitiera discri-
minar ptimamente entre H
0
y la alternativa simple local H
a
: = + para
un pequeo.
De acuerdo con el teorema de Neyman-Pearson, la regin crtica que da lugar
al contraste ms potente para un prejado, sera:
RC =
_
x :
f
X
(x;
0
+)
f
X
(x;
0
)
k
_
, (8.34)
para algn k
; o, equivalentemente,
RC = x : log f
X
(x;
0
+) log f
X
(x;
0
) c
. (8.35)
Consideremos la variable aleatoria
log f
X
(X;
0
+) log f
X
(X;
0
) (8.36)
y desarrollemos en serie en torno al punto
0
. Tenemos entonces que
log f
X
(X;
0
+) log f
X
(X;
0
)
= log f
X
(X;
0
) +
_
log f
X
(X; )
_
=
0
log f
X
(X;
0
)
=
_
log f
X
(X; )
_
=
0
;
los trminos despreciados en el desarrollo en serie son de orden
2
y superior, y
por tanto despreciables frente al nico incluido cuando es muy pequeo. Cuando
la hiptesis nula es cierta, tenemos (en virtud del Lema 5.1 y (5.5) que
E
0
_
_
log f
X
(X; )
_
=
0
_
= 0 (8.37)
Var
_
_
log f
X
(X; )
_
=
0
_
=
2
E
0
_
log f
X
(X; )
_
2
=
0
(8.38)
= n
2
I(
0
). (8.39)
120 CAPTULO 8. CONTRASTE DE HIPTESIS.
Por consiguiente,
_
log f
X
(X;)
_
=
0
_
n
2
I(
0
)
(nI(
0
))
1
2
_
log f
X
(X; )
_
=
0
(8.40)
es una variable aleatoria tipicada que podemos emplear como estadstico de con-
traste si conocemos su distribucin. Esta ltima puede ser desconocida, pero para
n grande, teniendo en cuenta que cuando tenemos observaciones independientes e
idnticamente distribuidas
log f
X
(X; ) = log
n
i=1
f
X
(X
i
; ) =
n
i=1
log f
X
(X
i
; ), (8.41)
cabr esperar un fuerte efecto teorema central del lmite, y una distribucin de
(8.40) aproximadamente normal. Rechazaremos pues la hiptesis nula si
(nI(
0
))
1
2
_
log f
X
(X; )
_
=
0
> z
/2
, (8.42)
siendo z
/2
el cuantil adecuado de una distribucin N(0, 1). Alternativamente po-
dramos comparar el cuadrado de (8.42) con el cuantil
2
1;
.
En el caso en que hay varios parmetros, hemos de sustituir por y modicar
consecuentemente el desarrollo anterior; las ideas son las mismas. El resultado es
tambin similar: si hay k parmetros libres en , tenemos que bajo H
0
, asinttica-
mente
U(
0
)
(nI(
0
))
1
U(
0
)
2
k
, (8.43)
en que
U(
0
)
=
_
log f
X
(X; )
(1)
, . . . ,
log f
X
(X; )
(k)
_
(8.44)
y
(i)
es la i-sima componente de . Se conoce a este contraste como score test, o
tambin como contraste multiplicador de Lagrange.
A la vista de (8.37) y (8.39) podramos pensar tambin en contrastes haciendo
uso de:
(
0
)
(nI(
0
))
1
(
0
)
H
0
2
k
(8.45)
(
0
)
(nI(
))
1
(
0
)
H
0
2
k
; (8.46)
ambas son versiones asintticamente equivalentes del contraste de Wald. Vase
Garthwaite et al. (1995), p. 89.
Captulo 9
Mxima verosimilitud,
complejidad y seleccin de
modelos
9.1. Introduccin
William de Ockham (1290?1349?) propuso como criterio para seleccionar
lo que hoy llamaramos modelos el prescindir de complicaciones innecesarias; el
no multiplicar las entidades sin necesidad. Entre dos posibles explicaciones de
un mismo fenmeno, Ockham sugera as que retuviramos la ms simple. Un
principio que se ha popularizado como la navaja de Ockham.
Es difcil tal vez imposible justicar tal recomendacin si pretendemos
hacerlo con rigor. Se puede ver como una regla de economa intelectual. Pero ha
de ser la adecuacin entre modelo
1
y realidad lo que gue nuestro esfuerzo, si so-
mos realistas; no nuestra comodidad intelectual. Por qu hemos de preferir ex-
plicaciones simples si el mundo real, en muchas de sus manifestaciones, parece
extremadamente complejo?
Quiz la mejor lnea de defensa argumental de la recomendacin de Ockham
pueda basarse en su extraordinario xito. La bsqueda de explicaciones simples
ha sido un criterio que ha guiado la perspicacia de los cientcos casi invariable-
mente hacia buenos modelos: modelos con relativa gran capacidad explicativa
1
Siendo acaso muy impreciso con el lenguaje, utilizo modelo para designar un mecanismo
formalizable en ecuaciones matemticas que suponemos explica un fenmeno.
121
122CAPTULO9. MXIMAVEROSIMILITUD, COMPLEJIDADYSELECCINDEMODELOS
que frecuentemente se funden armoniosamente con otros en unicaciones progre-
sivamente mejores. Esto ha sucedido en Fsica y tambin en otras disciplinas.
Pero qu es simple? Porque para seguir el consejo de Ockham necesitamos
saber cuando uno de dos modelos es ms simple que otro.
Hay casos en los que hay poca duda. Entre dos modelos que proporcionen
predicciones igualmente buenas, si uno hace uso de todos los supuestos de otro
y alguno adicional, preferiremos el primero. Hablaremos en tal caso de modelos
anidados.
Pero esto es la excepcin y no la regla. Ms bien se nos presenta con frecuen-
cia el caso de modelos solapados o incluso aparentemente disjuntos. Se hace
mucho ms difcil en este caso decidir cul es el ms simple. Y el problema slo
puede complicarse cuando tenemos modelos estadsticos que ofrecen un grado di-
ferente de explicacin o ajuste de la evidencia emprica. Qu debemos preferir: un
modelo muy simple, que slo imprecisamente parece dar cuenta del fenmeno de
inters, u otro que logra gran precisin al coste de una complejidad mucho mayor?
Qu precio debemos pagar por la simplicidad en trminos de adecuacin de
los resultados proporcionados por nuestro modelo a los datos reales? O, alternati-
vamente, qu complejidad adicional est justicada por un mejor ajuste a la evi-
dencia?
Ejemplo 9.1 Consideremos el caso en que tratamos de establecer un
modelo de regresin relacionando la talla y el peso de un colectivo de per-
sonas. Imaginemos N pares de valores (Talla
i
, Peso
i
). Cabra imaginar una
relacin lineal entre ambos, o una relacin polinmica (que, a la luz de la
naturaleza de los datos, presupondramos fcilmente cbica). Es decir, pode-
mos pensar, entre otras, en las siguientes dos relaciones entre Talla y Peso:
Peso
i
=
0
+
1
Talla
i
+ (9.1)
Peso
i
=
0
+
1
Talla
i
+
2
(Talla
i
)
2
+
3
(Talla
i
)
3
+. (9.2)
Los
i
son parmetros y es una perturbacin aleatoria inobservable que
diluye la relacin entre las dos magnitudes objeto de estudio: dos personas de
la misma talla no necesariamente tienen el mismo peso. Es claro que (9.2) es
un modelo ms complejo que (9.1), que puede verse como un caso particular
de aqul.
No slo podramos pensar en dos relaciones como las citadas (la segunda
de las cuales siempre proporcionar un mejor ajuste que la primera, si nos
dejan escoger los parmetros). Podramos pensar en una relacin funcional
ajustando perfectamente los datos. Por ejemplo, un polinomio de grado N1
(suponemos que no hay abscisas Talla
i
repetidas). Intuitivamente, parece que
tal relacin funcional es mucho ms compleja, y aunque el ajuste a los N
puntos muestrales fuera perfecto, seramos bastante reticentes a aceptar un
polinomio de grado muy elevado como modelo adecuado de una relacin
subyacente entre talla y peso.
El ejemplo anterior sugiere que el nmero de parmetros de un modelo es un
candidato a medir su complejidad. Tambin que, a mayor numero de parmetros
si trabajamos con modelos anidados, mejor ajuste del modelo a los datos mues-
trales. Sin embargo, en una situacin como la anterior podramos acaso preferir una
9.2. LALGICAMXIMO-VEROSMILYLAELECCINDE MODELOS123
relacin cbica a una lineal la mejora de ajuste quiz vale los dos parmetros
adicionales de complejidad, pero seramos reticentes a admitir como modelo
un polinomio de grado N 1.
Este tipo de planteamiento se ha hecho desde largo tiempo, y hay un sin nme-
ro de criterios de bondad de ajuste que dan orientaciones para dirimir el conicto
ajustesimplicidad. Volveremos sobre ellos ms tarde tras considerar brevemente
las ideas de Kolmogorov, Chaitin y Solomonoff. A la luz de su contribucin y
a la de la precedente y fundamental de Shannon se puede ver el trabajo estads-
tico desde una nueva ptica, que ha encontrado un enrgico y brillante valedor en
Rissanen (vase Rissanen (1989)).
9.2. La lgica mximo-verosmil y la eleccin de modelos
9.2.1. Criterio mximo verosmil y modelos con diferente nmero de
parmetros
Es interesante ver el parentesco del principio de mxima verosimilitud con la
navaja de Ockham. No es la misma cosa, pero s muestra cierta similitud: evitar
el pensar en sucesos infrecuentes cuando hay alternativas ms plausibles que dan
cuenta de lo que observamos es un modo de buscar simplicidad.
Es preciso enfatizar que mientras el mtodo mximo-verosmil no ofrece pro-
blemas en la estimacin de los parmetros de un modelo, no es utilizable tal cual
para escoger entre modelos con diferente nmero de parmetros: los modelos ms
parametrizados tendern a dar valores mayores de la funcin de verosimilitud, sin
que ello suponga que sean mejores. El siguiente ejemplo es ilustrativo.
Ejemplo 9.2 Supongamos cien monedas, aparentemente idnticas, ca-
da una de ellas con dos caras que denotamos por cara (C) y cruz (+).
Imaginemos que cada una de ellas tiene probabilidad de proporcionar C en
un lanzamiento
2
y correlativa probabilidad 1 de proporcionar +.
Lanzamos las cien monedas y obtenemos el resultado x = (x
1
, . . . , x
100
)
con sesenta C y cuarenta +. La Teora de la Probabilidad indica que si la
probabilidad de C es , la probabilidad del suceso considerado
3
viene dada
por,
P(x[) =
60
(1 )
40
; (9.3)
un sencillo clculo muestra que el estimador mximo verosmil de (que
hace mxima (9.3)) es
=
6
10
. El correspondiente valor de P(x[) es
5,9085 10
30
. Llamamos verosimilitud de la muestra x = (x
1
, . . . , x
100
)
a la expresin (9.3) vista como funcin de . El maximizar dicha expresin
respecto de supone entonces escoger el valor del parmetro (estado de la
Naturaleza) que hace ms probable un suceso como el observado.
2
Con lo cual, para simplicar, queremos decir que imaginamos que en una sucesin muy larga de
lanzamientos tenderamos a observar un 100de C y el resto de +.
3
Es decir, sesenta caras y cuarenta cruces precisamente en el orden en que han aparecido; si
prescindiramos de considerar el orden, la cifra dada habra de multiplicarse por
`
100
60
.
124CAPTULO9. MXIMAVEROSIMILITUD, COMPLEJIDADYSELECCINDEMODELOS
Una alternativa sera imaginar que cada moneda, pese a ser aparentemen-
te idntica a las restantes, tiene su propia probabilidad de proporcionar C
+. La expresin (9.3) se transformara entonces en
P(x[) =
j
(1
j
), (9.4)
en que el primer producto consta de sesenta trminos y el segundo de cuaren-
ta. Siendo 0 1, (9.4) se maximiza dando a
k
, k = 1, . . . , 100, valor
1 0, segn la moneda correspondiente haya proporcionado cara o cruz. El
valor mximo de (9.4) es as 1.
Es poco natural atribuir a cada moneda una probabilidad
i
de cara
diferente, habida cuenta de que parecen iguales. Obviamente, al hacerlo ma-
ximizamos la probabilidad de observar algo como lo acontecido: con la elec-
cin referida de los cien parmetros
1
, . . . ,
100
el suceso observado pasara
a tener probabilidad 1, lo que hace el suceso casi seguro! Sin embargo, aparte
de poco atractivo intuitivamente, el modelo es claramente ms complejo que
el que usa slo un parmetro, y difcilmente sera adoptado por nadie. Y ello
a pesar de que tendra ptima capacidad generadora de un resultado como el
observado.
Observacin 9.1 Un fenmeno similar al que el ejemplo anterior mues-
tra en un caso un tanto articial y extremo se presenta cuando tratamos de
seleccionar un modelo de regresin lineal. En presencia de normalidad en las
perturbaciones, es fcil ver que el valor de la verosimilitud decrece monto-
namente al crecer la suma de cuadrados de los residuos (SSE). Seleccionar el
modelo dando lugar al mximo valor de la verosimilitud, sera equivalente a
tomar aqul con mnima suma de cuadrados. Esto a su vez implica favorecer
los modelos excesivamente parametrizados, porque la inclusin de un nuevo
regresor siempre hace disminuir (o por lo menos no aumentar) SSE.
Como conclusin provisional de lo anterior, el criterio mximo verosmil es
intuitivamente atrayente, aparte de tener propiedades muy deseables en grandes
muestras (vase por ejemplo, Lehmann (1983); Cox y Hinkley (1974)); pero no
puede tomarse en consideracin para comparar modelos cuya complejidad en
un sentido an por determinar, pero que parece tener mucho que ver con el nmero
de parmetros es muy disimilar.
9.2.2. El criterio AIC
Akaike propuso (ver Akaike (1972), Akaike (1974) reimpreso en Akaike (1991))
un criterio de seleccin de modelos que toma en cuenta el nmero de parmetros
ajustados en cada uno: busca con ello corregir la tendencia del criterio mximo
verosmil a favorecer los modelos ms parametrizados. El criterio AIC enlaza con
trabajo anterior del mismo autor (ver Akaike (1969), Akaike (1970)) y fue la pri-
mera de una larga serie de propuestas similares. Examinaremos en lo que sigue su
fundamento siguiendo los trabajos Akaike (1991) y de Leeuw (2000).
9.2. LALGICAMXIMO-VEROSMILYLAELECCINDE MODELOS125
Consideramos el caso en que con una muestra de tamao N hemos de selec-
cionar uno entre m modelos. Cada uno de ellos se caracteriza por pertenecer su
vector de parmetros a un diferente espacio paramtrico,
k
. Se verica
. . .
k
k+1
. . .
m
; (9.5)
denotamos
k
k
al vector de parmetros correspondiente al modelo k-simo,
y
k
a su estimador mximo verosmil.
Ejemplo 9.3 Consideremos modelos autorregresivos de rdenes cre-
cientes,
X
t
=
1
X
t1
+. . . +
k
X
tk
+; (9.6)
tenemos que = (
1
, . . . ,
k
)
, > k,
podemos recurrir al estadstico razn generalizada de verosimilitudes (Seccin 8.5,
pg. 109). En efecto, bajo H
0
tenemos que
2 log
e
_
max
k
f
X
(x; )
max
f
X
(x; )
_
2
k
(9.7)
y rechazaremos H
0
si el estadstico en el lado izquierdo excede el valor crtico
2
k;
. No habra ningn problema si dejramos jo. El problema se presen-
ta cuando al crecer el tamao muestral N, crecen tambin k y . En tal caso,
max
f
X
(x; ) puede llegar a ser una estimacin completamente distorsiona-
da optimista debido al gran nmero de parmetros ajustados. El criterio AIC
da una respuesta a este problema. Consideremos la expresin:
E
Y
_
_
f
X
(x;
0
) log
e
_
f
X
(x;
(Y ))
f
X
(x;
0
)
_
dx
_
. (9.8)
Observemos que, para un cierto
=
(Y ), la expresin en el corchete es (con
signo opuesto) la distancia de Kullback-Leibler entre las densidades f
X
(x;
) y
f
X
(x;
0
). Maximizar dicho corchete equivaldra a maximizar
_
f
X
(x;
0
) log
e
f
X
(x;
)dx
1
n
n
i=1
log
e
f
X
(z
i
,
), (9.9)
lo que muestra que
debera ser aproximadamente el estimador mximo verosmil.
Limitarse a maximizar el corchete estara sujeto a los problemas derivados de tomar
como modelo el que maximiza la verosimilitud (Ejemplo 9.2 y Observacin 9.1
ms arriba). Pero la propuesta de Akaike es diferente: propone maximizar toda la
expresin (9.8).
126CAPTULO9. MXIMAVEROSIMILITUD, COMPLEJIDADYSELECCINDEMODELOS
Para convencernos de la razonabilidad de (9.8) como expresin a maximizar
podemos reescribirla en trminos de Teora de la Decisin. Tenemos que
L(
0
,
) =
_
f
X
(x;
0
) log
e
_
f
X
(x;
(Y ))
f
X
(x;
0
)
_
dx (9.10)
es una medida razonable de la prdida derivada de seleccionar el modelo corres-
pondiente a
en lugar del correcto, correspondiente a
0
. El riesgo
r
0
(
) = E
Y
_
L(
0
,
(Y ))
_
(9.11)
coincide entonces (salvo en el signo) con la expresin propuesta por Akaike, de
manera que maximizar (9.8) es equivalente a minimizar el riesgo (9.11).
La expresin (9.11) depende de
0
, y no es por ello directamente minimizable.
Pero
2r
0
(
k
) = E
Y,X
_
2 log
e
_
f
X
(x;
k
(Y ))
f
X
(x;
0
)
__
(9.12)
2
n
n
i=1
log
e
_
f
X
(x
i
;
k
)
f
X
(x
i
,
0
)
_
(9.13)
def
= D
n
(
k
,
0
). (9.14)
Dado que D
n
(
k
,
0
) no es evaluable (depende de
0
), podemos tratar de estimar
2r
0
(
k
) por D
n
(
k
,
); si la parametrizacin correcta
0
se encuentra entre
las consideradas, entonces, al ajustar el modelo ms parametrizado
0
y
podramos esperar que D
n
(
k
,
)
p
D
n
(
k
,
0
). Este no tiene por qu ser el
caso si cuando n : en tal caso, D
n
(
k
,
k
,
0
), debido al gran nmero de parmetros empleado en su
denominador. El criterio AIC busca corregir este sesgo optimista obteniendo una
estimacin aproximadamente insesgada de D
n
(
k
,
0
).
En lugar de utilizar la funcin de prdida directamente nos serviremos de apro-
ximaciones de segundo orden como
L(
0
, ) L(
0
,
0
)+
_
L
(
0
, )
=0
(
0
)+(
0
)
_
L
(
0
, )
=0
(
0
);
9.2. LALGICAMXIMO-VEROSMILYLAELECCINDE MODELOS127
bajo sucientes condiciones de regularidad,
_
L
(
0
, )
=0
=
_
_
f
X
(x;
0
) log
e
_
f
X
(x; )
f
X
(x;
0
)
_
dx
_
=0
=
_
f
X
(x;
0
)
_
log
e
f
X
(x; )
_
=0
dx
=
_
f
X
(x;
0
)
1
f
X
(x;
0
)
_
f
X
(x; )
_
=0
dx
=
_ _
f
X
(x; )
_
=0
dx
=
_
_
f
X
(x; )dx
_
=0
= 0.
En consecuencia,
L(
0
, ) (
0
)
(
0
, )(
0
). (9.15)
Como (vase la Denicin 5.1, pg. 62)
_
L
(
0
, )
(0)
= I(
0
), (9.16)
en que I(
0
) es la informacin de Fisher contenida en X, tenemos que
L(
0
, ) (
0
)
I(
0
)(
0
). (9.17)
Denamos ., .)
I(0)
as:
a, b)
I(0)
= a
I(
0
)b, (9.18)
y consiguientemente |a|
2
I(0)
= a
I(
0
)a. Sea
0|k
def
= arg mn
|
0
|
2
I(0)
, (9.19)
es decir, la proyeccin de
0
sobre
k
en la mtrica inducida por ., .)
I(0)
. Tene-
mos entonces que:
L(
0
,
k
) (
0
)
I(
0
)(
0
)
= |
0
|
2
I(0)
= |
0|k
|
2
I(0)
+|
0|k
0
|
2
I(0)
+
0|k
,
0|k
0
)
I(0)
. (9.20)
Consideremos ahora
n
D
n
(
0
,
0|k
) n(
0
0|k
)
I(
0
)(
0
0|k
)
n
D
n
(
k
,
0|k
) n(
0|k
)
I(
0
)(
0|k
).
128CAPTULO9. MXIMAVEROSIMILITUD, COMPLEJIDADYSELECCINDEMODELOS
Cuando n ,
0
0
y
k
0|k
. Supongamos que k de modo que
0|k
a la velocidad suciente (basta que n
1
2
(
0|k
) , .) Entonces,
n
D
n
(
0
,
0|k
) n|(
0
0|k
)|
2
I(0)
n
D
n
(
k
,
0|k
) n|(
0|k
)|
2
I(0)
y tomando la diferencia de ambas expresiones,
n
D
n
(
k
,
0
) n|(
0
0|k
)|
2
I(0)
n|(
0|k
)|
2
I(0)
= n|
0|k
|
2
I(0)
+n|
0
|
2
I(0)
2n
0
,
0|k
0
)
I()
n|
0|k
|
2
I(0)
(9.21)
Haciendo uso de (9.20) y (9.21) y tomando valor medio, los productos internos son
aproximadamente cero en comparacin con los otros trminos y tenemos:
E
_
nL(,
k
) n
D
n
(
k
,
0
)
_
= E
_
n|
0|k
|
2
I(0)
+n|
0|k
|
2
I(0)
2n
0|k
,
0|k
)
I()
n|
0|k
|
2
I(0)
n|
0
|
2
I(0)
+ 2n
0
,
0|k
)
I()
+n|
0|k
|
2
I(0)
_
.
(9.22)
Cancelando trminos de signo opuesto nos queda:
E
_
nL(,
k
) n
D
n
(
k
,
0
)
_
= 2n|
0|k
|
2
I(0)
n|
0
|
2
I(0)
. (9.23)
Por lo tanto, el sesgo en que incurrimos al aproximar E[nL(,
k
)], que es lo
que desearamos utilizar, por E[n
D
n
(
k
,
0
)], que es lo que podemos utilizar, es
la suma de los dos trminos en (9.23). El ltimo de ellos es independiente de k,
y podemos prescindir de l. El primero tiene valor medio 2k. Por consiguiente,
adoptaremos como modelo el que corresponda a
k
minimizando
n
D
n
(
k
,
0
) + 2k, (9.24)
lo que a la vista de la denicin de
D
n
(
k
,
0
) en (9.12) equivale a minimizar
AIC(
k
) =
2
n
n
i=1
log
e
f
X
(x
i
;
k
) + 2k, (9.25)
expresin habitualmente utilizada como denicin del criterio AIC.
9.3. TEORA DE LA INFORMACIN 129
9.3. Teora de la informacin
Precisamos de un ltimo ingrediente antes de introducir la nocin de comple-
jidad segn Kolmogorov-Chaitin-Solomonoff, y su aplicacin, entre otras, estads-
tica. Es la Teora de la Informacin, para la que Shannon (1948) (reimpreso en
Shannon y Weaver (1949)) contina siendo una referencia fundamental adems de
fcilmente accesible a no matemticos. Otros textos introductorios son Abramson
(1966) y Cullman et al. (1967).
Supongamos una fuente aleatoria de smbolos a
1
, . . . , a
k
que genera una su-
cesin de los mismos con probabilidades respectivas p
1
, . . . , p
k
. Supongamos que
smbolos sucesivos se generan de modo independiente
4
. Nos planteamos el pro-
blema de codicar (por ejemplo, binariamente) el ujo de smbolos, de tal modo
que la transmisin de los mismos pueda hacerse con el mnimo nmero de dgitos
binarios en promedio.
La solucin es bastante obvia, y no se separa de la que Samuel Morse adopt
sobre base intuitiva al disear el cdigo que lleva su nombre: reservaremos pala-
bras de cdigo (dgitos binarios, o combinaciones de ellos) cortas a los smbolos
que se presenten con gran probabilidad, y asignaremos las de mayor longitud a los
smbolos ms improbables. De este modo, gran parte del tiempo estaremos trans-
mitiendo palabras de cdigo cortas
5
.
Shannon dio base matemtica a esta intuicin, obteniendo algunos resultados
de gran inters. En lo que sigue, slo se proporcionan versiones simplicadas de
algunos de ellos, que no obstante retienen bastante de su inters y evitan compli-
caciones formales. Pero bastantes enunciados podran ser ms generales
6
.
Central a la Teora de la Informacin es el concepto de entropa. Si tenemos una
fuente aleatoria como la aludida al comienzo de la seccin, generando k smbolos
independientemente unos de otros con probabilidades respectivas (p
1
, . . . , p
k
), la
entropa de la fuente (o de la distribucin asociada a ella) viene dada por
H(p)
def
=
k
i=1
p
i
log
2
p
i
,
con el convenio de que p log
2
p = 0 si p = 0. La funcin H(p) tiene bastantes
propiedades interesantes. Una de ellas, inmediata, es que se anula cuando la dis-
tribucin de smbolos se hace causal es decir, cuando un smbolo se genera con
probabilidad 1 y el resto con probabilidad cero. Alcanza su mximo cuando la
distribucin es lo ms difusa posible en el caso de una distribucin discreta que
puede dar lugar a k smbolos, cuando cada uno de ellos tiene probabilidad
1
k
de
aparecer.
4
Es decir, que la fuente es de memoria nula. Se puede extender la teora a fuentes markovianas
en que este supuesto est ausente.
5
Morse reserv el . para la letra e, muy frecuente en ingls, reservando para smbolos bastante
ms infrecuentes los cdigos ms largos (por ejemplo el cero, 0, codicado mediante -----).
6
En particular, las distribuciones utilizadas podran ser continuas en vez de discretas, y los loga-
ritmos en cualquier base, en lugar de binarios.
130CAPTULO9. MXIMAVEROSIMILITUD, COMPLEJIDADYSELECCINDEMODELOS
Cuadro 9.1: Ejemplo de construccin de cdigo de Fano-Shannon.
Smbolo p
i
P
i
=
j<i
p
j
P
i
L(i) = log
2
p
i
Cdigo
a
1
0,500 0 0.000000. . . 1 0
a
2
0,250 0,500 0.100000. . . 2 10
a
3
0,125 0,750 0.110000. . . 3 110
a
4
0,125 0,875 0.111000. . . 3 111
Un resultado muy fcil de demostrar
7
es el siguiente:
Teorema 9.1 Para cualesquiera distribuciones discretas asignando respectivamen-
te probabilidades (p
1
, . . . , p
k
) y (q
1
, . . . , q
k
) a k smbolos (a
1
, . . . , a
k
), se tiene:
i=1
p
i
log
2
q
i
k
i=1
p
i
log
2
p
i
. (9.26)
Hay otros interesantes hechos en los que la entropa juega un papel central. Por
ejemplo, la mejor codicacin que podemos hacer de los smbolos (a
1
, . . . , a
k
)
requiere en promedio un nmero de dgitos binarios por smbolo acotado inferior-
mente por H(p). Esto es intuitivamente coherente con la interpretacin ya aludida
de la entropa: H(p) muy baja, signicara distribucin de las probabilidades de los
smbolos muy concentrada (dando gran probabilidad a uno o unos pocos smbolos,
y poca al resto). Ello permitira codicar los pocos smbolos muy probables con
palabras de cdigo muy cortas, y slo raramente hacer uso de palabras ms largas
(para los smbolos ms improbables).
Ejemplo 9.4 (cdigo de Fano-Shannon) Veamos un modo de hacerlo.
Supongamos una fuente generando cuatro smbolos a
1
, a
2
, a
3
, a
4
ordenados
de acuerdo a sus probabilidades respectivas p
1
, p
2
, p
3
, p
4
. Supongamos que
stas son las que se recogen en la segunda columna del Cuadro 9.1. Sea
P
i
=
j<i
p
i
como se indica en el Cuadro 9.1. Las palabras de cdigo se
asignan tomando una parte de la expresin binaria de P
i
de longitud L(i)
igual a log
2
p
i
redondeado a la unidad superior. Intuitivamente, es fcil ver
que el cdigo anterior es razonable: asigna palabras cortas a los smbolos
ms probables que ocupan las primeras posiciones en la tabla y progre-
sivamente ms largas al resto.
El cdigo de Fano-Shannon comparte con otros una propiedad que se deriva
fcilmente del proceso constructivo que hemos seguido (vase por ejemplo Li y
Vitnyi (1993), p. 63) y que es aparente en la ltima columna del Cuadro 9.1:
ninguna palabra de cdigo es prejo de otra de longitud mayor. Por ejemplo, a
2
se
7
Vase por ejemplo Abramson (1966), p. 30.
9.3. TEORA DE LA INFORMACIN 131
Figura 9.1: Arbol binario completo de profundidad tres
0
00
000 001
01
010 011
1
10
100 101
11
110 111
2
L(i)
=
1
8
codica por 10 que no es comienzo de ninguna de las dos palabras de cdigo de
longitud tres (110 y 111). Esta propiedad la de ser un cdigo libre de prejos o
instantneo permite decodicar al vuelo. Cuando observamos 10, sabemos que
hemos llegado al nal de una palabra, que podemos decodicar como a
2
; esto no
ocurrira si nuestro cdigo incluyera palabras como 101.
Los cdigos libres de prejos tienen longitudes de palabra L(i) vericando la
llamada desigualdad de Kraft, recogida en el siguiente
Teorema 9.2 La condicin necesaria y suciente para que exista un cdigo libre
de prejos con longitudes de palabra L(1), . . . , L(k) es que
i
2
L(i)
1 (9.27)
DEMOSTRACIN
:
La demostracin es muy simple. Pensemos en todas las posibles palabras de to-
das las longitudes dispuestas en un rbol binario como el recogido en el Grco 9.1
(truncado a la profundidad 3). Si utilizramos como palabras de cdigo todas las
de longitud 3, tendramos L(i) = 3 y 2
l(i)
=
1
8
para i = 1, . . . , 8 y la inecuacin
(9.27) se vericara con igualdad.
Si escogemos una de las palabras de longitud inferior (uno de los nodos que no
son hojas en el Grco 9.1), el requerimiento de ausencia de prejos nos obliga
a prescindir de todas las palabras correspondientes a nodos hijos. El Grco 9.2
132CAPTULO9. MXIMAVEROSIMILITUD, COMPLEJIDADYSELECCINDEMODELOS
Figura 9.2: Arbol binario truncado
0
2
L(i)
= 2
1
=
1
2
1
10
100
2
L(i)
= 2
3
=
1
8
101
2
L(i)
= 2
3
=
1
8
11
2
L(i)
= 2
2
=
1
4
representa un rbol truncado con cuatro nodos terminales u hojas, junto a las que
se ha escrito 2
L(i)
. Vemos que el tomar en 0 obliga a prescindir de 01, 00, y todos
sus descendientes; pero 2
1
contribucin de 0 al lado izquierdo de (9.27) es
igual a la suma de las contribuciones a dicha expresin de todos los descendientes
de los que hemos de prescindir.
Por tanto, trunquemos como trunquemos el rbol binario, la suma de 2
L(i)
ex-
tendida a sus hojas o nodos terminales ser siempre 1. La desigualdad (9.27) slo
es estricta cuando despreciamos algn nodo terminal al construir nuestro cdigo.
Podemos ya bosquejar la demostracin del siguiente resultado:
Teorema 9.3 Dada una fuente aleatoria con entropa H(p) =
i
p
i
log
2
p
i
cualquier cdigo instantneo precisa un promedio de al menos H(p) dgitos bina-
rios de cdigo por smbolo. Es decir, si la palabra codicando a
i
tiene longitud
L(i), se verica:
i
p
i
L(i)
i
p
i
log
2
p
i
(9.28)
DEMOSTRACIN:
Denamos
q
i
=
2
L(i)
i
2
L(i)
, (9.29)
9.4. COMPLEJIDAD EN EL SENTIDO DE KOLMOGOROV 133
con lo que
log
2
q
i
= L(i) log
2
_
i
2
L(i)
_
L(i). (9.30)
La desigualdad anterior junto con el Teorema 9.1 proporcionan entonces de inme-
diato (9.28).
Obsrvese que el cdigo de Fano-Shannon haca L(i) log
2
p
i
(redondeaba
a la unidad superior): aproximadamente lo correcto. Vericara (9.28) con igualdad
si log
2
p
i
(i = 1, . . . , k) resultaran ser siempre nmeros enteros. En cualquier ca-
so, el resultado que nos interesa es que para codicar un evento de probabilidad p
i
,
el cdigo libre de prejos ptimo requiere del orden de log
2
p
i
dgitos binarios.
9.4. Complejidad en el sentido de Kolmogorov
9.4.1. Informacin y complejidad
Estamos ya en condiciones de abordar la nocin de complejidad segn Kolmogorov-
Chaitin-Solomonoff.
De cuanto se ha visto en la Seccin 9.3 se deduce que log
2
p
i
mide aproxima-
damente la informacin contenida en a
i
. Se da sin embargo una paradoja, ya puesta
de maniesto por Laplace (vase por ejemplo Cover et al. (1989)), que sugiere em-
plear como medida de la complejidad de a
i
algo diferente (aunque ntimamente
relacionado con lo anterior).
Imaginemos las dos siguientes cadenas de dgitos binarios:
0000000000000000000000000000000
0011010001011101010001010111011
Ambas tienen el mismo nmero de dgitos binarios, 31. Si imaginamos el con-
junto de todas las cadenas de 31 dgitos binarios hay 2
31
diferentes y tomamos
de ellas una al azar, cualquiera de las dos exhibidas tiene la misma probabilidad de
aparecer: 2
31
. Sin embargo, desearamos asignar a la primera una complejidad
menor que a la segunda. Un modo de racionalizar esto es que podemos transmitir
la primera a un tercero mediante una descripcin muy parca: treinta y un ceros.
La segunda requiere una descripcin ms verbosa, que a duras penas podra ser
ms escueta que la cadena misma
8
.
8
Esto es lo que caracteriza a las cadenas binarias tpicas; vase por ejemplo Li y Vitnyi (1993).
134CAPTULO9. MXIMAVEROSIMILITUD, COMPLEJIDADYSELECCINDEMODELOS
9.4.2. Complejidad de Kolmogorov
Una idea prometedora en lnea con la discusin anterior fue propuesta en los
aos sesenta por Solomonoff, Kolmogorov y Chaitin, de manera independiente
unos de otros y con ligeras variantes
9
. La complejidad de Kolmogorov de una ca-
dena binaria x es la longitud del mnimo programa p capaz de computarla. For-
malmente,
C
f
(x) = mn l(p) : f(p) = x . (9.31)
Por razones tcnicas, f en (9.31) debe ser una funcin recursiva el tipo de fun-
cin que puede computar una mquina de Turing. Naturalmente, el programa
p que, al ser ejecutado por el computador f, produce la cadena x, depende de
f. Sea cual fuere x, podramos imaginar un computador especializado que tan
pronto se pone en marcha imprime x es decir, que requiere un programa de lon-
gitud l(p) = 0 para computar x. Implicara esto que la complejidad de x es cero?
No. La complejidad de x relativa a la mquina de Turing que computa f ven-
dra dada por (9.31). Relativa a otra mquina de Turing computando la funcin g
sera C
g
(x), denida anlogamente a C
f
(x). Deniremos la complejidad de Kol-
mogorov en relacin a una mquina de Turing universal una mquina que con
el programa adecuado puede emular cualquier otra. No hay una nica mquina
universal, pero para dos mquinas universales de Turing computando las funciones
u y v y para cualquier cadena x se verica
[C
u
(x) C
v
(x)[ c
u,v
, (9.32)
en que c
u,v
es una constante que depende de u y de v, pero no de x.
Ejemplo 9.5 En Li y Vitnyi (1993) se propone una ilustracin de lo
anterior que ayuda a la intuicin a ver el sentido de (9.32). Hay lenguajes
de alto nivel especializados en clculo numrico y en clculo simblico:
FORTRAN y LISP seran dos buenos ejemplos. Cierto tipo de problemas
pueden programarse muy fcilmente en FORTRAN y son considerablemente
ms farragosos en LISP; en otros ocurre lo contrario. Pero podramos imagi-
nar programar en FORTRAN un intrprete de LISP (requiriendo un programa
de c
1
bits de longitud) y en LISP uno de FORTRAN (requiriendo a su vez
una longitud de c
2
bits). Entonces, la diferencia de longitudes de programa
para resolver un mismo problema en FORTRAN o LISP nunca excedera de
c
F,L
= max c
1
, c
2
; C
F,L
sera el mximo precio a pagar para implemen-
tar el lenguage ms favorable al problema a mano en el otro lenguaje. Este
precio es independiente del programa que se desea ejecutar: una vez pro-
gramado en FORTRAN un interprete de LISP podemos emplear ste para
ejecutar programas en LISP de cualquier longitud.
9
La precedencia en el tiempo parece corresponder a Solomonoff: como en tantas otras ocasiones,
la escena estaba preparadas en los aos cincuenta para que investigadores trabajando de modo inde-
pendiente llegarn a resultados similares. Vase una historia somera en Li y Vitnyi (1993), Seccin
1.6.
9.4. COMPLEJIDAD EN EL SENTIDO DE KOLMOGOROV 135
Todas las mquinas de Turing universales (o, alternativamente, las funciones
recursivas que computan) se agrupan en clases de equivalencia en que cada pareja
de funciones verica (9.32), para una constante que slo depende de la pareja con-
siderada. Se puede demostrar que existe una clase mnima, en el sentido de que
(9.32) no se verica para ninguna constante c
u,v
si u pertenece a la clase mnima y
v no. Entonces, C
u
(x) dene (salvo una constante) la complejidad de una cadena
binaria x.
9.4.3. C
u
(x) no es computable
i=1
i
. (9.33)
El criterio MDL propone tomar el modelo que minimiza la longitud total de
cdigo, la necesaria para los datos x ms la necesaria para los parmetros:
MDL = log
2
P(x[) +l() (9.34)
= log
2
P(x[) log
2
()
k
i=1
log
2
i
. (9.35)
en que l() es la longitud de cdigo necesaria para transmitir el o los parmetros
empleados. Un ejemplo, de nuevo articialmente simple, ilustra esto.
Ejemplo 9.7 (continuacin del Ejemplo 9.2) Imaginemos que decidi-
mos truncar el valor de en el Ejemplo 9.2 a 8 bits por tanto slo consi-
deramos valores con una resolucin de = 2
8
0,003906. Llamemos
_
log
2
60
(1 )
40
log
2
() log
2
_
(9.36)
Si suponemos constante, slo nos hemos de preocupar de minimizar el pri-
mer trmino. De poder escoger libremente, tomaramos = 0,60. Como
estamos truncando los valores, 0.60 no es alcanzable, pero s lo son (153 +
1
2
)/256 = 0,599609 y (154 +
1
2
)/256 = 0,603516, puntos medios de inter-
valos de longitud 1/256 en que se subdivide [0, 1] cuando se emplea preci-
sin = 2
8
= 1/256. El primero de ellos proporciona el mnimo valor de
log
2
P(x[), que resulta ser 97,0951. Requerimos un total de 97,0951 +
8 = 105,0951 bits como longitud de descripcin.
Una alternativa (tal y como se discuti a continuacin del Ejemplo 9.2)
sera considerar cien parmetros, uno para cada moneda. Ello hara casi
seguro el suceso observado, y el primer sumando de (9.36) sera cero
especicados los parmetros, no hara falta ningn cdigo para especicar el
resultado. Pero el tercer sumando sera, para la misma precisin, mucho
mayor: 800 bits! Aunque el modelo binomial haciendo uso de cien parme-
tros hace casi seguro el resultado observado, es inferior al que slo hace uso
de slo un parmetro, debido al coste de codicar noventa y nueve parme-
tros adicionales.
138CAPTULO9. MXIMAVEROSIMILITUD, COMPLEJIDADYSELECCINDEMODELOS
Cuadro 9.2: Longitud de descripcin para diferentes valores de .
q
MV
90
(1
)
10
log
2
90
(1
)
10
MDL
1 0.50000 0.90 0.75 5,4314 10
18
57.35 58.35
2 0.25000 0.90 0.875 5,6211 10
15
47.34 49,34
MV
= 0,9. El Cuadro 9.2 muestra el valor de
entre los posibles que minimiza MDL para cada q. Con un asterisco se seala
la descripcin ms escueta de los datos a que se llega. Obsrvese que cuando
consideramos una precisin de = 2
q
estamos dividiendo [0, 1] en 2
q
in-
tervalos del la forma [n2
q
, (n + 1)2
q
) (n = 0, 2
q
1), cuyo punto medio
es n2
q
+ 2
q1
; stos son los valores que se recogen en la columna
.
Obsrvese que aqu la longitud de descripcin es acusadamente menor
que los 100 bits que requerira describir el resultado de nuestro experimento.
Al ser uno de los resultados (C) considerablemente ms frecuente, podemos
disear un cdigo que tenga esto en consideracin. No ocurra lo mismo en el
Ejemplo 9.7, en que la ligera mayor probabilidad de C dejaba poco margen
a la optimizacin del cdigo; como se vio, la ventaja obtenida no alcanzaba
a pagar la especicacin del parmetro necesario.
9.5.3. De la MDL a la complejidad estocstica
P(x[)() (9.37)
(vase Rissanen (1989) para ms detalles). Adems, en el caso de que no tengamos
una distribucin a priori sobre los parmetros, podemos emplear la distribucin
a priori universal. Supongamos que deseamos una codicacin que asigne una
palabra de cdigo a todos los nmeros naturales n, sobre los que hay denida
una distribucin P(n). Bajo condiciones muy generales, existe una codicacin
asignando longitud de palabra L
N
n=0
P(n)L
(n)
N
n=0
P(n) log
2
n
= 1 (9.38)
Merece la pena examinar la igualdad anterior: hay una codicacin que es asint-
ticamente ptima sobre los enteros y que es todo terreno! Vale sea cual fuere la
distribucin denida sobre ellos, con tal de que sea montona decreciente a partir
de algn n dado! La funcin L
(n) = log
2
c + log
2
log
2
n + log
2
log
2
log
2
n +. . . ; (9.39)
con c = 2,865, verica la desigualdad de Kraft y a partir de ella puede obtener-
se una distribucin a priori universal: P(n) = 2
L
(i)
. Esta es la que Rissanen
propone utilizar en la denicin de complejidad estocstica
11
. En el caso en que
tenemos parmetros que no toman valores enteros, se puede tambin denir una
distribucin a priori universal del modo descrito en Rissanen (1983).
9.5.4. Ideas relacionadas y conexas
Aunque en el Ejemplo 9.8 se ha buscado la longitud de descripcin minimi-
zando explcitamente sobre la precisin (en el Cuadro 9.2), en la prctica no es
preciso recorrer un camino similar con cada modelo que se prueba. Argumentos
de tipo asinttico dan un resultado similar en forma mucho ms simple. Habitual-
mente slo se requiere computar una funcin que da aproximadamente la longitud
de descripcin, y que tpicamente consta de una parte que disminuye al mejorar el
ajuste a los datos (trmino de delidad o ajuste) y otra que crece con el nmero de
parmetros (trmino de penalizacin de la complejidad del modelo). Por ejemplo,
de modo bastante general (vase Rissanen (1989) para las condiciones necesarias)
la mnima longitud de descripcin de x = (x
1
, . . . , x
N
) utilizando un modelo con
p parmetros viene dada por:
MDL(p) = log
_
P(x[
)(
)
_
+
p
2
log N +O(p). (9.40)
11
En el Ejemplo 9.7 hemos empleado una densidad () uniforme por simplicidad.
140CAPTULO9. MXIMAVEROSIMILITUD, COMPLEJIDADYSELECCINDEMODELOS
Puede verse un primer trmino que disminuye al mejorar el ajuste y un segundo
trmino (la penalizacin) que crece con el nmero de parmetros p y est dominado
por
p
2
log N.
A la vista de una expresin como (9.40) es forzoso pensar en los muchos crite-
rios que se han propuesto para evaluar la adecuacin de un modelo, muchas veces
sobre bases puramente heursticas. En el caso de modelos de regresin lineal tene-
mos por ejemplo el estadstico conocido como C
p
de Mallows,
C
p
=
N
i=1
2
2
+ 2p (9.41)
en que son los residuos de la regresin y
2
la varianza del trmino de error:
vase Mallows (1973). El primer trmino de (9.41) disminuye al mejorar el ajuste
o delidad del modelo a los datos; el segundo, crece con el nmero de parmetros.
El criterio de informacin de Akaike introducido en la Seccin 9.2.2 y denido
por
AIC(p) = 2 log
e
(Prob
_
x[
MV
_
) + 2p, (9.42)
tambin de la misma forma que (9.40), aunque penalizando asintticamente menos
la introduccin de parmetros. Los ejemplos podran multiplicarse; una recopila-
cin reciente de trabajos incorporando ideas como las mencionadas a mltiples
campos es Dowe et al. (1996).
La bsqueda de longitudes de descripcin mnimas o mnimas complejidades
no se separa pues, por lo menos asintticamente, de algunos criterios que han sido
utilizados con asiduidad. La novedad est ms bien en la justicacin de resultados
antes obtenidos para problemas concretos y de forma bastante ad-hoc desde una
perspectiva unicadora.
9.6. Tiene sentido esto?
Se han esbozado ideas que basan la eleccin de modelos en un criterio de sim-
plicacin de la informacin. Apoyndose en el trabajo pionero que sobre la nocin
de complejidad y sobre Teora de la Informacin se realiz en los aos cincuenta
y sesenta, estas ideas pueden verse como una navaja de Ockham sosticada, de
posible utilizacin en el trabajo estadstico. Importa ahora no obstante regresar al
origen y preguntarse sobre el alcance, pertinencia y solidez de este modo de actuar.
Es la nocin de complejidad de Kolmogorov o versiones menos ambiciosas
de la misma idea, como la de Rissanen el anclaje al que deseamos asirnos para
hacer inferencia? No parece evidente. Es un planteamiento no exento de belleza, y
que, como se ha indicado, da en su aplicacin prctica resultados satisfactorios.
Debemos entender por complejidad slo esto, o algo ms? Es la longitud de
descripcin tal como la hemos presentado una buena medida de la complejidad
de un modelo ms los datos, haciendo abstraccin por ejemplo del coste de
9.6. TIENE SENTIDO ESTO? 141
llegar a obtenerlo? Murray Gell-Mann (vase Gell-Mann (1994), p. 117) mencio-
na, hacindose eco de trabajo de Charles Bennet, que la complejidad tiene facetas
como la profundidad y cripticidad. En relacin a esta ltima, por ejemplo, una serie
muy larga de nmeros pseudo-aleatorios generados en un ordenador mediante el
conocido mtodo multiplicativo, puede tener una complejidad muy baja: se puede
describir dando la semilla o valor inicial y los valores de tan slo dos nmeros. Sin
embargo, adivinar cules son estos nmeros es muy costoso. Diramos que esta
serie es de baja complejidad?
Un modelo es un modo de especicar regularidades. Decimos que explica
la realidad cuando lo que observamos se adeca a las predicciones que obtendra-
mos con ayuda de dicho modelo. En el caso de un modelo estadstico, ni siquiera
exigimos una concordancia perfecta entre predicciones y observaciones, porque la
esencia de un modelo de tal naturaleza es no jar unvocamente las relaciones entre
observables.
Es precisamente la existencia de regularidad en la evidencia lo que permite su
descripcin escueta. Servirse de un criterio como el de mnima longitud de descrip-
cin es aceptar como buena la explicacin que ms regularidades encuentra en
nuestros datos o mejor las explota. Tiene al menos la ventaja sobre la mode-
lizacin usual de que explicita el coste a pagar por la complejidad aadida. Queda
a medio camino entre la inferencia bayesiana y la convencional, y sortea algunos
de los aspectos ms criticables en esta ltima la jacin arbitraria de niveles de
signicacin, por ejemplo.
Pero, en su raz, el minimizar la complejidad es un criterio que prioriza la
reduccin de los datos observados. Es esto sensato? Vlido como criterio de
inferencia?
B. Russell (vase Russell (1912), p. 35) obliga a responder que no. Un pollo
que observara al granjero llevarle grano todos los das dice Russell, podra
llegar a la conclusin de que el granjero le ama y busca su bien. Tal modelo
explicara las repetidas visitas al corral del granjero y su solicitud con el animal.
Pero esta explicacin, tan repetidamente apoyada por la evidencia durante la vida
del pollo, se ve bruscamente sin valor el da que el granjero decide que el pollo est
lo sucientemente gordo como para retorcerle el pescuezo.
Enfrentados al mundo, querramos saber porqu, y ni tan solo sabemos si nues-
tra nocin de causalidad tiene sentido; si cabe hablar de un porqu. Querramos
conocer el n ltimo, si lo hay, de las idas y venidas del granjero: conformarnos
con la explicacin menos compleja de su conducta nos coloca en situacin no me-
jor que la del pollo.
Sin embargo, frecuentemente no podemos hacer ms. Enfrentados a este he-
cho, nuestra pertinaz tentativa de entender encuentra en el criterio de minimizar la
longitud de descripcin un sucedneo til: la vieja navaja de Ockham con un nuevo
lo. El xito que alcancemos con su empleo no debiera hacernos olvidar lo endeble
de nuestra posicin. Quiz el mayor valor de las ideas expuestas ms arriba no est
en las respuestas que proporcionan sino en las preguntas que suscitan.
142CAPTULO9. MXIMAVEROSIMILITUD, COMPLEJIDADYSELECCINDEMODELOS
Apndice A
Convergencias estocsticas
A.1. Sucesiones de variables aleatorias
Podemos considerar una sucesin aleatoria como la generalizacin del con-
cepto de variable aleatoria. Una v.a. real es una aplicacin X : R (
X : R
n
si se trata de una v.a. multivariante)
1
. Una sucesin aleatoria real es
una aplicacin X : R
f(n) 1 (A.5)
(tomando trminos lo sucientemente avanzados de la sucesin, la probabilidad
de que queden acotados por M
2
. De acuerdo
con la desigualdad de Tchebichev,
Prob
_
[Z
n
m[ < kn
1
2
_
1
1
k
2
. (A.7)
Es decir, con probabilidad tan grande como queramos k es arbitraria
la variable aleatoria (Z
n
m) queda acotada superiormente por el produc-
to de una constante (k, jugando el papel de M
1
2
, jugando el papel de f(n)). Podemos decir entonces que (Z
n
m) es
O
p
(n
1
2
).
Observese que si una sucesion X
n
es O
p
(n
k
), tambin es O
p
(n
k+
)
para todo > 0. La funcin f(n) en la denicin (A.5) es una funcin que,
multiplicada por la constante, M
1
2
). No es en cambio o
p
(n
1
2
); Es fcil ver que (Z
n
m)
es o
p
(n
1
2
+
) para cualquier positivo. Esta es la situacin habitual con su-
cesiones estimadoras paramtricas; se denominan por ello
n-consistentes.
Ocasionalmente se presentan convergencias ms rpidas. En estimacin no
paramtrica, en cambio, son la regla convergencias ms lentas.
148 APNDICE A. CONVERGENCIAS ESTOCSTICAS
Las notaciones O
p
() y o
p
() funcionan de modo enteramente similar a sus
correspendientes O() y o() no aleatorias. Por ejemplo, si dos sucesiones aleatorias
son respectivamente de rdenes o
p
(n
1
) y O
p
(n
1
2
), la sucesin obtenida multipli-
cando ambas elemento a elemento sera o
p
(n
1
2
).
Anlogamente, si g() es una funcin continua y X
n
p
X de suerte que
(X
n
X) es o
p
(f(n)), entonces (g(X
n
) g(X)) es o
p
(f(n)). Pueden verse los
resultados al respecto y ms detalles en Mann y Wald (1943).
A.5. Leyes de grandes nmeros
Dada una sucesin X
n
de v.a., no necesariamente equidistribudas, pero con
media comn, las leyes de grandes nmeros prescriben, bajo diferentes conjuntos
de condiciones, la convergencia de X
n
denida como en el Ejemplo A.1 a la media
comn m = E[X
i
]. Esta convergencia puede ser de varios tipos: en probabilidad
y entonces decimos hallarnos ante una ley dbil de grandes nmeros o ca-
si seguramente y entonces hablamos de una ley fuerte de grandes nmeros
2
.
Enunciaremos en lo que sigue varios teoremas que establecen convergencias fuer-
tes y dbiles en diferentes circunstancias.
A.5.1. Leyes dbiles de grandes nmeros.
Una de las versiones ms simples (y tambin ms frecuentemente utilizadas)
de ley dbil de grandes nmeros es la siguiente:
Teorema A.2 Si la sucesin X
n
esta formada por v.a. independientes e idnti-
camente distribudas, con media comn m y varianza comn
2
, entonces:
X
n
p
m
DEMOSTRACION:
Sea,
X
n
=
X
1
+. . . +X
n
n
Entonces:
E[X
n
] = m
2
Xn
=
2
n
y de acuerdo con la desigualdad de Tchebychev:
Prob
_
[X
n
m[ < k
n
_
1
1
k
2
2
Tambin se considera a veces convergencia en media cuadrtica, que no hemos examinado aqu.
Vase cualquiera de los textos citados ms arriba.
A.5. LEYES DE GRANDES NMEROS 149
Fcilmente se ve que la anterior desigualdad implica (A.1) para > 0, > 0
prejados. Basta tomar k >
1/2
, y N(, ) lo sucientemente grande como para
que:
k
_
N(, )
<
Las condiciones anteriores pueden ser considerablemente relajadas; no es im-
prescindible que las v.a. en la sucesin sean independientes, ni que tengan la misma
varianza (sera suciente que se vericase lm
n
n
2
n
i=1
2
X
i
< ).
A.5.2. Leyes fuertes de grandes nmeros
No slo las condiciones en el Teorema A.2 pueden relajarse, sino que la con-
clusin puede a su vez reforzarse, dando lugar a una ley fuerte de grandes nmeros.
Antes de enunciarla, demostraremos algunos resultados que precisamos
3
.
Teorema A.3 (primera desigualdad de Kolmogorov) Sea X
n
una sucesin de
v.a. independientes con media 0 y varianzas (no necesariamente iguales) nitas.
Sea,
S
n
= X
1
+. . . +X
n
Para cualquier > 0 se verica:
Prob
_
max
1kn
[S
k
[
_
E[S
2
n
]
2
(A.8)
DEMOSTRACION:
Denamos para 1 k n los sucesos
A
k
= : ([S
k
()[ ) ([S
i
()[ < , 1 i < k)
(la suma parcial formada por k sumandos es la primera que excede en valor abso-
luto de ). Sea A
0
= : ([S
k
()[ < , 1 k < n) (la suma parcial formada
por k sumandos nunca excede de ).
3
El desarrollo sigue el efectuado por Fourgeaud y Fuchs (1967), pg. 45 y ss. y Billingsley (1986),
pg. 296.
150 APNDICE A. CONVERGENCIAS ESTOCSTICAS
Los sucesos A
0
, . . . , A
n
son disjuntos, y podemos calcular E[S
2
n
] as (f
X
(x)
es la funcin de densidad marginal que proceda):
E[S
2
n
] =
n
k=0
_
A
k
S
2
n
f
X
(x)dx
k=1
_
A
k
[S
k
+ (S
n
S
k
)]
2
f
X
(x)dx
=
n
k=1
_
A
k
[S
2
k
+ (S
n
S
k
)
2
+ 2S
k
(S
n
S
k
)]f
X
(x)dx
k=1
_
A
k
[S
2
k
+ 2S
k
(S
n
S
k
)]f
X
(x)dx
Pero S
k
y (S
n
S
k
) son v.a. independientes y de media 0, y por tanto:
n
k=1
_
A
k
2S
k
(S
n
S
k
)f
X
(x)dx = 0
En consecuencia:
E[S
2
n
]
n
k=1
_
A
k
S
2
k
f
X
(x)dx
n
k=1
2
Prob A
k
i=1
2
i
< , entonces S
n
=
n
i=1
X
i
converge casi seguramente.
DEMOSTRACION:
Si S
n
converge casi seguramente, quiere decir que casi seguramente verica la
condicin de convergencia de Cauchy. Es decir, [S
n+k
S
n
[
c.s.
0, para n, k .
Para que no hubiera convergencia de S
n
(), debera ocurrir que existiera > 0 tal
que n 1 hubiera algn k 1 para el que [S
n+k
S
n
[ . Vamos a comprobar
que el conjunto D = para el que se verica lo anterior tiene probabilidad cero.
Tenemos que:
D =
_
>0
_
_
n1
_
k1
: [S
n+k
S
n
[ >
_
_
=
_
>0
L()
A.5. LEYES DE GRANDES NMEROS 151
en que L() es el suceso entre corchetes. Entonces,
Prob L() = Prob
_
_
_
n1
_
k1
[ : [S
n+k
S
n
[ > ]
_
_
_
(A.9)
mn
n
_
Prob
_
: max
k1
[S
n+k
S
n
[ >
__
(A.10)
mn
n
_
_
1
n+1
_
_
. (A.11)
En el ltimo paso se ha hecho uso de la primera desigualdad de Kolmogorov.
Como
i=1
2
i
< , (A.11) es cero, Prob L() = 0 y por consiguiente D =
>0
L() tiene tambin probabilidad cero.
El siguiente lema no tiene ningn contenido probabilstico, y se limita a esta-
blecer una relacin entre la convergencia (en el sentido habitual del Anlisis Mate-
mtico) de dos diferentes series.
Lema A.1 Si a
i
es una sucesin de nmeros reales y
n
i=1
a
i
/i converge a un
lmite nito , entonces n
1
n
i=1
a
i
converge a cero.
DEMOSTRACION:
Sea v
n
=
n
i=1
a
i
/i, y v
0
= 0. Entonces, a
i
= i(v
i
v
i1
) y:
n
i=1
a
i
=
n
i=1
iv
i
n
i=1
iv
i1
= nv
n
n1
i=0
v
i
Por tanto:
1
n
n
i=1
a
i
= v
n
1
n
n1
i=0
v
i
= v
n
n 1
n
1
n 1
n1
i=0
v
i
y si v
n
, (n 1)
1
n1
i=0
v
i
y n
1
n
i=1
a
i
0.
Podemos ya, con ayuda de los resultados precedentes, establecer la siguiente
ley fuerte de grandes nmeros:
Teorema A.5 (ley fuerte de grandes nmeros) Sea X
n
una sucesin de v.a. inde-
pendientes centradas, con momento de segundo orden nito, y
i=1
2
i
/i
2
< .
Entonces:
X
n
=
1
n
n
i=1
X
i
c.s.
0
152 APNDICE A. CONVERGENCIAS ESTOCSTICAS
Demostraremos que
n
i=1
X
i
/i
c.s.
, pues esto, en virtud del lema precedente,
implica n
1
n
i=1
X
n
c.s.
0. Que la primera serie converge c.s. es inmediato, pues
como Var(X
i
/i) =
2
i
/i
2
y
i=1
2
i
/i
2
< , su convergencia es resultado del
Teorema A.4
CUESTIONES, COMPLEMENTOS Y COSAS PARA HACER
A.1 Demustrese que, en el caso particular en que una sucesin alea-
toria converge en distribucin a una constante, es decir X
n
L
c, entonces
X
n
p
c.
A.2 Comprubese que X
n
m.c.
X X
n
p
X. (Ayuda: Hgase uso
de la desigualdad de Tchebichev.)
Apndice B
Soluciones a problemas
seleccionados
3.2 La funcin de verosimilitud es
fX(x; ) = H(x
(1)
1)H(x
(n)
+ 1)
en que H(.) es una funcin que toma el valor cero si su argumento es negativo y valor
1 si su argumento es no negativo (funcin escaln o de Heaviside). Por tanto, el
teorema de factorizacin (ver (3.8)) se verica con g(s, ) = H(x
(1)
1)H(x
(n)
+1)
y (x
(1)
, x
(n)
) forman un estadstico suciente.
Sin embargo, este estadstico no es completo: es fcil ver que (por ej.) (x
(n)
x
(1)
) tiene una distribucin que no depende de y es por tanto ancilar.
3.5 En efecto,
fX(x; ) =
n
Y
i=1
exp{xj} exp
n
e
x
j
yj
o
= exp
(
n
X
i=1
exp{xj}yj +
n
X
i=1
xj
)
,
que no es de rango completo.
4.5 Es fcil encontrar un estadstico suciente empleando el teorema de facto-
rizacin:
fX(x; ) =
n
Y
i=1
x
1
=
n
n
Y
i=1
xi
!
1
;
vemos que
Q
n
i=1
xi (o alternativamente
P
n
i=1
log xi) es un estadstico suciente.
153
154 APNDICE B. SOLUCIONES A PROBLEMAS SELECCIONADOS
Para comprobar que Z = log X1 es insesgado para
1
, veamos cual es su
distribucin. La de X es F
X|
(x|) = x
. Entonces,
Prob {Z z} = Prob {log(X) z}
= Prob {log(X) > z}
= Prob
X > e
z
= 1 Prob
X e
z
= 1 e
z
;
derivando, f
X|
(x|) = e
z
, en la que reconocemos una exponencial de media
1
. Por tanto, Z = log X1 es efectivamente insesgado.
Vemos adems que T = n
1
P
n
i=1
log Xi ser tambin insesgado, y es fun-
cin de un estadstico suciente. Es claro entonces que T ser insesgado de varianza
mnima.
5.5 Calculemos en primer lugar la cota de Cramr-Rao para el estimador pro-
porcionado. En los clculos que siguen, = (,
2
) y tratamos a
2
como un par-
metro respecto del cual derivamos.
f
X|
(x|) =
1
2
e
(x)
2
/2
2
log f
X|
(x|) =
1
2
log
2
log
2 (x )
2
/2
2
2
log f
X|
(x|) =
1
2
2
+
(x )
2
2
4
E
2
log f
X|
(x |)
2
= E
"
(x )
2
2
4
2
+
1
2
2
2
2
1
2
1
2
4
(x )
2
#
=
4
4
8
+
1
4
4
1
2
4
(B.1)
Teniendo en cuenta que
2k
, el momento centrado de orden 2k, en una distribucin
normal toma el valor
2k
(2k)!2
k
(k!)
1
, tenemos sustituyendo 4 en (B.1) que:
E
2
log f
X|
(x |)
2
=
4
4!
4 4 2!
8
+
1
4
4
1
2
4
=
1
2
4
. (B.2)
La cota de Cramr-Rao es por tanto 1/nIX() = 2
4
/n.
Calculemos ahora la varianza del estimador. Para ello requerimos los momentos
E[S
2
] y E[(S
2
)
2
]. Sabemos que E[S
2
] =
2
el S
2
proporcionado es el habitual
estimador insesgado de la varianza. Por otra parte, viendo
P
n
i=1
(Xi X)
2
como
la suma de cuadrados de los residuos cuando regresamos X sobre la columna de
unos, por teora bsica de regresin lineal sabemos que se distribuye como
2
2
n1
.
Entonces,
E[S
2
] =
4
(n 1)
2
E[
2
n1
]
2
=
4
(n 1)
2
E[Z
2
1
+ . . . Z
2
n1
]
2
=
4
(n 1)
2
E
2
4
Z
4
1
+ . . . Z
4
n1
+
X
i
X
j=i
Z
2
i
Z
2
j
3
5
, (B.3)
en que Z1, . . . , Zn1 son variables aleatorias N(0, 1). Sabiendo que el momento de
orden cuatro de tal distribucin tiene la expresin indicada antes y sustituyendo en
155
(B.3) obtenemos:
E[S
2
] =
4
(n 1)
2
[(n 1) 3 + (n 1)(n 2)]
=
4
(n + 1)(n 1)
(n 1)
2
=
4
(n + 1)
(n 1)
.
Por consiguiente, la varianza buscada es:
Var(S
2
) = E[(S
2
)
2
] [E(S
2
)]
2
=
4
(n + 1)
(n 1)
4
=
2
4
n 1
. (B.4)
Comparando ahora las expresiones (B.4) y (B.2) llegamos a la conclusin de que la
varianza del estimador no alcanza la cota de Cramr-Rao, pero la diferencia tiende a
cero al crecer n.
156 APNDICE B. SOLUCIONES A PROBLEMAS SELECCIONADOS
Bibliografa
Abramson, N. (1966). Teora de la Informacin y Codicacin. Paraninfo, Madrid,
1973
a
ed
n
.
Akaike, H. (1969). Fitting Autoregressive Models for Prediction. Annals of the
Institute of Statistical Mathematics, vol. 21, pgs. 243247.
Akaike, H. (1970). Statistical Predictor Identication. Annals of the Institute of
Statistical Mathematics, vol. 22, pgs. 203217.
Akaike, H. (1972). Use of an Information Theoretic Quantity for Statistical Model
Identication. En Proc. 5th. Hawai Int. Conf. on System Sciences, pgs. 249
250.
Akaike, H. (1974). Information Theroy and an Extension of the Maximum Like-
lihood Principle. En Second International Symposium on Information Theory
(eds. B. Petrov y F. Csaki), pgs. 267281. Akademia Kiado, Budapest. Reim-
preso en Johnson-Kotz(1991), vol. 1, p. 610 y ss.
Akaike, H. (1991). Information Theory and an Extension of the Maximum Like-
lihood Principle. En Breakthroughs in Statistics (eds. Johnson y Kotz), vol. 1,
pg. 610 y ss. Springer Verlag.
Berkson, J. (1980). Minimum chi.square, not maximum likelihood! Annals of
Statistics, vol. 8, pgs. 457487.
Billingsley, P. (1986). Probability and Measure. John Wiley and Sons, New York,
2
a
ed
n
.
Chaitin, G. (1987). Algorithmic Information Theory. Cambridge University Press,
Cambridge, 1992
a
ed
n
.
Cover, T., P. Gacs, y R. Gray (1989). Kolmogorovs contributions to information
theory and algorithmic complexity. Annals of Probability, vol. 17(3), pgs. 840
865.
157
158 BIBLIOGRAFA
Cox, D. R. y D. V. Hinkley (1974). Theoretical Statistics. Chapman and Hall,
London, 1979
a
ed
n
.
Cramr, H. (1960). Mtodos Matemticos de Estadstica. Ed. Aguilar, Madrid,
1970
a
ed
n
.
Cullman, G., M. Denis-Papin, y A. Kaufmann (1967). Elementos de Clculo In-
formacional. Ed. Urmo, Bilbao, 1967
a
ed
n
.
DAgostino, R. (1971). An Omnibus Test of Normality for Moderate and Large
Sample Sizes. Biometrika, vol. 58, pgs. 341348.
de Leeuw, J. (2000). Information Theroy and an Extension of the Ma-
ximum Likelihood Principle by Hirotugu Akaike. Disponible en
http://www.stat.ucla.edu/deleeuw/work/research.phtml.
Dempster, A., N. Laird, y D. Rubin (1976). Maximum likelihood from incomple-
te data via the EM algorithm. Journal of the Royal Statistical Society, Ser. B,
vol. 39, pgs. 138.
Dowe, D., K. Korb, y J. Oliver (eds.) (1996). Information, Statistics and Induction
in Science ISIS96, Melbourne, Australia. World Scientic, Singapore.
Fourgeaud, C. y A. Fuchs (1967). Statistique. Dunod, Paris.
Garn, A. y F. Tusell (1991). Problemas de Probabilidad e Inferencia Estadstica.
Ed. Tbar-Flores, Madrid.
Garthwaite, P., I. Jolliffe, y B. Jones (1995). Statistical Inference. Prentice Hall,
London.
Gell-Mann, M. (1994). El quark y el jaguar. Tusquets, Barcelona, 1995
a
ed
n
.
G.J.McLachlan y T. Krishnan (1997). The EM Algorithm and Extensions. Wiley.
Jeffreys, H. (1961). The Theory of Probability. Oxford University Press, Oxford.
Kiefer, J. C. (1983). Introduction to Statistical Inference. Springer-Verlag, New
York, 1987
a
ed
n
. (ed. Gary Lorden).
Laird, N. (1993). The EM algorithm. En Handbook of Statistics, vol. IX, pgs.
509520.
Lange, K. (1998). Numerical Analysis for Statisticians. Springer. Signatura: 519.6
LAN.
Lehmann, E. L. (1959). Testing Statistical Hypothesis. Wiley, New York.
Lehmann, E. L. (1983). Theory of Point Estimation. Wiley, New York.
BIBLIOGRAFA 159
Levy, M. (1985). A note on nonunique MLEs and sufcient statistics. Annals of
Mathematical Statistics, vol. 39, pgs. 66.
Li, M. y P. Vitnyi (1993). An introduction to Kolmogorov complexity and its
applications. Springer-Verlag, New York.
Mallows, C. (1973). Some comments on C
p
. Technometrics, vol. 15, pgs. 661
675.
Mann, H. y A. Wald (1943). On stochastic limit and order relationships. Annals of
Mathematica Statistics, vol. 14, pgs. 217226.
Meeden, G. y S. Varderman (1985). Bayes and admissible set estimation. Journal
of the American Statistical Association, vol. 80, pgs. 465471.
Navidi, W. (1997). A Graphical Illustration of the EM Algorithm. Annals of Mat-
hematical Statistics, vol. 51(1), pgs. 2931.
Quenouille, M. (1956). Notes on bias estimation. Biometrika, vol. 43, pgs. 353
360.
Rao, C. R. (1962). Efcient Estimates and Optimum Inference Procedures in Large
Samples. Journal of the Royal Statistical Society, Ser. B, vol. 24, pgs. 4672.
Rao, C. R. (1965). Linear Statistical Inference and its Applications. Wiley, New
York.
Rissanen, J. (1983). A Universal Prior for Integers and Estimation by Minimum
Description Length. Annals of Statistics, vol. 11(2), pgs. 416431.
Rissanen, J. (1989). Stochastic Complexity in Statistical Inquiry. World Scientic,
Singapore.
Romano, J. P. y A. F. Siegel (1986). Counterexamples in Probability and Statistics.
Wadsworth and Brooks/Cole, Monterrey, California.
Ruelle, D. (1991). Chance and Chaos. Penguin, London.
Russell, B. (1912). The problems of philosophy. Oxford University Press, 1989
a
ed
n
.
Shannon, C. (1948). The mathematical theory of communication. Bell System
Tech. Journal, vol. 27, pgs. 379423, 623656.
Shannon, C. y W. Weaver (1949). The mathematical theory of communication.
University of Illinois Press, Urbana. Eight reprint, 1980.
Shapiro, S. y R. Francia (1972). An Approximate Analysis of Variance Test for
Normality. Journal of the American Statistical Association, vol. 67, pgs. 215
216.
160 BIBLIOGRAFA
Trocniz, A. F. (1987). Probabilidades. Estadstica. Muestreo. Tebar-Flores, Ma-
drid.
Wang, C. (1993). Sense and Nonsense of Statistical Inference. Marcel Dekker,
New York.
Young, G. y R. Smith (2005). Essentials of Statistical Inference. Cambridge Univ.
Press. Signatura: 519.22 YOU.
ndice alfabtico
H(p)
entropa, 129
Op(), 146
op(), 146
AIC
criterio, 124
relacin con MDL, 140
relacin con razn de verosimilitudes, 111
ancilaridad
denicin, 39
de primer orden, 39
Bahadur
eciencia, 67
Bayes
criterio de, 6
procedimientos Bayes relativos a (), 6
riesgo de, 6
cdigo
de Fano-Shannon, 130
libre de prejos, 131
cannico
estadstico, 31
Cauchy, distribucin
no reduccin por suciencia, 38
complejidad
de Kolmogovor-Chaitin-Solomonoff, 129
completa
clase de procedimientos, 15
clase mnima, 15
esencialmente, 15
compuesta
clase de distribuciones, 101
hiptesis, 113
conjugadas
familias, 11
consistencia
denicin, 77
del estimador mximo-verosmil, 77
fuerte, 77
contraste
razn de verosimilitudes generalizada
distribucin asinttica, 109
uniformemente ms potente, 106
uniformemente ms potente
razn montona de verosimilitudes, 108
uniformemente ms potente (UMP), 108
contraste de hiptesis
exacto de Fisher, 116
contraste de hiptesis
denicin, 101
contraste de hiptesis
score, 120
de ajuste a una Poisson, 115
de normalidad
contrastes especcos, 114
estimando parmetros de ruido, 114
estadstico de Wald, 120
localmente ms potente, 120
convergencia
casi segura, 146
en distribucin, 144
en media r, 146
en media cuadrtica, 146
en probabilidad, 145
rdenes Op(), op(), 146
convexa
estrictamente, denicin, 49
funcin, denicin, 49
cota
de Cramr-Frechet-Rao, 64
crtica
funcin crtica, 102
regin, 102
Cramr
cota de Cramr-Frechet-Rao, 64
Cramr-Rao
161
162 NDICE ALFABTICO
y estimadores superecientes, 81
criterio
AIC, 124
de Bayes, 6
curvada
distribucin, 41
decisin
espacio de, 1
desigualdad
de Jensen, 49, 77
de Kraft, 131, 139
difusa
distribucin a priori , 6
funcin a priori , 6
distribucin
a priori
difusa, 6
impropia, 6, 63
ms desfavorable, 23
no informativa, 63
universal, 139
curvada, 41
emprica, 79
multinomial, 36
Weibull, 30
eciencia
de Bahadur, 67
denicin, 79
estimadores superecientes, 81
relativa, 69
de varios estimadores en una U(0, 2),
69
entropa
denicin, 129
espacio
de decisin, 1
del parmetro natural, 31
muestral, 2
estadstico
acotado completo, 39
ancilar, 39
cannico, 31
completo, 39
de orden, 34
mnimo suciente, 34
en una U(
1
2
, +
1
2
), 153
estados de la naturaleza, 1
estimador mximo-verosmil
consistencia, 77
denicin, 76
inviable cmputo en una Cauchy C(), 84
no unicidad en una U(
1
2
, +
1
2
), 86
puede ser sesgado, 86
puede ser inadmisible, 85
relacin con suciencia, 76
experimento, 1
exponencial
familia, 29
familia
exponencial, 29
familia exponencial, 29
y algoritmo EM, 98
Fano-Shannon
cdigo, 130
Fisher
contraste exacto, 116
informacin, 62
funcin
convexa, 49
crtica, 102
de prdida, 1
estrictamente convexa, 49
hiptesis
simple, 113
impropia
distribucin a priori , 6
funcin a priori, 7
informacin
de Fisher, 62
de Kullback-Leibler, 78
desigualdad de, 64
Teoria de la, 129
insesgado
inexistencia de procedimiento insesgado, 49
procedimiento, 47
procedimiento inadmisible, 48
Jeffreys
distribucin a priori de, 63
Jensen
desigualdad, 49, 77
Kraft
desigualdad, 131
desigualdad de, 139
Kullback-Leibler
distancia a la distribucin emprica, 114
informacin de, 78, 79
relacin con MV, 78
mxima verosimilitud
consistencia, 77
mnima
clase completa, 15
NDICE ALFABTICO 163
minimal suciencia
de X
(n)
en una U(0, )., 43
de la razn de verosimilitudes, 36
estadsticos mnimos sucientes, 34
minimax
condicin suciente, 24
muestral
espacio, 2
multinomial
al condicionar en una P(), 36
natural
parmetro, 31
espacio del, 31
Neyman-Pearson
teorema, 103
y procedimientos de Bayes, 106
nivel
de signicacin, 102
nivel de signicacin emprico, 113
Ockham
navaja de, 121
orden
de convergencia estocstica, 146
estadsticos de, 34
p-value, 113
prdida
funcin, 1
parmetro
de ruido, 114
natural
denicin, 31
espacio, 31
particin
suciente, 33, 42
suciente mnima, 42
penalizada
verosimilitud, 111
potencia
contraste uniformemente ms potente, 106
de un contraste, 102
mxima uniforme, 106
relacin con funcin crtica, 103
procedimiento estadstico
Bayes relativo a (), 6
equivalente, 4
procedimiento estadstico, 1
procedimiento estadstico
admisible, 4
aleatorizado, 14
clase completa, 15
clase esencialmente completa, 15
comparable, 4
inadmisible, 4
inadmisible aunque insesgado, 48
mejor, 4
minimax, condicin suciente, 22
minimax, denicin, 22
Rao
cota de Cramr-Frechet-Rao, 64
razn de verosimilitud
montona, 108
razn de verosimilitudes
generalizada
distribucin asinttica, 109
relacin con AIC, 111
regin crtica, 102
regularidad
condiciones, 61
quiebra en una U(0, 2), 70
riesgo
de Bayes, 6
denicin, 3
ruido
parmetro, 114
signicacin
nivel de, 102
simple
clase de distribuciones, 101
hiptesis, 101, 113
suciencia, 32
de X en una P(), 36
de X
(n)
en una U(0, ), 34
de X
(n)
en una U(0, )., 43
de la muestra ordenada en m.a.s., 36
de la razn de verosimilitudes, 36
minimal, 34
suciente
particin, 33, 42
suciente mnima
particin, 42
supereciencia
ejemplo de, 81
tamao
de un contraste, 102
UMP
contrastes uniformemente ms potentes, 108
verosimilitud
denicin, 74
no acotada, 85
penalizada
164 NDICE ALFABTICO
relacin con AIC, 111
Wald
estadstico de contraste, 120
Weibull
distribucin, 30