Estadı́stica Inferencial
Notas preliminares
Luis Rincón
Departamento de Matemáticas
Facultad de Ciencias UNAM
Circuito Exterior de CU
04510 México CDMX
Febrero 2017
Estas son notas preliminares de un curso sobre estadı́stica inferencial.
Se espera que una versión extendida de este trabajo pueda publicarse
y adquirirse próximamente a través de la tienda Plaza Prometeo.
Prólogo
Este documento es una versión preliminar de un texto dirigido a cubrir los
temas de un curso semestral sobre estadı́stica matemática a nivel universi-
tario. Está dirigido a estudiantes de las carreras de actuarı́a, matemáticas,
matemáticas aplicadas y otras carreras cientı́ficas similares cuyos programas
de estudio contemplan cursos sobre esta disciplina. En tales programas de
estudio aparecen previamente uno o dos cursos de probabilidad. Siguiendo
ese orden y para una mejor comprensión de los temas expuestos en este
texto, se presupone conocido el material de por lo menos un curso de pro-
babilidad.
Se estudian tres temas clásicos de la estadı́stica inferencial relativos al pro-
blema de la estimación de parámetros: la estimación puntual, la estimación
por intervalos y las pruebas de hipótesis. En todos los casos el énfasis prin-
cipal ha sido puesto en la estimación de parámetros de las distribuciones de
probabilidad, sin embargo los métodos y las ideas aquı́ expuestas también
son aplicables para tratar otros problemas matemáticos.
El enfoque con el que se tratan los temas es principalmente matemático
buscando proveer las demostraciones completas de todos los resultados que
se estudian.
Luis Rincón
Febrero 2017
Ciudad Universitaria UNAM
Contenido
1. Introducción 1
2. Estimación puntual 3
2.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.2. Método de momentos . . . . . . . . . . . . . . . . . . . . . . 10
2.3. Método de máxima verosimilitud . . . . . . . . . . . . . . . . 22
2.4. Insesgamiento . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.5. Insesgamiento asintótico . . . . . . . . . . . . . . . . . . . . . 48
2.6. Consistencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
2.7. Sesgo y error cuadrático medio . . . . . . . . . . . . . . . . . 59
2.8. Cota inferior de Cramér-Rao . . . . . . . . . . . . . . . . . . 63
2.9. Eficiencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
2.10. Suficiencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
2.11. Suficiencia e información . . . . . . . . . . . . . . . . . . . . . 87
2.12. Suficiencia conjunta . . . . . . . . . . . . . . . . . . . . . . . 96
2.13. Suficiencia minimal . . . . . . . . . . . . . . . . . . . . . . . . 99
2.14. Esperanza condicional . . . . . . . . . . . . . . . . . . . . . . 109
2.15. Teorema de Rao-Blackwell . . . . . . . . . . . . . . . . . . . . 113
2.16. Completez . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
2.17. Teorema de Lehmann-Scheffé . . . . . . . . . . . . . . . . . . 124
3. Estimación por intervalos 133
3.1. Definiciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
3.2. Distribución Bernoulli . . . . . . . . . . . . . . . . . . . . . . 135
3.3. Distribución uniforme continua . . . . . . . . . . . . . . . . . 138
3.4. Distribución exponencial . . . . . . . . . . . . . . . . . . . . . 141
iii
iv Contenido
3.5. Distribución normal . . . . . . . . . . . . . . . . . . . . . . . 142
3.6. Intervalo para la media de una distribución cualquiera . . . . 150
4. Pruebas de hipótesis 153
4.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
4.2. Definiciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158
4.3. Pruebas sobre la distribución normal . . . . . . . . . . . . . . 165
4.4. Lema de Neyman-Pearson . . . . . . . . . . . . . . . . . . . . 179
4.5. Función potencia . . . . . . . . . . . . . . . . . . . . . . . . . 186
A. Distribuciones tipo exponencial 189
B. Fórmulas varias 197
Bibliografı́a 215
Índice analı́tico 216
Capı́tulo 1
Introducción
La estadı́stica es la ciencia que se encarga de recolectar, organizar, resumir
y analizar datos para obtener conclusiones a partir de ellos.
Para ampliar la definición anterior y clasificar a la estadı́stica en dos grandes
ramas, definiremos una población como un conjunto de personas, objetos o
mediciones, y sobre el cual nos interesa estudiar alguna caracterı́stica. La
especificación de una población para un análisis estadı́stico está determinada
por el estudio que se desea hacer y lo que interesa medir. Por ejemplo, una
población puede estar constituida por los siguientes elementos:
a) Personas mayores a 18 años que son fumadoras. Nos podrı́a interesar co-
nocer algunas caracterı́sticas sociales, económicas, educativas o de salud
de estas personas.
b) Artı́culos producidos por una maquinaria. Nos podrı́a interesar conocer
la calidad de estos productos.
c) La totalidad de naranjas recolectadas en un cierto huerto. Nos podrı́a
interesar estudiar el tamaño y número de semillas en las naranjas.
Por otro lado, una muestra es cualquier subconjunto de una población.
En su perspectiva clásica, la estadı́stica se clasifica en descriptiva e inferen-
cial.
1
2 1. Introducción
La estadı́stica descriptiva es la parte de la estadı́stica en la que se estu-
dian técnicas que ayudan a describir, mostrar o resumir la información de
un conjunto de datos. Las técnicas y procedimientos de la estadı́stica des-
criptiva ayudan a visualizar la información de una manera significativa y
concreta, especialmente cuando la cantidad de información es grande. Esta
descripción de la información se lleva a cabo a través de números, tablas o
elementos gráficos. Las conclusiones que se obtienen se refieren únicamente
a la muestra observada.
En la estadı́stica inferencial, en cambio, se utilizan algunas técnicas para que
la información de una muestra se generalice a la población completa. Las
conclusiones que se obtienen poseen un cierto de grado de imprecisión dado
que la información a partir de la cual se obtienen es únicamente parcial. El
presente trabajo está enfocado principalmente a esta parte de la estadı́stica.
Capı́tulo 2
Estimación puntual
Sea X una variable aleatoria de interés en un experimento aleatorio y su-
pongamos que hemos aceptado que X tiene una función de densidad o de
probabilidad conocida f px; θq, dependiente de un parámetro θ. Considerare-
mos que θ es desconocido y deseamos estimarlo, teniendo como información
una serie de observaciones de la variable aleatoria. El problema de estima-
ción puntual consiste en encontrar una función de las observaciones, que
sirva para estimar el parámetro θ. En este capı́tulo estudiaremos algunos
métodos para encontrar estimadores para el parámetro desconocido θ, ası́
como algunas de las propiedades generales de estos estimadores
2.1. Introducción
Consideremos que X es una variable aleatoria con función de densidad o
de probabilidad conocida f px; θq, pero dependiente de un parámetro des-
conocido θ. De esta manera se tiene toda una familia de distribuciones de
probabilidad: una distribución para cada valor del parámetro θ. Al conjunto
de todos los posibles valores del parámetro θ se le llama espacio parametral
y se le denota por la letra Θ. Tenemos ası́ la colección
tf px; θq : θ P Θu.
El parámetro θ puede en realidad ser un vector de parámetros de cualquier
dimensión finita. Por ejemplo, en el caso de la distribución normal θ es el
vector de parámetros pµ, σ 2 q, según la notación usual, en donde el espacio
3
4 2. Estimación puntual
parametral es el conjunto Θ “ p´8, 8q ˆ p0, 8q, correspondiente a una
mitad del plano cartesiano.
Supongamos entonces que x1 , . . . , xn son observaciones independientes que
se han obtenido de la variable aleatoria de interés X. El problema es el si-
guiente: ¿cómo podemos usar estas observaciones para estimar el parámetro
θ y que de esta manera la función de densidad f px; θq quede completamente
especificada? Ilustraremos la situación con algunos ejemplos.
Ejemplo 2.1 Se desea conocer la calidad de un lote de 1, 000 artı́culos.
Dada la imposibilidad o no conveniencia de someter a prueba a todos ellos,
se escogen 20 artı́culos al azar obteniéndose los siguientes resultados:
x1 “ 0 x5 “ 1 x9 “ 0 x13 “ 0 x17 “ 1
x2 “ 1 x6 “ 1 x10 “ 1 x14 “ 1 x18 “ 1
x3 “ 1 x7 “ 0 x11 “ 1 x15 “ 1 x19 “ 1
x4 “ 0 x8 “ 1 x12 “ 1 x16 “ 1 x20 “ 0
en donde el valor 0 indica que el artı́culo no pasó el control de calidad y el
valor 1 indica que el artı́culo pasó el control de calidad. Supongamos que
X es la variable que indica si un artı́culo escogido al azar de la población
completa pasa o no pasa el control de calidad. Entonces es natural suponer
que X tiene una distribución Berpθq, en donde no conocemos el valor del
parámetro θ. ¿Cómo podemos estimar el valor de θ con base en los datos
de la muestra? Al especificar por completo a la distribución Bernoulli en
este problema, podemos tener una mejor idea de la cantidad de artı́culos
defectuosos en el lote completo. ‚
Ejemplo 2.2 El tiempo en minutos que un conjunto de 10 personas, esco-
gidas al azar, invierte en trasladarse de la casa al lugar de trabajo o escuela
se muestra en la colección de números que aparece abajo.
2.1 Introducción 5
x1 “ 30 x3 “ 65 x5 “ 25 x7 “ 30 x9 “ 35
x2 “ 70 x4 “ 10 x6 “ 120 x8 “ 50 x10 “ 20
Suponga que tal variable puede modelarse mediante la distribución exppθq,
pero no conocemos el valor de θ. ¿Cómo podemos estimar el valor de θ
con base en las observaciones obtenidas? Al especificar completamente a
la distribución exponencial en este caso, podemos estimar la cantidad de
personas que, para su traslado, ocupan un tiempo dentro de cualquier rango
de valores. ‚
De esta manera, habiendo supuesto una distribución de probabilidad para
una variable aleatoria de interés, en donde la distribución depende de un
parámetro no especificado en su valor, el problema consiste en encontrar un
mecanismo para estimar el parámetro desconocido tomando como informa-
ción una serie de observaciones de la variable aleatoria.
En el tratamiento que seguiremos no consideraremos observaciones parti-
culares x1 , . . . , xn , sino observaciones aleatorias, esto es, una colección de
variables aleatorias independientes e idénticamente distribuidas a la cual
se le llama muestra aleatoria. En particular, la observación x1 puede ser
un valor de X1 , la observación x2 puede ser un valor de X2 , etcétera. Las
variables aleatorias X1 , . . . , Xn representan n observaciones de la variable
aleatoria X, y al número entero n ě 1 se le llama tamaño de la muestra
aleatoria. Los estimadores que buscamos serán entonces funciones de esta
muestra aleatoria. Esto es a lo que se le llama una estadı́stica. Formalizamos
estas ideas en la siguiente serie de definiciones.
Definición 2.1 Una muestra aleatoria es una colección de variables
aleatorias X1 , . . . , Xn que son independientes e idénticamente distribui-
das.
Supondremos entonces que todas las variables de una muestra aleatoria
tienen la misma función de densidad o de probabilidad f px; θq. Por brevedad,
a veces se escribe m.a. en lugar del término muestra aleatoria. A menos que
se especifique los contrario, supondremos que el tamaño n de la muestra
6 2. Estimación puntual
aleatoria es conocido.
Definición 2.2 Una estadı́stica es una función de una muestra aleatoria
que no depende de parámetros desconocidos.
De manera general, denotaremos por T pX1 , . . . , Xn q a una de estas funciones
de la muestra aleatoria. Observemos que una estadı́stica T , vista como una
función de un subconjunto de Rn y con valores en R, se puede escribir como
px1 , . . . , xn q ÞÑ T px1 , . . . , xn q,
y tal función, en su manera de definirla, no debe depender de ningún paráme-
tro desconocido, únicamente de los valores x1 , . . . , xn y del tamaño de la
muestra n. Observe, sin embargo, que la distribución de la variable aleato-
ria T pX1 , . . . , Xn q, dependerá, en general, del parámetro desconocido θ. En
nuestro estudio, consideraremos que T pX1 , . . . , Xn q es una variable aleato-
ria y para conocer sus propiedades nos interesará conocer su distribución
de probabilidad, aunque sólo en algunos pocos casos podremos determinar
la distribución de una estadı́stica.
Veremos a continuación algunos ejemplos de estadı́sticas. Algunas de ellas
tienen nombre y notación particular por su aparición frecuente.
Ejemplo 2.3 (Media muestral) A la estadı́stica denotada por X̄ y que se
define a continuación se le llama media muestral. Esta variable aleatoria es
simplemente el promedio aritmético de los elementos de la muestra aleatoria.
n
1 ÿ
X̄ “ Xi .
n i“1
Si x1 , . . . , xn son valores particulares de las variables de la muestra aleatoria,
entonces el valor de la media muestral es
n
1 ÿ
x̄ “ xi .
n i“1
2.1 Introducción 7
Observe el uso de mayúsculas y minúsculas. La estadı́stica X̄ es una variable
aleatoria y x̄ es un número real. ‚
Ejemplo 2.4 (Varianza muestral) La siguiente función de una mues-
tra aleatoria es una estadı́stica y se le conoce con el nombre de varianza
muestral. Observe que en este promedio aparece el término n ´ 1 en el
denominador y no n.
n
2 1 ÿ
S “ pXi ´ X̄q2 .
n ´ 1 i“1
Si x1 , . . . , xn son valores particulares de las variables de la muestra aleatoria,
entonces el valor de la varianza muestral es el número
n
2 1 ÿ
s “ pxi ´ x̄q2 .
n ´ 1 i“1
‚
Ejemplo 2.5 (Estadı́sticas de orden) Sea k un entero tal que 1 ď k ď n.
La k-ésima estadı́stica de orden de una muestra aleatoria de tamaño n es
una variable aleatoria definida de la siguiente forma
Xp1q “ mı́n tX1 , . . . , Xn u,
..
.
Xpkq “ k-ésimo máx tX1 , . . . , Xn u,
..
.
Xpnq “ máx tX1 , . . . , Xn u.
Se debe observar que las variables aleatorias Xp1q , . . . , Xpnq no son necesaria-
mente alguna de las variables X1 , . . . , Xn y que, en general, las estadı́sticas
de orden no son independientes pues guardan siempre el orden ascendente
Xp1q ď ¨ ¨ ¨ ď Xpnq .
Para denotar a la k-ésima estadı́stica de orden también se usa el sı́mbolo
Xk:n . La ventaja de esta expresión alternativa es que se especifica el tamaño
n de la muestra aleatoria. ‚
8 2. Estimación puntual
Ejemplo 2.6 (Momentos muestrales) Sea k ě 1 un entero. A la siguien-
te estadı́stica se le conoce con el nombre de k-ésimo momento muestral. Se
trata del promedio aritmético de las variables aleatorias de la muestra ele-
vadas a la potencia k. Cuando k “ 1, esta estadı́stica se reduce a la media
muestral.
n
1 ÿ k
T “ X .
n i“1 i
‚
Con el fin de que la definición de estadı́stica sea más clara, veremos ahora
algunos ejemplos de funciones de una muestra aleatoria que no son estadı́sti-
cas.
Ejemplo 2.7 (No estadı́stica) Sea X1 , . . . , Xn una m.a. de la distribu-
ción Poissonpθq, en donde θ ą 0 es desconocido. La siguiente función de la
muestra aleatoria no es una estadı́stica puesto que en su definición aparece
el parámetro desconocido θ.
T “ θX1 `¨¨¨`Xn .
Ejemplo 2.8 (No estadı́stica) Sea X1 , . . . , Xn una m.a. de la distribución
Npµ, σ 2 q, en donde los parámetros µ y σ 2 son desconocidos. La función T de
la muestra aleatoria que se especifica a continuación no es una estadı́stica
puesto que en su definición aparecen los parámetros desconocidos µ y σ 2 .
Sin embargo, puede demostrarse que la distribución de T no depende de
ningún parámetro desconocido, se trata de la distribución normal estándar.
n
1 ÿ Xi ´ µ
T “? .
n i“1 σ
Algunas estadı́sticas serán de nuestro particular interés: cuando alguna es-
tadı́stica se proponga o se construya con el objetivo de servir como estimador
2.1 Introducción 9
para un parámetro desconocido θ se le denotará, de manera sugerente, por
θ̂, y se le llamará un estimador. El sı́mbolo θ̂ se lee “teta circunflejo”. Aquı́
tenemos la definición.
Definición 2.3 Un estimador puntual para un parámetro desconocido
θ es una estadı́stica denotada por θ̂ que puede ser usada para estimar θ.
Por ejemplo, la media muestral X̄ puede ser usada para estimar el paráme-
tro desconocido θ en la distribución Berpθq, por ejemplo, y por lo tanto es
un estimador.
Observemos que si x1 , . . . , xn son valores particulares de las variables de la
muestra aleatoria, entonces θ̂px1 , . . . , xn q es una estimación numérica de θ,
mientras que la variable aleatoria θ̂pX1 , . . . , Xn q es un estimador para θ. Si
se omiten los argumentos, ambos son objetos que se escriben simplemente
como θ̂, y puede representar, confusamente, una estimación (número) o un
estimador (variable aleatoria).
De lo antes expuesto surge el problema de encontrar mecanismos para ge-
nerar estadı́sticas que puedan servir como estimadores para los parámetros
de las distintas distribuciones de probabilidad. En las siguientes secciones
veremos algunos métodos para encontrar explı́citamente estimadores pun-
tuales.
Ejercicios
1. ¿Cuál es la diferencia entre un estimador y una estadı́stica?
2. Diga falso o verdadero.
a) Toda estadı́stica es un estimador.
b) Todo estimador es una estadı́stica.
3. Sea X1 , . . . , Xn una muestra aleatoria. Demuestre las siguientes iden-
10 2. Estimación puntual
tidades.
ÿn
a) pXi ´ X̄q “ 0.
i“1
ÿn n
ÿ
b) pXi ´ X̄q2 “ p Xi2 q ´ nX̄ 2 .
i“1 i“1
n n
2 1 ÿ 1 ÿ
c) S “ r Xi2 ´ p Xi q2 s.
n´1 i“1
n i“1
4. Sea X1 , . . . , Xn una muestra aleatoria de una distribución f px; θq, de-
pendiente de un parámetro desconocido θ. Determine si las siguientes
funciones son estadı́sticas.
a) T “ X1 . d ) T “ 1pθ,8q pX1 q.
b) T “ pX1 ` Xn q{2. e) T “ pX1 ` ¨ ¨ ¨ ` Xn q ´ θ.
c) T “ X1 ` 2X2 ` ¨ ¨ ¨ ` nXn . f ) T “ θ ¨ pXpnq ´ Xp1q q.
5. Sea X1 , . . . , Xn una muestra aleatoria de la distribución uniforme en
el conjunto discreto ta1 , . . . , am u, en donde los valores a1 , . . . , am y m
son desconocidos. Proponga un estimador para el parámetro
a) a1 . b) am . c) m.
6. Sean X1 , . . . , Xn una muestra aleatoria. Demuestre que para cualquier
estadı́stica T,
ÿn ÿn
pXi ´ X̄q2 ď pXi ´ T q2 .
i“1 i“1
2.2. Método de momentos
Este método fue introducido por Karl Pearson1 a principios del siglo XX.
Consideremos nuevamente que f px; θq es la función de densidad o de proba-
bilidad de una variable aleatoria X que depende de un parámetro descono-
cido θ. El método de momentos nos provee de un mecanismo general para
estimar θ. Para explicarlo necesitamos recordar antes dos conceptos.
1
Karl Pearson (né Carl Pearson, 1857-1936), estadı́stico inglés.
2.2 Método de momentos 11
Definición 2.4 Sea k ě 1 un entero. El k-ésimo momento de una va-
riable aleatoria X, si existe, es el número
EpX k q.
A estos números EpXq, EpX 2 q, EpX 3 q, . . . se les llama también momentos
poblacionales. En general, en las expresiones de estas cantidades aparece el
parámetro o vector de parámetros θ. Supongamos ahora que X1 , . . . , Xn es
una muestra aleatoria de la distribución en estudio. Tenemos la siguiente
definición de los momentos muestrales.
Definición 2.5 Sea k ě 1 un entero. El k-ésimo momento de una mues-
tra aleatoria X1 , . . . , Xn es la variable aleatoria
n
1 ÿ k
X .
n i“1 i
A estas variables aleatorias se les llama momentos muestrales. En particu-
lar, el primer momento muestral es la media muestral X̄.
El método de momentos para estimar el parámetro desconocido θ consiste en
igualar los momentos muestrales con los correspondientes momentos pobla-
cionales y resolver esta ecuación, o sistema de ecuaciones, para el parámetro
o vector de parámetros θ, cuando ello sea posible. Se igualan tantos mo-
mentos como parámetros haya en el vector θ, suponiendo que suficientes
momentos poblacionales existen para la distribución en cuestión y que son
distintos de cero. El método de momentos es muy sencillo de aplicar y lo
ilutraremos a continuación con algunos ejemplos.
Ejemplo 2.9 (Un parámetro) Sea X1 , . . . , Xn una muestra aleatoria de
la distribución Berpθq, en donde θ es desconocido. La estimación del paráme-
tro θ por el método de momentos consiste en igualar el primer momento de
12 2. Estimación puntual
la distribución, que es θ, con el primer momento muestral, que es X̄. Esta
igualación produce directamente la identidad
θ̂ “ X̄.
Observe que cuando se ha hecho la igualación ya no se escribe θ sino θ̂,
pues resolver la ecuación para este término produce el estimador por el
método de momentos. De esta manera, si x1 , . . . , xn son los valores de las
observaciones, entonces el promedio x̄ “ px1 ` ¨ ¨ ¨ ` xn q{n es una estimación
para el valor de θ. ‚
Ejemplo 2.10 (Un parámetro) Sea X una variable aleatoria continua
con función de densidad
#
θ xθ´1 si 0 ă x ă 1,
f px; θq “
0 en otro caso,
en donde θ ą 0 es un parámetro desconocido. Supongamos que contamos con
una muestra aleatoria X1 , . . . , Xn de esta distribución. Usaremos el método
de momentos para encontrar un estimador para θ. Puede comprobarse, sin
mucha dificultad, que EpXq “ θ{p1`θq. La igualación de esta esperanza con
la media muestral X̄ produce la ecuación θ̂{p1`θ̂q “ X̄. Observe nuevamente
que al escribir la igualdad hemos puesto θ̂ en lugar θ. Resolviendo para θ̂ se
obtiene el estimador
X̄
θ̂ “ .
1 ´ X̄
Si x1 , . . . , xn son los valores numéricos observados, entonces θ̂ “ x̄{p1 ` x̄q
es el valor estimado para θ. ‚
Ejemplo 2.11 (Dos parámetros) Encontraremos estimadores para los
parámetros µ y σ 2 de una distribución normal mediante el método de mo-
mentos. Como se necesitan estimar dos parámetros, se usan los dos primeros
momentos. El primer y segundo momentos poblacionales son EpXq “ µ y
2.2 Método de momentos 13
EpX 2 q “ σ 2 ` µ2 . La igualación respectiva de estas cantidades con los dos
primeros momentos muestrales produce el sistema de ecuaciones
µ̂ “ X̄,
n
1 ÿ 2
σ̂ 2 ` µ̂2 “ X .
n i“1 i
Al hacer la igualación entre los momentos hemos escrito µ̂ en lugar de µ y
σ̂ 2 en lugar de σ 2 . Se trata ahora de resolver este sistema de ecuaciones para
µ̂ y σ̂ 2 . La primera ecuación es explı́cita mientras que la segunda ecuación
se puede reescribir como sigue
n
1 ÿ 2
σ̂ 2 “ p X q ´ X̄ 2
n i“1 i
n
1 ÿ
“ pXi ´ X̄q2
n i“1
n´1 2
“ S .
n
La penúltima igualdad no es inmediata, pero sólo se requieren llevar a cabo
algunas operaciones algebraicas sencillas para obtenerla. ‚
Ejemplo 2.12 (Primer momento nulo) Sea X una variable aleatoria
continua con función de densidad unifp´θ, θq, en donde θ ą 0 es un paráme-
tro desconocido. Aplicar el método de momentos para encontrar un esti-
mador para θ requiere conocer el primer momento de esta distribución.
Siendo este momento nulo, la igualación del primer momento poblacional y
el primer momento muestral no produce una ecuación útil de la cual puede
obtenerse un estimador para θ, a saber, 0 “ X̄. Se propone entonces igualar
los segundos momentos. Como EpX 2 q “ θ2 {3, se obtiene la ecuación
n
1 2 1 ÿ 2
θ̂ “ X ,
3 n i“1 i
de donde se obtiene el estimador
g
f
f3 ÿ n
θ̂ “ e X2 .
n i“1 i
14 2. Estimación puntual
Habiendo mostrado algunos ejemplos del método de momentos para estimar
parámetros, haremos ahora algunas observaciones generales que es bueno
recordar cuando se haga uso de este método.
a) Momentos poblacionales. La idea fundamental del método hace uso del
hecho de que, bajo ciertas condiciones, la sucesión de momentos pobla-
cionales EpXq, EpX 2 q, . . . determina de manera única a la distribución
de probabilidad. En el método sólo se usan los primeros pocos momentos,
los necesarios para estimar θ y de esta manera determinar completamen-
te a la distribución, pues estamos suponiendo que se conoce su forma.
El método presupone que se pueden encontrar expresiones sencillas para
los momentos poblacionales y que éstos dependen del parámetro o vector
de parámetros a estimar.
b) Momentos muestrales. El método está basado también en la ley de los
grandes números pues mediante este resultado se garantiza que, cuando el
tamaño de muestra n es grande, el k-ésimo momento muestral es cercano,
en algún sentido, al k-ésimo momento poblacional. Por ejemplo, para los
dos primeros momentos tenemos que, cuando n Ñ 8,
n
1 ÿ
Xi Ñ EpXq,
n i“1
n
1 ÿ 2
X Ñ EpX 2 q.
n i“1 i
c) Solución al sistema de ecuaciones. El método presupone que la ecua-
ción o sistema de ecuaciones resultante de la igualación de los momentos
muestrales y poblacionales tiene un única solución y que ésta es sencilla
de encontrar. En general, esto no es ası́. Cuando se tienen dos o más
parámetros el sistema de ecuaciones puede no ser sencillo de resolver
puesto que las ecuaciones no son necesariamente lineales. Y suponiendo
que es posible resolver el sistema de ecuaciones, las expresiones que se en-
cuentran pueden no tener una forma compacta o sencilla. A este respecto
considere como ejemplo el caso de la distribución hipergeopN, K, nq.
2.2 Método de momentos 15
d) Valores del parámetro. El método no garantiza que el estimador encon-
trado tome valores en el espacio parametral correspondiente. Por ejem-
plo, si un parámetro toma valores enteros, el método de momentos no
necesariamente produce un estimador con valores enteros.
e) El método puede aplicarse tanto para distribuciones discretas como con-
tinuas.
En la siguiente sección veremos un método alternativo para obtener estima-
dores para los parámetros desconocidos de una distribución dada.
Ejercicios
7. Sea X1 , . . . , Xn una muestra aleatoria de una distribución discreta
f px; θq como se indica abajo, en donde θ es un parámetro no conocido.
Encuentre el estimador para θ por el método de momentos en cada
caso.
a) Para 0 ă θ ă 4,
x 1 2
f px; θq θ{4 1 ´ θ{4
b) Para 0 ă θ ă 6{5,
x ´1 0 1
f px; θq θ{2 θ{3 1 ´ 5θ{6
c) Para 0 ă θ ă 3{2,
x 0 1 2
f px; θq θ{3 1 ´ 2θ{3 θ{3
8. Sea X1 , . . . , Xn una muestra aleatoria de una distribución con función
de probabilidad o de densidad f px; θq, dependiente de un parámetro
desconocido θ como se indica en cada caso. Encuentre el estimador
para θ mediante el método de momentos.
16 2. Estimación puntual
& 1 si x “ 1, 2, . . . , θ; θ P N,
$
a) f px; θq “ θ
% 0 en otro caso.
& 1 si 0 ă x ă θ; θ ą 0,
$
b) f px; θq “ θ
% 0 en otro caso.
2x
$
& si x “ 1, 2, . . . , θ; θ P N,
c) f px; θq “ θpθ ` 1q
0 en otro caso.
%
& 2x si 0 ď x ď θ; θ ą 0,
$
d) f px; θq “ θ2
% 0 en otro caso.
#
θp1 ´ θqx´1 si x “ 1, 2, . . . ; 0 ă θ ă 1,
e) f px; θq “
0 en otro caso.
#
e´px´θq si θ ď x ă 8; θ P R,
f ) f px; θq “
0 en otro caso.
#
θxθ´1 si 0 ă x ă 1; θ ą 0,
g) f px; θq “
0 en otro caso.
9. Sea X1 , . . . , Xn una muestra aleatoria de la distribución f px; θq como
aparece especificada abajo, en donde ´1 ă θ ă 1 es un parámetro
desconocido. Obtenga el estimador para θ por el método de momentos.
& 1 ` θx si ´ 1 ă x ă 1,
$
f px; θq “ 2
0 en otro caso.
%
10. Sea X1 , . . . , Xn una muestra aleatoria de la distribución f px; θq como
aparece especificada abajo, en donde θ ą 0 es un parámetro descono-
cido. Obtenga el estimador para θ por el método de momentos.
$
& 2pθ ´ xq
si 0 ă x ă θ,
f px; θq “ θ2
0 en otro caso.
%
2.2 Método de momentos 17
11. Distribución uniforme. Use el método de momentos para estimar el
parámetro θ ą 0 de la distribución unifp´θ, θq.
12. Distribución doble exponencial. Sea X1 , . . . , Xn una muestra aleatoria
de la distribución f px; θq como aparece especificada abajo, en donde
θ ą 0 es un parámetro desconocido. Obtenga el estimador para θ por
el método de momentos.
1 ´θ|x|
f px; θq “ θe ´ 8 ă x ă 8.
2
13. Las siguientes distribuciones dependen de dos parámetros: uno des-
conocido denotado por la letra θ y otro que supondremos conocido y
que se denota por una letra distinta. Encuentre el estimador por el
método de momentos para el parámetro desconocido θ, suponiendo
un tamaño de muestra n.
a) binpk, θq. i ) Npθ, σ 2 q.
b) binpθ, pq. j ) Npµ, θq.
c) bin negpr, θq. k ) betapa, θq.
d ) bin negpθ, pq. l ) betapθ, bq.
e) unifpa, θq. m) Weibullpθ, λq.
f ) unifpθ, bq. n) Weibullpα, θq.
g) gammapθ, λq. ñ) Fpa, θq.
h) gammapγ, θq. o) Fpθ, bq, b ą 4.
14. Algunas distribuciones discretas. Compruebe que los estimadores por
el método de momentos para los parámetros de las distribuciones dis-
cretas que aparecen en la tabla de la Figura 2.1 son los indicados.
Suponga que X1 , . . . , Xn es una muestra aleatoria de tamaño n de la
distribución en estudio. En caso necesario consulte en un apéndice al
final del texto la expresión y notación de los parámetros para estas
distribuciones. Observe, sin embargo, que el parámetro n se reserva
para el tamaño de la muestra aleatoria. Para hacer las fórmulas cortas
se utiliza la siguiente notación cuando ambos momentos aparecen en
18 2. Estimación puntual
la fórmula.
n
1ÿ
m1 “ Xi ,
n i“1
n
1ÿ 2
m2 “ X .
n i“1 i
Nota: se indica únicamente el resultado producido por el método de
momentos, sin garantizar que el estimador tome valores en el espacio
parametral correspondiente. Por su complejidad, se ha omitido de esta
tabla la distribución hipergeopN, K, nq.
15. Valores al azar. Los siguientes diez números son valores al azar genera-
dos en R de la distribución geopθq, mediante el comando rgeomp10, θq.
x1 “ 0 x3 “ 0 x5 “ 3 x7 “ 1 x9 “ 3
x2 “ 0 x4 “ 2 x6 “ 3 x8 “ 0 x10 “ 6
Para el parámetro θ se usó uno de dos valores:
θ “ 0.2 ó θ “ 0.4 .
¿Puede usted determinar el valor de θ que se usó? Observe que nunca
existirá una confianza absoluta en la respuesta.
16. Algunas distribuciones continuas. Compruebe que los estimadores por
el método de momentos para los parámetros de las distribuciones con-
tinuas que aparecen en la tabla de la Figura 2.2. son los indicados.
Suponga que X1 , . . . , Xn es una muestra aleatoria de tamaño n de la
distribución en estudio. En caso necesario consulte en un apéndice al
final del texto la expresión y notación de los parámetros para estas
distribuciones. Observe, sin embargo, que el parámetro n se reserva
para el tamaño de la muestra aleatoria. Para hacer las fórmulas cortas
se utiliza la siguiente notación cuando ambos momentos aparecen en
la fórmula.
n
1ÿ
m1 “ Xi ,
n i“1
n
1ÿ 2
m2 “ X .
n i“1 i
2.2 Método de momentos 19
Distribución Parámetro(s) Estimador(es) por el
método de momentos
unift1, . . . , ku k P t1, 2, . . .u k̂ “ 2X̄ ´ 1
Berppq p P p0, 1q p̂ “ X̄
m21
binpk, pq k P t1, 2, . . .u k̂ “
m1 ´ pm2 ´ m21 q
m2 ´ m21
p P p0, 1q p̂ “ 1 ´
m1
1
geoppq p P p0, 1q p̂ “
1 ` X̄
m21
bin negpr, pq r P t1, 2, . . .u r̂ “
m2 ´ m21 ´ m1
m1
p P p0, 1q p̂ “
m2 ´ m21
Poissonpλq λ P p0, 8q λ̂ “ X̄
Figura 2.1
20 2. Estimación puntual
Nota: se indica únicamente el resultado producido por el método de
momentos, sin garantizar que el estimador tome valores en el espa-
cio parametral correspondiente. Se incluye el caso de la distribución
normal desarrollado antes como ejemplo.
17. Valores al azar. Los siguientes diez números son valores al azar gene-
rados en R de la distribución exppθq, mediante el comando rexpp10, θq.
x1 “ 0.026 x5 “ 0.235 x9 “ 0.723
x2 “ 0.370 x6 “ 0.015 x10 “ 0.364
x3 “ 0.655 x7 “ 1.069
x4 “ 1.567 x8 “ 0.352
Para el parámetro θ se usó uno de dos valores:
θ “ 2 ó θ “ 5 .
¿Puede usted determinar el valor de θ que se usó? Observe que nunca
existirá una confianza absoluta en la respuesta.
18. Cuatro focos se ponen a prueba permanente hasta que dejan de fun-
cionar. Los tiempos registrados de vida útil en horas fueron
x1 “ 950 x3 “ 1020
x2 “ 1050 x4 “ 985
Suponga que se acepta la distribución gammapγ, λq como modelo para
el tiempo de vida útil de los focos.
pλxqγ´1
f px; γ, λq “ λ e´λx x ą 0; γ ą 0, λ ą 0.
Γpγq
a) Estime γ y λ por el método de momentos.
b) Calcule la probabilidad de que un foco nuevo de las mismas ca-
racterı́sticas tenga un tiempo de vida de más de 1000 horas.
19. Suponga que las cinco cantidades que aparecen abajo son observacio-
nes de una variable aleatoria X con distribución uniforme en el in-
tervalo pa, bq. Encuentre una estimación por el método de momentos
para a y b.
2.2 Método de momentos 21
Distribución Parámetro(s) Estimador(es) por el
método de momentos
4m21 ´ 3m2
unifpa, bq aăb â “
2m1 ´ 1
3m2 ´ 2m1
b̂ “
2m1 ´ 1
1
exppλq λ P p0, 8q λ̂ “
X̄
m21
gammapγ, λq γ P p0, 8q γ̂ “
m2 ´ m21
m1
λ P p0, 8q λ̂ “
m2 ´ m21
Npµ, σ 2 q µ P p´8, 8q µ̂ “ m1 “ X̄
2 n´1 2
σ P p0, 8q σ̂ 2 “ m2 ´ m21 “ S
n
m1 pm1 ´ m2 q
betapa, bq a P p0, 8q â “
m2 ´ m21
p1 ´ m1 qpm1 ´ m2 q
b P p0, 8q b̂ “
m2 ´ m21
Weibullpα, λq α P p0, 8q α̂ “ ¨ ¨ ¨
λ P p0, 8q λ̂ “ ¨ ¨ ¨
χ2 pkq k P p0, 8q k̂ “ X̄
2m2
tpkq k P p0, 8q k̂ “
m2 ´ 1
2m21
Fpa, bq a P p0, 8q â “
m21
´ m2 p2 ´ m1 q
2m1
b P p0, 8q b̂ “
m1 ´ 1
Figura 2.2
22 2. Estimación puntual
x1 “ 4 x3 “ 0.3 x5 “ 7.2
x2 “ 3.2 x4 “ 1.5
20. Al final de cada hora de un dı́a de trabajo en una fábrica se escogen
al azar 10 artı́culos de una lı́nea de producción para detectar artı́culos
defectuosos. Durante un dı́a particular se obtuvieron los siguientes
resultados
Hora 1 2 3 4 5 6 7 8
Artı́culos defectuosos 1 2 1 0 1 2 0 1
Usando el método de momentos estime la proporción de artı́culos de-
fectuosos en esta lı́nea de producción.
2.3. Método de máxima verosimilitud
Este método fue popularizado por Ronald Fisher2 a través de sus trabajos
publicados durante la segunda década del siglo XX, aunque la idea funda-
mental del método habı́a sido usada con anterioridad por varios matemáti-
cos importantes como Gauss y Laplace. Explicaremos a continuación este
interesante método. Supongamos que X1 , . . . , Xn es una muestra aleatoria
de una distribución con función de densidad o de probabilidad conocida
f px; θq, pero en donde el parámetro θ no está determinado.
Definición 2.6 La función de verosimilitud de una muestra aleatoria
X1 , . . . , Xn de una distribución f px; θq se denota por Lpθq y se define
como la función de densidad o de probabilidad conjunta
Lpθq “ fX1 ,...,Xn px1 , . . . , xn ; θq. (2.1)
Observemos que, como la notación lo sugiere, por ahora nos interesa estudiar
esta función como función del parámetro θ. Ası́, el parámetro θ se considera
2
Ronald Aylmer Fisher (1890-1962), estadı́stico y genetista inglés.
2.3 Método de máxima verosimilitud 23
como una variable que toma valores en el espacio parametral correspondiente
Θ. Los valores de la muestra aleatoria x1 , . . . , xn son considerados como
constantes. Observemos que, usando la hipótesis de independencia entre las
variables de la muestra aleatoria, la función de verosimilitud adquiere la
forma del siguiente producto
Lpθq “ fX1 px1 ; θq ¨ ¨ ¨ fXn pxn ; θq. (2.2)
Por la hipótesis de idéntica distribución omitiremos los subı́ndices de estas
funciones y escribiremos Lpθq “ f px1 ; θq ¨ ¨ ¨ f pxn ; θq. La letra L proviene
del término en inglés likelihood, que tradicionalmente se ha traducido como
verosimilitud. El método de máxima verosimilitud consiste en obtener el
valor de θ que maximiza la función de verosimilitud Lpθq. La idea intuitiva
es muy natural: se debe encontrar el valor de θ de tal forma que los datos
observados x1 , . . . , xn tengan máxima probabilidad de ser obtenidos. La pro-
babilidad de observar los valores x1 , . . . , xn está directamente relacionada
con la función de verosimilitud y por ello es que se pide maximizarla. En el
caso de una distribución discreta, la función de verosimilitud es la probabi-
lidad de observar los valores x1 , . . . , xn . El valor de θ en donde Lpθq alcanza
su máximo, en caso de existir tal valor, se llama estimación de máxima ve-
rosimilitud o estimación máximo verosı́mil . Ilustraremos este método con
algunos ejemplos.
Ejemplo 2.13 (Un parámetro) Encontraremos el estimador máximo ve-
rosı́mil para el parámetro θ de una distribución exppθq. La función de vero-
similitud es, para θ ą 0,
Lpθq “ f px1 ; θq ¨ ¨ ¨ f pxn ; θq
“ rθ e´θx1 ¨ 1p0,8q px1 qs ¨ ¨ ¨ rθ e´θxn ¨ 1p0,8q pxn qs
“ θn e´θnx̄ ¨ 1p0,8q px1 q ¨ ¨ ¨ 1p0,8q pxn q.
Maximizar la función Lpθq es equivalente a maximizar la función ln Lpθq,
pues la función logaritmo es continua y monótona creciente en su dominio de
definición. Hacemos la operación anterior debido a que la función resultante
es más fácil de maximizar como veremos a continuación. Tenemos que
ln Lpθq “ n ln θ ´ θnx̄ ` lnr1p0,8q px1 q ¨ ¨ ¨ 1p0,8q pxn qs.
24 2. Estimación puntual
Derivando respecto a θ e igualando a cero se llega a la ecuación
n
´ nx̄ “ 0,
θ
de donde se obtiene θ̂ “ 1{x̄. Calculando la segunda derivada se puede
comprobar que en este valor la función de verosimilitud tiene, efectivamente,
un máximo. Si x1 , . . . , xn son los valores numéricos observados de la muestra,
entonces el número θ̂px1 , . . . , xn q “ 1{x̄ es la estimación (máxima verosı́mil
) para θ. El estimador (máximo verosı́mil ) es la variable aleatoria
1
θ̂ “ .
X̄
‚
Ejemplo 2.14 (Un parámetro) Sea X1 , . . . , Xn una muestra aleatoria de
una distribución geopθq. Encontraremos el estimador por máxima verosimi-
litud para el parámetro θ. La función de verosimilitud es
Lpθq “ f px1 ; θq ¨ ¨ ¨ f pxn ; θq
“ rθ p1 ´ θqx1 ¨ 1t0,1,...u px1 qs ¨ ¨ ¨ rθ p1 ´ θqx1 ¨ 1t0,1,...u pxn qs
“ θn p1 ´ θqnx̄ ¨ 1t0,1,...u px1 q ¨ ¨ ¨ 1t0,1,...u pxn q
Tomando logaritmo se obtiene
ln Lpθq “ n ln θ ` nx̄ ln p1 ´ θq ` ln r1t0,1,...u px1 q ¨ ¨ ¨ 1t0,1,...u pxn qs.
Derivando respecto a θ e igualando a cero se llega a la ecuación
n nx̄
´ “ 0.
θ 1´θ
De donde se obtiene que la estimación es el número θ̂ “ 1{p1 ` x̄q. El
estimador (máximo verosı́mil) es la variable aleatoria
1
θ̂ “ .
1 ` X̄
Nuevamente, mediante el cálculo de la segunda derivada se puede comprobar
que el valor encontrado es un punto crı́tico en donde la función de verosimi-
litud Lpθq tiene efectivamente un máximo global en el espacio parametral
el intervalo p0, 1q. ‚
2.3 Método de máxima verosimilitud 25
El método de máxima verosimilitud puede aplicarse también en el caso
cuando la distribución depende de dos o mas parámetros. En el siguiente
ejemplo encontraremos los estimadores de máxima verosimilitud para los
parámetros µ y σ 2 de una distribución normal.
Ejemplo 2.15 (Dos parámetros) Dada una muestra aleatoria de la dis-
tribución Npµ, σ 2 q, la función de verosimilitud es, para valores µ P R y
σ 2 ą 0,
Lpµ, σ 2 q “ f px1 ; µ, σ 2 q ¨ ¨ ¨ f pxn ; µ, σ 2 q
1 2 2 1 2 2
“ ? e´px1 ´µq {2σ ¨ ¨ ¨ ? e´pxn ´µq {2σ
2πσ 2 2πσ 2
ˆ ˙n n
1 1 ÿ
“ ? exp p´ 2 pxi ´ µq2 q.
2πσ 2 2σ i“1
Nuevamente, el logaritmo de esta función es más sencillo de maximizar. Ası́,
tenemos que
n
2 n 2 1 ÿ
ln Lpµ, σ q “ ´ ln p2πσ q ´ 2 pxi ´ µq2 .
2 2σ i“1
Por lo tanto,
n
B 1 ÿ
ln Lpµ, σ 2 q “ pxi ´ µq,
Bµ σ 2 i“1
n
B 2 n 1 ÿ
ln Lpµ, σ q “ ´ ` pxi ´ µq2 .
Bσ 2 2σ 2 2σ 4 i“1
Igualando a cero ambas derivadas encontramos un sistema de dos ecuaciones
con dos variables,
n
1 ÿ
pxi ´ µq “ 0,
σ 2 i“1
n
n 1 ÿ
´ ` pxi ´ µq2 “ 0.
2σ 2 2σ 4 i“1
26 2. Estimación puntual
De estas ecuaciones se obtiene µ “ n1 ni“1 xi y σ 2 “ n1 ni“1 pxi ´ µ̂q2 . Por
ř ř
lo tanto, los estimadores por el método de máxima verosimilitud son
n
1ÿ
µ̂ “ Xi “ X̄,
n i“1
n
1ÿ n´1 2
σ̂ 2 “ pXi ´ X̄q2 “ S .
n i“1 n
Para verificar que la función de verosimilitud tiene efectivamente un máximo
en este punto, es necesario calcular la matriz hessiana
ˇ
ˇ B2 2
ˇ
2 B 2
ˇ
ˇ ln Lpµ, σ q 2
ln Lpµ, σ q ˇ
2
Hpµ, σ q “ ˇ
ˇ BµBµ BµBσ ˇ
ˇ.
2 2
ˇ
ˇ B B
2 2 ˇ
ˇ
ˇ Bσ 2 Bµ ln Lpµ, σ q ln Lpµ, σ q
Bσ 2 Bσ 2 ˇ
Se evalúa H en el punto pµ̂, σ̂ 2 q y se comprueba que la matriz Hpµ̂, σ̂ 2 q es
negativa definida. Véase la página 203 del Apéndice en donde se hace una
revisión de este procedimiento. Observemos que, para esta distribución, los
estimadores por máxima verosimilitud coinciden con los encontrados por el
método de momentos. Esto no siempre es ası́. ‚
El siguiente ejemplo muestra algunas cuestiones técnicas que pueden surgir
al buscar el máximo de una función de verosimilitud.
Ejemplo 2.16 Consideremos una muestra aleatoria X1 , . . . , Xn de una dis-
tribución unifp0, θq, cuya función de densidad se puede escribir como sigue
1
f px; θq “ ¨1 pxq,
θ p0,θq
en donde θ ą 0 es un parámetro desconocido que deseamos estimar. La
función de verosimilitud es
1
Lpθq “ ¨1 px1 q ¨ ¨ ¨ ¨ 1p0,θq pxn q
θn p0,θq
1
“ ¨1 xi , 8q pθq ¨ 1p0,8q pmı́n xi q.
θn pmáx
i
i
2.3 Método de máxima verosimilitud 27
Lpθq
1
θn
ˆ ˆ ˆ θ
xp1q xp2q ¨¨¨ xpnq
Figura 2.3
Se puede comprobar que la función Lpθq es constante cero hasta el valor
xpnq “ máxi xi y toma la expresión 1{θn después de ese valor. Véase la
Figura 2.3 en donde xpiq es el i-ésimo valor ordenado de la muestra.
Ası́, la función de verosimilitud nunca alcanza su máximo y el estimador
máximo versimil no existe en este caso. Esta situación puede subsanarse
si se considera que la distribución uniforme se tiene sobre el intervalo con
extremo derecho cerrado p0, θs, en cuyo caso el estimador máximo verosı́mil
existe y es θ̂ “ Xpnq .
‚
Habiendo mostrado algunos ejemplos del método de máxima verosimilitud,
haremos ahora algunas observaciones generales sobre este método para es-
timar parámetros.
a) Aplicación general. En los ejemplos mostrados se aplicó el método de
máxima verosimilitud cuando la función de verosimilitud toma la forma
del producto en la ecuación (2.2). Esto es consecuencia de la hipótesis de
independencia de las variables de la muestra aleatoria. Sin embargo, el
método es más general y se puede aplicar también cuando no se tenga esta
hipótesis de independencia y la función a maximizar es la que aparece
en la ecuación (2.1).
b) Diferenciabilidad. El procedimiento usual de maximización de la función
de verosimilitud a través del cálculo de derivadas puede llevarse a cabo
únicamente cuando el parámetro θ puede tomar un continuo de valores,
28 2. Estimación puntual
cuando la función de verosimilitud sea diferenciable y cuando ésta alcance
un máximo global en un único punto θ̂ dentro de su rango de valores.
El método de máxima verosimilitud no presupone necesariamente el uso
de las derivadas para su aplicación. Por ejemplo, si un parámetro toma
valores enteros, otra técnica de maximización debe utilizarse.
c) Solubilidad. El método de máxima verosimilitud presupone que encontrar
el punto en donde la función de verosimilitud es máxima no es difı́cil de
encontrar.
d) Transformación. Como se ha ilustrado en los ejemplos, en algunas oca-
siones resulta más conveniente maximizar el logaritmo de la función de
verosimilitud que la función de verosimilitud misma. Cualquier otra fun-
ción monótona y diferenciable puede ser usada convenientemente.
e) Existencia y unicidad. El estimador máximo verosı́mil puede no existir
como en el caso de la distribución unifp0, θq, y puede no ser único como
en el caso de la distribución ...
En ocasiones nos interesará estudiar funciones de un parámetro o conjunto
de parámetros de una distribución. Tal concepto se formaliza en la siguiente
definición.
Definición 2.7 Sea θ un parámetro o vector de parámetros de una fun-
ción de probabilidad o de densidad f px; θq. A cualquier función θ ÞÑ τ pθq,
con dominio adecuadamente definido, se le llama función parametral.
Ahora, supongamos que θ̂ es el estimador máximo verosı́mil para θ. Si con-
sideramos a una función parametral τ pθq como un nuevo parámetro que
necesita ser estimado por el método de máxima verosimilitud, ¿será cierto
que su estimador máximo verosı́mil es τ pθ̂q? Para responder a esta pregun-
ta, observemos, primeramente, que no está claro cuál serı́a la función de
verosimilitud asociada al nuevo parámetro τ pθq. Vamos a definir primero a
esta función y después contestaremos la pregunta planteada.
2.3 Método de máxima verosimilitud 29
Definición 2.8 La función de verosimilitud asociada a una función pa-
rametral τ pθq se define de la forma siguiente: si η es un posible valor de
τ pθq, entonces
L˚ pηq “ sup tLpθq : θ P τ ´1 pηqu. (2.3)
Al posible valor η̂ que maximiza L˚ pηq se le llama el estimador máximo
verosı́mil para τ pθq.
Observemos que el conjunto que aparece en (2.3) corresponde al conjunto no
vacı́o de todas las evaluaciones Lpθq en donde θ es una preimagen del valor
η y se puede escribir como Lpτ ´1 pηqq, esto es la aplicación de la función
L en cada elemento del conjunto τ ´1 pηq. Al tomar el supremo sobre este
conjunto se obtiene la función numérica L˚ pηq, a la cual consideraremos
como la función de verosimilitud de la función parametral τ pθq.
Ejemplo 2.17 Sea θ el parámetro de la distribución Berpθq, con 0 ă θ ă 1,
y sea Lpθq la función de verosimilitud de una muestra aleatoria de esta distri-
bución. En este ejemplo consideraremos dos ejemplos de funciones parame-
trales τ pθq y encontraremos las funciones de verosimilitud correspondientes.
a) Consideremos la función parametral τ pθq “ θ2 . En este caso la función
parametral también toma valores en el intervalo p0, 1q como lo hace θ
y es una función uno a uno. Véase la Figura 2.4 (a). La función de
verosimilitud para τ pθq se puede escribir como
?
L˚ pηq “ Lpτ ´1 pηqq “ Lp ηq para 0 ă η ă 1.
b) Consideremos ahora la función parametral τ pθq “ θp1 ´ θq. Esta función
también toma valores en p0, 1q pero, para cada uno de sus valores η, hay
dos preimágenes θ1 y θ2 como se muestra en la Figura 2.4 (b). Ası́, la
función de verosimilitud para τ pθq está dada de la siguiente manera:
L˚ pηq “ máx tLpθ1 q, Lpθ2 qu para η P p0, 1q.
‚
30 2. Estimación puntual
τ pθq “ θ2 τ pθq “ θp1 ´ θq
1 1
η
η
? θ θ
η 1 θ1 θ2 1
(a) (b)
Figura 2.4
El siguiente resultado da respuesta afirmativa a la pregunta planteada lı́neas
arriba.
Teorema 2.1 (Principio de invarianza) Sea θ̂ el estimador máximo
verosı́mil para un parámetro θ y sea τ pθq cualquier función parametral.
El estimador máximo verosı́mil para τ pθq es τ pθ̂q.
Demostración.
a) Consideremos primero el caso cuando la función θ ÞÑ τ pθq es uno a uno.
Entonces la función inversa de τ existe y la función de verosimilitud para
τ pθq se puede expresar de la siguiente forma: si η “ τ pθq,
L˚ pηq “ Lpτ ´1 pηqq “ Lpθq.
De esta manera, el máximo de L˚ pηq coincide con el máximo de Lpθq
y este último se alcanza en θ̂. Entonces L˚ pηq alcanza su máximo en
η “ τ pθ̂q.
b) Veamos ahora el caso cuando θ ÞÑ τ pθq no necesariamente es una función
uno a uno. Por la identidad (2.3), el valor máximo del conjunto de valores
2.3 Método de máxima verosimilitud 31
L˚ pηq coincide con el valor máximo de Lpθq. Este último se alcanza en
θ̂. Por lo tanto, si η̂ es el valor τ pθ̂q, entonces
L˚ pη̂q “ L˚ pτ pθ̂qq “ Lpτ ´1 pτ pθ̂qqq Ě Lpθ̂q.
Por lo tanto, L˚ pηq alcanza su máximo en η “ τ pθ̂q.
Observemos que el principio de invarianza es también válido cuando el
parámetro θ es un vector de parámetros. En efecto, en la demostración que
hemos presentado no se presupone que θ sea un parámetro unidimensional.
Veamos algunos ejemplos.
Ejemplo 2.18 El estimador máximo verosı́mil para el parámetro θ en la
distribución Berpθq es θ̂ “ X̄. Entonces el estimador máximo verosı́mil para
la función parametral τ pθq “ θ2 es τ pθ̂q “ X̄ 2 . Si ahora consideramos la
función parametral τ pθq “ θp1 ´ θq, entonces el estimador máximo verosı́mil
para τ pθq es τ pθ̂q “ X̄p1 ´ X̄q. ‚
Ejemplo 2.19 Los estimadores máximo verosı́miles para µ y σ 2 en la dis-
tribución Npµ, σ 2 q son µ̂ “ X̄ y σ̂ 2 “ ppn ´ 1q{nq S 2 . Por el principio de
invarianza, el estimador máximo verosı́mil para
a) τ pµ, σ 2 q “ µ ` 5 es τ pµ̂, σ̂ 2 q “ X̄ ` 5.
c
2 n´1
b) τ pµ, σ 2 q “µ`σ es τ pµ̂, σ̂ q “ X̄ ` S.
n
µ n X̄
c) τ pµ, σ 2 q “ es τ pµ̂, σ̂ 2 q “ .
σ2 n ´ 1 S2
‚
32 2. Estimación puntual
Ejercicios
21. Sea X1 , . . . , Xn una muestra aleatoria de una distribución con función
de probabilidad o de densidad f px; θq, dependiente de un parámetro
desconocido θ como se indica en cada caso. Encuentre el estimador
para θ mediante el método de máxima verosimilitud.
& 1 si x “ 1, 2, . . . , θ; θ P N,
$
a) f px; θq “ θ
% 0 en otro caso.
2x
$
& si x “ 1, 2, . . . , θ; θ P N,
b) f px; θq “ θpθ ` 1q
0 en otro caso.
%
& 2x
$
si 0 ď x ď θ; θ ą 0,
c) f px; θq “ θ2
% 0 en otro caso.
#
θp1 ´ θqx´1 si x “ 1, 2, . . . ; 0 ă θ ă 1,
d ) f px; θq “
0 en otro caso.
#
e´px´θq si θ ď x ă 8; θ P R,
e) f px; θq “
0 en otro caso.
#
θxθ´1 si 0 ă x ă 1; θ ą 0,
f ) f px; θq “
0 en otro caso.
22. Algunas distribuciones discretas. Compruebe que los estimadores por
el método de máxima verosimilitud para los parámetros de las distri-
buciones discretas que aparecen en la tabla de la Figura 2.5 son los
indicados. Suponga que X1 , . . . , Xn es una muestra aleatoria de ta-
maño n de la distribución en estudio. En caso necesario consulte en
un apéndice al final del texto la expresión y notación de los paráme-
tros para estas distribuciones. Observe, sin embargo, que el parámetro
n se reserva para el tamaño de la muestra aleatoria. Para hacer las
2.3 Método de máxima verosimilitud 33
Distribución Parámetro(s) Estimador(es) por
máxima verosimilitud
unift1, . . . , ku k P t1, 2, . . .u k̂ “ Xpnq
Berppq p P p0, 1q p̂ “ X̄
binpk, pq k P t1, 2, . . .u k̂ “ ¨ ¨ ¨
p P p0, 1q p̂ “ ¨ ¨ ¨
1
geoppq p P p0, 1q p̂ “
1 ` X̄
bin negpr, pq r P t1, 2, . . .u r̂ “ ¨ ¨ ¨
p P p0, 1q p̂ “ ¨ ¨ ¨
Poissonpλq λ P p0, 8q λ̂ “ X̄
Figura 2.5
fórmulas cortas se utiliza nuevamente la notación
n
1ÿ
m1 “ Xi ,
n i“1
n
1ÿ 2
m2 “ X .
n i“1 i
Nota: *** se indica únicamente el resultado producido por el método
de máxima verosimilitud, sin garantizar que el estimador tome valores
en el espacio parametral correspondiente. Por su complejidad, se omite
el caso de la distribución hipergeopN, K, nq.
23. Algunas distribuciones continuas. Compruebe que los estimadores por
el método de máxima verosimilitud para los parámetros de las dis-
tribuciones continuas que aparecen en la tabla de la Figura 2.6 son
34 2. Estimación puntual
los indicados. Suponga que X1 , . . . , Xn es una muestra aleatoria de
tamaño n de la distribución en estudio. En caso necesario consulte en
un apéndice al final del texto la expresión y notación de los paráme-
tros para estas distribuciones. Observe, sin embargo, que el parámetro
n se reserva para el tamaño de la muestra aleatoria.
Nota: se indica únicamente el resultado producido por el método de
máxima verosimilitud, sin garantizar que el estimador tome valores en
el espacio parametral correspondiente. Se incluye el caso de la distri-
bución normal desarrollado antes como ejemplo.
24. Suponga que los datos que se muestran en la tabla que aparece abajo
corresponden a 50 observaciones de una variable aleatoria con distri-
bución binpk, pq, en donde k “ 5 y p es desconocido. Encuentre el
estimador máximo verosı́mil para la probabilidad P pX ě 2q.
x 0 1 2 3 4 5
Frecuencia 6 10 14 13 6 1
25. Sea X1 , . . . , Xn una muestra aleatoria de la distribución exppθq, en
donde θ ą 0 es desconocido. Suponga que en lugar de observar esta
muestra aleatoria se observan las primeras k estadı́sticas de orden
Xp1q ď Xp2q ď ¨ ¨ ¨ ď Xpkq , en donde k ď n. Encuentre el estimador
máximo verosı́mil para θ usando Xp1q , . . . , Xpkq .
26. Sea X1 , . . . , Xn una muestra aleatoria de la distribución Berpθq, con
0 ă θ ă 1 desconocido. Encuentre el estimador por el método de
máxima verosimilitud para la función parametral τ pθq indicada.
a) τ pθq “ θ2 .
b) τ pθq “ θ{p1 ´ θq.
c) τ pθq “ θp1 ´ θq.
27. Distribución uniforme. Considere la distribución unifr´θ, 2θs, en don-
de θ ą 0 es desconocido y se desea estimar a través de una muestra
aleatoria X1 , . . . , Xn . Encuentre el estimador para θ por el método de
máxima verosimilitud.
2.3 Método de máxima verosimilitud 35
Distribución Parámetro(s) Estimador(es) por
máxima verosimilitud
4m21 ´ 3m2
unifpa, bq aăb â “ (Revisar)
2m1 ´ 1
3m2 ´ 2m1
b̂ “ (Revisar)
2m1 ´ 1
1
exppλq λ P p0, 8q λ̂ “ (Revisar)
m1
m21
gammapγ, λq γ P p0, 8q γ̂ “ (Revisar)
m2 ´ m21
m1
λ P p0, 8q λ̂ “ (Revisar)
m2 ´ m21
Npµ, σ 2 q µ P p´8, 8q µ̂ “ m1 “ X̄ (Revisar)
n´1 2
σ 2 P p0, 8q σ̂ 2 “ m2 ´ m21 “ S (Revisar)
n
m1 pm1 ´ m2 q
betapa, bq a P p0, 8q â “
m2 ´ m21
p1 ´ m1 qpm1 ´ m2 q
b P p0, 8q b̂ “ (Revisar)
m2 ´ m21
Weibullpα, λq α P p0, 8q α̂ “ ¨ ¨ ¨
λ P p0, 8q λ̂ “ ¨ ¨ ¨
χ2 pkq k P p0, 8q k̂ “ m1 (Revisar)
2m2
tpkq k P p0, 8q k̂ “ (Revisar)
m2 ´ 1
2m21
Fpa, bq a P p0, 8q â “ (Revisar)
m21
´ m2 p2 ´ m1 q
2m1
b P p0, 8q b̂ “ (Revisar)
m1 ´ 1
Figura 2.6
36 2. Estimación puntual
28. Distribución doble exponencial. Sea X1 , . . . , Xn una muestra aleatoria
de la distribución f px; θq como aparece especificada abajo, en donde
θ ą 0 es un parámetro desconocido. Obtenga el estimador para θ por
el método de máxima verosmilitud.
1 ´θ|x|
f px; θq “ θe ´ 8 ă x ă 8.
2
29. Distribución Rayleigh. Sea X1 , . . . , Xn una muestra aleatoria de la
distribución Rayleigh f px; θq, como aparece abajo, en donde θ ą 0 es
un parámetro no conocido. Encuentre el estimador para θ por máxima
verosimilitud.
& 2x e´x2 {θ si x ą 0,
$
f px; θq “ θ
0 en otro caso.
%
30. Sea X1 , . . . , Xn una muestra aleatoria de la distribución f px; θq que
se especifica abajo, en donde θ ą 0 es un parámetro desconocido.
Encuentre el estimador por el método de máxima verosimilitud para
a) el parámetro θ.
b) la probabilidad P pX ą 1q.
& 1 e´x{θ si x ą 0,
$
f px : θq “ θ
0 en otro caso.
%
31. Las siguientes distribuciones dependen de dos parámetros: uno des-
conocido denotado por la letra θ y otro que supondremos conocido
y que se denota por una letra distinta. Encuentre el estimador por
el método de máxima verosimilitud para el parámetro desconocido θ,
suponiendo un tamaño de muestra n.
a) binpk, θq. e) unifpa, θq.
b) binpθ, pq. f) unifpθ, bq.
c) bin negpr, θq. g) gammapθ, λq.
d) bin negpθ, pq. h) gammapγ, θq.
2.3 Método de máxima verosimilitud 37
i ) Npθ, σ 2 q. m) Weibullpθ, λq.
j ) Npµ, θq. n) Weibullpα, θq.
k ) betapa, θq. ñ) Fpa, θq.
l ) betapθ, bq. o) Fpθ, bq, b ą 4.
32. Tres parámetros. Sean X1 , . . . , Xn y Y1 , . . . , Ym dos muestras aleato-
rias independientes, la primera de la distribución Npµ1 , σ 2 q y la se-
gunda de la distribución Npµ2 , σ 2 q, en donde todos los parámetros
son desconocidos. Observe que la varianza es la misma para ambas
distribuciones. Encuentre el estimador por el método de máxima ve-
rosimilitud para el vector de parámetros pµ1 , µ2 , σ 2 q.
33. Proceso de Poisson. Un proceso de Poisson de parámetro θ ą 0 es un
proceso estocástico a tiempo continuo tXt : t ě 0u que satisface las
siguientes propiedades.
a) X0 “ 0 c.s.
b) Tiene incrementos independientes.
c) Xt ´ Xs „ Poissonpθpt ´ sqq, para 0 ď s ă t.
Suponga que el parámetro θ es desconocido y que deseamos estimar-
lo a través de n observaciones del proceso Xt1 , . . . , Xtn , en donde
0 ă t1 ă ¨ ¨ ¨ ă tn son tiempos fijos. Observe que las variables alea-
torias Xt1 , . . . , Xtn no son independientes. Use el método de máxima
verosimilitud para estimar θ.
34. Movimiento Browniano. Un movimiento Browniano unidimensional
de parámetro θ ą 0 es un proceso estocástico a tiempo continuo tBt :
t ě 0u que satisface las siguientes propiedades.
a) B0 “ 0 c.s.
b) Las trayectorias son continuas.
c) Tiene incrementos independientes.
d ) Bt ´ Bs „ Np0, θpt ´ sqq, para 0 ď s ă t.
38 2. Estimación puntual
Suponga que el parámetro θ es desconocido y que deseamos estimar-
lo a través de n observaciones del proceso Bt1 , . . . , Btn , en donde
0 ă t1 ă ¨ ¨ ¨ ă tn son tiempos fijos. Observe que las variables alea-
torias Bt1 , . . . , Btn no son independientes. Use el método de máxima
verosimilitud para estimar θ.
2.4. Insesgamiento
Puesto que un estimador es una variable aleatoria que se utiliza para estimar
un parámetro desconocido, es interesante comprobar si el valor promedio de
esta variable aleatoria coincide con el valor del parámetro. Esta serı́a una
buena propiedad para un estimador y es lo que motiva la siguiente definición.
Definición 2.9 Una estadı́stica θ̂ es un estimador insesgado para el
parámetro θ si cumple la condición
Epθ̂q “ θ. (2.4)
De esta forma, un estimador es insesgado para un parámetro si, en promedio,
el valor del estimador es idéntico al valor desconocido del parámetro. En los
siguientes ejemplos veremos que es posible verificar esta condición a pesar
de no conocer el valor del parámetro.
Ejemplo 2.20 Sea X1 , . . . , Xn una muestra aleatoria de la distribución
Poissonpθq, con θ ą 0 desconocido. Comprobaremos que la media mues-
tral X̄ es un estimador insesgado para θ. Por la propiedad de linealidad de
la esperanza tenemos que
n n n
1ÿ 1 ÿ 1 ÿ
EpX̄q “ Ep Xi q “ EpXi q “ θ “ θ.
n i“1 n i“1 n i“1
De esta manera, sin conocer el valor de θ hemos comprobado que el estima-
dor X̄ coincide, en promedio, con θ. ‚
2.4 Insesgamiento 39
Es interesante observar que el cálculo desarrollado en el ejemplo anterior no
depende de la distribución en estudio, de modo que podemos afirmar que la
media muestral es siempre un estimador insesgado del posible parámetro o
función parametral que pudiera aparecer en la esperanza de la distribución
de interés. Por ejemplo, si la distribución en cuestión es binpk, pq, entonces
X̄ es un estimador insesgado para la función parametral τ pk, pq “ kp.
En general, los estimadores insesgados no son únicos, pueden proponerse
varias estadı́sticas que resulten ser estimadores insesgados para un mismo
parámetro. Esto se muestra en el siguiente ejemplo.
Ejemplo 2.21 Sea X1 , X2 , X3 una muestra aleatoria de tamaño n “ 3 de
la distribución Berpθq, con θ ą 0 desconocido. Usando la propiedad de li-
nealidad de la esperanza, se puede comprobar que los siguientes estimadores
para θ son insesgados.
a) θ̂1 “ X1 . c) θ̂3 “ pX1 ` 2X2 ` 3X3 q{6.
b) θ̂2 “ pX1 ` 2X2 q{3. d) θ̂4 “ pXp1q ` Xp2q q{2.
El siguiente es un ejemplo menos evidente e importante de insesgamiento.
Ejemplo 2.22 Sea X1 , . . . , Xn una muestra aleatoria de la distribución
N pµ, θq, en donde la varianza θ ą 0 es desconocida y es el parámetro que
nos interesa estimar. Podemos suponer que el parámetro µ es conocido aun-
que tal hipótesis no es relevante en el siguiente análisis. Recordemos que la
varianza muestral es una estadı́stica definida como sigue
n
1 ÿ
S2 “ pXi ´ X̄q2 .
n ´ 1 i“1
Comprobaremos que S 2 es un estimador insesgado para la varianza desco-
nocida θ. Esta es la razón por la que aparece el término n ´ 1 como denomi-
nador en la definición de varianza muestral, y no n, como uno inicialmente
40 2. Estimación puntual
supondrı́a. Tenemos que
n
1 ÿ
EpS 2 q “ Ep pXi ´ X̄q2 q
n ´ 1 i“1
n
1 ÿ
“ EpXi ´ X̄q2
n ´ 1 i“1
n
1 ÿ
“ EpXi2 q ´ 2EpXi X̄q ` EpX̄ 2 q. (2.5)
n ´ 1 i“1
Se puede comprobar que
#
µ2 si i ‰ j,
EpXi Xj q “
θ ` µ2 si i “ j.
Substituyendo estas expresiones en (2.5) y simplificando se comprueba que
EpS 2 q “ θ. Es decir, S 2 es un estimador insesgado para θ. ‚
Nuevamente observamos que los cálculos anteriores son válidos para cual-
quier distribución con segundo momento finito, no únicamente para la dis-
tribución normal. Hemos usado únicamente la propiedad de la linealidad
de la esperanza y las hipótesis de independencia e idéntica distribución de
las variables de la muestra aleatoria. De este modo, la varianza muestral es
siempre un estimador insesgado del posible parámetro o función parametral
que pudiera aparecer en la varianza de la distribución de interés. Por ejem-
plo, si la distribución en cuestión es binpk, pq, entonces S 2 es un estimador
insesgado para la función parametral τ pk, pq “ kpp1 ´ pq.
Insesgamiento para funciones parametrales
Como hemos mostrado antes, el concepto de insesgamiento se aplica no sólo
para un parámetro de una distribución de probabilidad, sino también para
funciones parametrales. Aquı́ tenemos entonces una extensión natural de la
definición de insesgamiento dada anteriormente.
2.4 Insesgamiento 41
Definición 2.10 Sea θ un parámetro o un vector de parámetros
pθ1 , . . . , θk q de una distribución y sea τ pθq una función parametral . Una
estadı́stica T es un estimador insesgado para τ pθq si
EpT q “ τ pθq.
Por ejemplo, consideremos el caso de la distribución binpk, pq. Después del
Ejemplo 2.20 se ha observado que la estadı́stica media muestral X̄ es un
estimador insesgado para la función parametral (media) τ pk, pq “ kp de
esta distribución. Por otro lado, recién hemos comentado al final del Ejem-
plo 2.22 que la varianza muestral S 2 es un estimador insesgado para la
función parametral (varianza) τ pk, pq “ kpp1 ´ pq de esta distribución.
Funciones de estimadores insesgados
Sea θ̂ un estimador insesgado para un parámetro θ y sea ϕ una función dada,
con dominio de definición adecuado. Nos interesa considerar la estadı́stica
ϕpθ̂q y el problema es el siguiente:
¿Se preserva el insesgamiento bajo transformaciones?
Es decir, nos preguntamos si ϕpθ̂q es un estimador insesgado para ϕpθq. La
respuesta es, en general, negativa. Por ejemplo, sea ϕpxq “ x2 . Aplicare-
mos esta función al estimador insesgado θ̂ “ X̄ para el parámetro de la
distribución Poissonpθq. Puede comprobarse que
θ
Epθ̂2 q “ ` θ2 ‰ θ2 ,
n
es decir, θ̂2 no es insesgado para θ2 . Este hecho es consecuencia de que,
en general, Epϕp¨qq ‰ ϕpEp¨qq. Sin embargo, es interesante observar que en
este ejemplo en particular se cumple que Epθ̂2 q Ñ θ2 cuando n Ñ 8. A esta
propiedad lı́mite de los estimadores le llamaremos insesgamiento asintótico
42 2. Estimación puntual
y ese es el tema de la siguiente sección. Regresando al tema en estudio,
dado que la respuesta a la pregunta arriba planteada fue negativa, surge de
manera natural otra pregunta:
¿Bajo qué condiciones sobre una transformación
se preserva el insesgamiento?
Tal transformación debe satisfacer Epϕpθ̂qq “ ϕpθq “ ϕpEpθ̂qq. Es decir,
la transformación ϕ debe satisfacer la identidad Epϕp¨qq “ ϕpEp¨qq. Esta
identidad se cumple en muy pocos casos. En efecto, si consideramos que el
estimador en cuestión no es constante, entonces se puede comprobar que ϕ
debe ser una función lineal necesariamente. Ası́, omitiendo los casos triviales,
únicamente para transformaciones lineales se preserva el insesgamiento de
manera general.
Ejercicios
35. Distribución Bernoulli. Sabemos que θ̂ “ X̄ es un estimador insesga-
do para el parámetro θ de la distribución Bernoulli. Demuestre que
el estimador θ̂p1 ´ θ̂q no es insesgado para la varianza de esta dis-
tribución. Este es otro ejemplo que muestra que el insesgamiento no
se preserva bajo transformaciones. Proponga un estimador insesgado
para la varianza.
36. Distribución binomial. Sea X1 , . . . , Xn una muestra aleatoria de la dis-
tribución binpk, θq, en donde el número de ensayos k es conocido y la
probabilidad θ es desconocida. Demuestre que los siguientes estima-
dores son insesgados para el parámetro θ.
1
a) θ̂ “ X1
k
1
b) θ̂ “ pX1 ` ¨ ¨ ¨ ` Xn q.
kn
37. Distribución binomial. Sean X1 , . . . , Xm variables aleatorias indepen-
dientes tal que la k-ésima variable aleatoria tiene distribución binpnk , θq,
2.4 Insesgamiento 43
para k “ 1, . . . , m. Suponga que los parámetros n1 , . . . , nm son cono-
cidos y θ es desconocido. Determine si los siguientes estimadores son
insesgados para θ.
X1 ` ¨ ¨ ¨ ` Xm
a) θ̂ “ .
n1 ` ¨ ¨ ¨ ` nm
X1 ` 2X2 ` ¨ ¨ ¨ ` mXm
b) θ̂ “ .
n1 ` 2n2 ` ¨ ¨ ¨ ` m nm
38. Distribución geométrica. Sea X1 , . . . , Xn una muestra aleatoria de la
distribución geopθq, en donde θ es desconocido.
a) El estimador máximo verosı́mil para θ aparece abajo. Demuestre
que este estimador no es insesgado.
1
θ̂ “ .
1 ` X̄
b) Demuestre que el siguiente estimador es insesgado para θ. Su-
ponga n ě 2.
1
θ̂ “ n .
1 ` n´1 X̄
39. Distribución binomial negativa. Sea X1 , . . . , Xn una muestra aleatoria
de la distribución bin negpr, θq, en donde la probabilidad θ es desco-
nocida y r ě 1 es un entero conocido.
a) El estimador máximo verosı́mil para θ aparece abajo. Demuestre
que este estimador no es insesgado.
r
θ̂ “ .
r ` X̄
b) Demuestre que el siguiente estimador es insesgado para θ. Su-
ponga nr ě 2.
1
θ̂ “ n .
1 ` nr´1 X̄
40. Distribución exponencial. Sea X1 , . . . , Xn una muestra aleatoria de la
distribución exppθq, en donde θ es desconocido. Demuestre que el esti-
mador por máxima verosimilitud θ̂, que aparece abajo, no es insesgado.
44 2. Estimación puntual
Proponga un estimador insesgado.
1
θ̂ “ .
X̄
41. Distribución doble exponencial. Sea X1 , . . . , Xn una muestra aleatoria
de la distribución doble exponencial de parámetro desconocido θ ą 0.
θ ´θ|x|
f px; θq “ e , ´8 ă x ă 8.
2
Demuestre que el estimador por máxima verosimilitud θ̂, que aparece
abajo, no es insesgado. Proponga un estimador insesgado.
1
θ̂ “ 1 řn .
n i“1 |Xi |
42. Distribución normal. Sea X1 , . . . , X4 una muestra aleatoria de tamaño
n “ 4 de la distribución Npθ, σ 2 q, en donde la media θ es desconocida y
la varianza σ 2 es conocida. Se proponen los siguientes estimadores para
θ. Determine cual de ellos es el mejor en el sentido de ser insesgado y
tener varianza menor.
a) θ̂1 “ X1 . f ) θ̂6 “ X1 ` θ̂2 ´ X4 .
b) θ̂2 “ X1 ` X4 . 1
g) θ̂7 “ p3X1 ` 2X2 ` X3 q.
c) θ̂3 “ pX1 ` X4 q{2. 6
4
d ) θ̂4 “ pX1 ` X4 q{3. 1 ÿ
h) θ̂8 “ iXi .
e) θ̂5 “ X̄. 10 i“1
43. Distribución normal. Sea X1 , . . . , Xn una muestra aleatoria de la dis-
tribución Npθ, σ 2 q con θ y σ 2 desconocidos. Demuestre que la estadı́sti-
ca que se define a continuación es un estimador insesgado para el
parámetro θ.
2X1 ` 4X2 ` ¨ ¨ ¨ ` 2nXn
θ̂ “ .
npn ` 1q
2.4 Insesgamiento 45
44. Distribución Rayleigh. El estimador por máxima verosimilitud para el
parámetrořθ de la distribución Rayleigh, que se especifica abajo, es
θ̂ “ p1{nq ni“1 Xi2 . Demuestre que este estimador es insesgado.
& 2x e´x2 {θ si x ą 0,
$
f px; θq “ θ
% 0 en otro caso.
45. Sea X1 , . . . , Xn una muestra aleatoria de la distribución f px; θq que se
especifica abajo, en donde θ es un parámetro desconocido.
a) Demuestre que X̄ no es un estimador insesgado para θ.
b) Construya un estimador insesgado para θ.
#
e´px´θq si x ą θ,
f px; θq “
0 en otro caso.
46. Sea X1 , . . . , Xn una muestra aleatoria de la distribución que aparece
abajo, en donde θ ą 0 es un parámetro desconocido. Sea θ̂ el estimador
por máxima verosimilitud.
a) Demuestre que θ̂ no es un estimador insesgado para θ.
b) Proponga un estimador que sea insesgado.
#
pθ ` 1qxθ si 0 ă x ă 1,
f px; θq “
0 en otro caso.
47. Sea X1 , . . . , Xn una muestra aleatoria de la distribución que aparece
abajo, en donde θ es una constante arbitraria desconocida.
a) Demuestre que X̄ no es un estimador insesgado para θ.
b) A partir de X̄ construya un estimador que sea insesgado.
#
e´px´θq si x ą θ,
f pxq “
0 en otro caso.
46 2. Estimación puntual
48. Sea X1 , . . . , Xn una muestra aleatoria de la distribución f px; θq como
aparece especificada abajo, en donde ´1 ă θ ă 1 es un parámetro
desconocido.ř Demuestre que el estimador por el método de momentos
θ̂ “ p5{nq ni“1 Xi3 es insesgado.
& 1 ` θx si ´ 1 ă x ă 1,
$
f px; θq “ 2
0 en otro caso.
%
49. Sea X1 , . . . , Xn una muestra aleatoria de la distribución f px; θq como
aparece especificada abajo, en donde θ ą 0 es un parámetro descono-
cido. Demuestre que el estimador por el método de momentos θ̂ “ 3X̄
es insesgado.
$
& 2pθ ´ xq
si 0 ă x ă θ,
f px; θq “ θ2
0 en otro caso.
%
50. Sea X1 , . . . , Xn una muestra aleatoria de la distribución f px; θq que se
especifica abajo, en donde θ ą 0 es desconocido.
#
θxθ´1 si 0 ă x ă 1; θ ą 0,
f px; θq “
0 en otro caso.
a) Demuestre queřel estimador por el método de máxima verosimi-
litud θ̂ “ ´n{ ni“1 ln Xi no es insesgado.
b) Con base en el inciso anterior, encuentre un estimador insesgado
para θ.
51. Sea X1 , . . . , Xn una muestra aleatoria de una población con media
conocida µ y varianza desconocida θ. Demuestre que el siguiente esti-
mador es insesgado para θ.
n
1 ÿ
θ̂ “ pXi ´ µq2 .
n i“1
52. Combinación lineal convexa de estimadores insesgados. Sean θ̂1 y θ̂2
dos estimadores insesgados para un parámetro θ. Demuestre que, para
2.4 Insesgamiento 47
cualquier valor real de α, el siguiente estimador también es insesgado
para θ.
θ̂ “ α θ̂1 ` p1 ´ αq θ̂2 .
53. Sea X1 , . . . , Xn una muestra aleatoria de una población con distri-
bución Np0, θq, con θ ą 0 desconocido. Demuestre que el siguiente
estimador es insesgado para el parámetro θ.
n
1 ÿ 2
θ̂ “ X .
n i“1 i
54. Sea X1 , . . . , Xn una muestra aleatoria de una distribución dependiente
de un parámetro desconocido θ y cuya media es este mismo parámetro.
Considere la estadı́stica
T “ ϕ1 pX1 q ¨ ¨ ¨ ϕn pXn q,
en donde ϕ1 , . . . , ϕn son funciones lineales de coeficientes conocidos.
Demuestre que T es insesgado para la función parametral
τ pθq “ ϕ1 pθq ¨ ¨ ¨ ϕn pθq.
55. Función de un estimador insesgado no es necesariamente insesgado.
Sabemos que θ̂ “ X̄ es un estimador insesgado para el parámetro θ
de la distribución Bernoulli. Demuestre directamente que θ̂p1 ´ θ̂q no
es un estimador insesgado para la varianza de esta distribución pero
es, sin embargo, asintóticamente insesgado.
56. Sea X1 , . . . , Xn una muestra aleatoria de una distribución con función
de densidad o de probabilidad f px; θq, cuya media es el parámetro θ,
considerado desconocido. Sea E el espacio de todos los estimadores
lineales para θ, esto es,
E “ ta1 X1 ` ¨ ¨ ¨ ` an Xn : a1 , . . . , an P Ru.
Demuestre que X̄ es el único elemento de E que es insesgado y tiene
varianza mı́nima.
48 2. Estimación puntual
57. Sea X1 , . . . , Xn una muestra aleatoria de una distribución con fun-
ción de densidad o de probabilidad f px; θq dependiente de un paráme-
tro desconocido θ y tal que su media es este mismo parámetro. Sean
a1 , . . . , an constantes cualesquiera tales que a1 ` ¨ ¨ ¨` an ‰ 0. Demues-
tre que el siguiente estimador es insesgado para θ.
a 1 X1 ` a 2 X2 ` ¨ ¨ ¨ ` a n Xn
θ̂ “ .
a1 ` ¨ ¨ ¨ ` an
58. Proceso de Poisson. En el Ejercicio 33 se pide encontrar el estima-
dor máximo verosı́mil para el parámetro θ del proceso de Poisson.
Demuestre que este estimador, el cual aparece especificado abajo, es
insesgado.
Xt
θ̂ “ n .
tn
59. Movimiento Browniano. En el Ejercicio 34 se pide encontrar el estima-
dor máximo verosı́mil para el parámetro θ del movimiento Browniano.
Demuestre que este estimador, el cual aparece especificado abajo, es
insesgado.
n
1 ÿ pBti ´ Bti´1 q2
θ̂ “ .
n i“1 ti ´ ti´1
2.5. Insesgamiento asintótico
Si un estimador θ̂ para un parámetro desconocido θ no es insesgado, entonces
se dice que es sesgado y a la diferencia Epθ̂q ´ θ se le llama sesgo. Este sesgo
puede presentar la cualidad de hacerse cada vez más pequeño conforme el
tamaño de la muestra n crece. Si en el lı́mite cuando n Ñ 8 el sesgo
se hace cero, entonces al estimador se le llama asintóticamente insesgado.
Antes de escribir el enunciado formal de esta definición, debemos mencionar
que escribiremos θ̂n en lugar de θ̂ cuando deseemos enfatizar la posible
dependencia de un estimador del tamaño n de la muestra aleatoria. Aquı́
tenemos la definición.
2.5 Insesgamiento asintótico 49
Definición 2.11 Una estadı́stica θ̂n , basada en una muestra aleatoria
X1 , . . . , Xn , es un estimador asintóticamente insesgado para un paráme-
tro θ si
lı́m Epθ̂n q “ θ. (2.6)
nÑ8
Es claro que todo estimador insesgado es asintóticamente insesgado pues la
condición (2.6) se cumple sin necesidad de tomar el lı́mite. Por otro lado,
más adelante tendremos múltiples oportunidades de mostrar que existen
estimadores asintóticamente insesgados que no son insesgados. Estas dos
relaciones generales se muestra gráficamente en la Figura 2.7.
Estimadores
asintóticamente insesgados
Estimadores
insesgados
Figura 2.7
A continuación se presenta un ejemplo de insesgamiento asintótico.
Ejemplo 2.23 Consideremos nuevamente el caso de la distribución N pµ, θq,
en donde la varianza θ ą 0 desconocida. Defina el estimador
n
1 ÿ
θ̂n “ pX1 ´ X̄q2 .
n i“1
Puede comprobarse que θ̂n no es insesgado para θ pero es asintóticamente
50 2. Estimación puntual
insesgado, pues
n´1 2 n´1 n´1
Epθ̂n q “ Ep S q“ EpS 2 q “ θ ÝÝÝÑ θ.
n n n nÑ8
De esta manera, aunque θ̂n no cumple la propiedad de ser insesgado, su
valor promedio no dista demasiado del valor de θ cuando el tamaño n de la
muestra es grande. ‚
Funciones de estimadores asintóticamente insesgados
Sea θ̂n un estimador asintóticamente insesgado para un parámetro θ, cons-
truido a partir de una muestra aleatoria de tamaño n, y sea ϕ una función
dada, con dominio de definición adecuado. La pregunta que nos planteamos
es la siguiente:
¿Se preserva el insesgamiento asintótico bajo transformaciones?
Es decir, nos preguntamos si ϕpθ̂n q también es un estimador asintóticamen-
te insesgado para ϕpθq. La respuesta es, en general, negativa. Resulta que
la propiedad de insesgamiento asintótico no se preserva bajo transforma-
ciones y no es muy difı́cil dar un ejemplo de esta situación. Considere la
función ϕpxq “ x2 aplicada al estimador insesgado θ̂n “ pX1 ` Xn q{2 para
el parámetro θ de la distribución Poisson. Siendo θ̂n insesgado, es asintóti-
camente insesgado. Sin embargo, Epθn2 q no converge a θ2 pues se puede
comprobar que
Epθ̂n2 q “ θ2 ` θ{2.
Surge entonces la siguiente pregunta.
¿Bajo qué condiciones sobre una transformación
se preserva el insesgamiento asintótico?
Supongamos que ϕ es una función continua tal que la sucesión de variables
aleatorias ϕpθ̂n q satisface las condiciones del teorema de convergencia do-
minada o el teorema de convergencia monótona. Estos teoremas permiten
2.5 Insesgamiento asintótico 51
intercambiar el lı́mite con la esperanza. Si tales condiciones se cumplen,
entonces el estimador ϕpθ̂n q es asintóticamente insesgado para ϕpθq pues
lı́m Epϕpθ̂n qq “ Ep lı́m ϕpθ̂n qq
nÑ8 nÑ8
“ Epϕp lı́m θ̂n qq
nÑ8
“ Epϕpθqq
“ ϕpθq.
Ejercicios
60. Distribución Bernoulli. Sea X1 , . . . , Xn una muestra aleatoria de una
distribución Berpθq, con θ desconocido. Demuestre que el estimador
X̄p1 ´ X̄q es asintóticamente insesgado para la varianza de esta dis-
tribución.
61. Distribución Poisson. Sea X1 , . . . , Xn una muestra aleatoria de una
distribución Poissonpθq, en donde θ ą 0 es desconocido. Demuestre
que X̄ 2 es asintóticamente insesgado para θ2 .
62. Distribución uniforme. Sea X1 , . . . , Xn una muestra aleatoria de una
distribución unifp0, θq, en donde θ ą 0 es desconocido.
a) Demuestre que el estimador θ̂ “ máxtX1 , . . . , Xn u no es insesga-
do para θ, sin embargo, es asintóticamente insesgado.
b) Encuentre un estimador insesgado para θ.
63. Distribución exponencial. Sea X1 , . . . , Xn una muestra aleatoria de
una distribución exppθq, con θ desconocido. Demuestre que el estima-
dor por máxima verosimilitud que aparece abajo es asintóticamente
insesgado.
1
θ̂n “ .
X̄
64. Sea X1 , . . . , Xn una muestra aleatoria de una distribución dependiente
de un parámetro desconocido θ, cuya media es este mismo parámetro
y con segundo momento finito. Demuestre que la estadı́stica X̄ 2 es un
estimador asintóticamente insesgado para θ2 .
52 2. Estimación puntual
65. Máxima verosimilitud no implica insesgamiento. Sabemos que el esti-
mador máximo verosı́mil para el parámetro θ de la distribución expo-
nencial es θ̂ “ 1{X̄. Demuestre que θ̂ no es insesgado pero es asintóti-
camente insesgado.
66. Sea X1 , . . . , Xn una muestra aleatoria de una distribución con función
de densidad o de probabilidad f px; θq como aparece abajo, en donde
θ es un parámetro desconocido y con valores reales. Demuestre que el
estimador por máxima verosimilitud θ̂ “ Xp1q no es insesgado pero es
asintóticamente insesgado para θ.
#
e´px´θq si x ě θ,
f px; θq “
0 en otro caso.
67. Sea X1 , . . . , Xn una muestra aleatoria de la distribución f px; θq que
se especifica abajo, en donde θ ą 0 es desconocido. Sabemos ř que el
estimador por el método de máxima verosimilitud θ̂n “ ´n{ ni“1 ln Xi
no es insesgado (Ejercicio 50). Demuestre que θ̂n es asintóticamente
insesgado. #
θxθ´1 si 0 ă x ă 1,
f px; θq “
0 en otro caso.
2.6. Consistencia
Otra manera de medir la bondad de un estimador es a través de la consisten-
cia. Esta propiedad establece la convergencia en probabilidad del estimador
al parámetro a estimar cuando el tamaño de la muestra crece a infinito.
Definición 2.12 Sea θ̂n un estimador para θ, basado en una muestra
aleatoria de tamaño n. Se dice que θ̂n es consistente para θ si θ̂n Ñ θ en
probabilidad, cuando n Ñ 8. Esto es, para cualquier ǫ ą 0,
lı́m P p |θ̂n ´ θ| ą ǫ q “ 0.
nÑ8
2.6 Consistencia 53
De esta manera, la cercanı́a del estimador al parámetro se define en el sentido
p
de la convergencia en probabilidad y se usa la notación θ̂n Ñ θ. Observe
nuevamente que hemos añadido el tamaño de la muestra n como subı́ndice
en el estimador para enfatizar su dependencia implı́cita o explı́cita de esta
cantidad. Veamos un ejemplo de consistencia.
Ejemplo 2.24 Sea X una variable aleatoria con función de densidad o de
probabilidad f px; θq, dependiente de un parámetro desconocido θ, el cual se
desea estimar a través de una muestra aleatoria X1 , . . . , Xn . Supongamos
que EpXq “ θ. Tal situación se presenta, por ejemplo, en la distribución
Bernoulli, la distribución Poisson, o la distribución normal, suponiendo la
varianza conocida. Entonces, por la ley débil de los grandes números, el
p
estimador θ̂ “ X̄ es consistente para θ pues X̄ Ñ EpXq “ θ. ‚
En general, puede ser una tarea complicada demostrar la convergencia en
probabilidad de una sucesión cualquiera de variables aleatorias. Sin embar-
go, cuando el lı́mite es una constante (en este caso, el parámetro a estimar),
tenemos el siguiente criterio para demostrar la consistencia de un estimador.
Proposición 2.1 Sea θ̂n un estimador para θ, basado en una muestra
aleatoria de tamaño n. Si Epθ̂n q Ñ θ y Varpθ̂n q Ñ 0 cuando n Ñ 8,
entonces θ̂n es consistente.
Demostración. Se usa la siguiente versión de la desigualdad de Chebys-
hev: para cualquier ǫ ą 0 y cualquier número real a,
1
P p|X ´ a| ą ǫq ď 2 EpX ´ aq2 .
ǫ
Entonces
1
P p|θ̂n ´ θ| ą ǫq ď Epθ̂n ´ θq2
ǫ2
1
“ Eppθ̂n ´ Epθ̂n qq ` pEpθ̂n q ´ θqq2
ǫ2
1
“ r Varpθ̂n q ` pEpθ̂n q ´ θq2 s
ǫ2
Ñ 0.
54 2. Estimación puntual
Es decir, si un estimador es asintóticamente insesgado y su varianza tiende
a cero, entonces es consistente. En particular, cuando se desee probar la pro-
piedad de consistencia para un estimador insesgado, es suficiente verificar
que la varianza del estimador converge a cero.
Ejemplo 2.25 —– ‚
Por otro lado, es útil recordar que cuando el lı́mite de una sucesión de
variables aleatorias es una constante, la convergencia en probabilidad es
equivalente a la convergencia en distribución. Por lo tanto, tenemos que el
estimador θ̂n es consistente si θ̂n converge en distribución a la constante θ.
d
Esto se escribe θ̂n Ñ θ y constituye un criterio alternativo para demostrar
la consistencia de un estimador.
Proposición 2.2 El estimador θ̂n es consistente para el parámetro θ si
para cualquier x ‰ θ,
#
1 si x ą θ,
lı́m P pθ̂n ď xq “
nÑ8 0 si x ă θ.
Ejemplo 2.26 —– ‚
Es difı́cil no preguntarse si existe alguna relación entre el insesgamiento y
la consistencia de un estimador. ¿Podrı́a una propiedad implicar la otra?
La respuesta es negativa. En el diagrama de la Figura 2.8 se muestra gráfi-
camente que pueden presentarse todas las posibilidades de relación entre
estos dos conceptos. En este diagrama se pueden identificar 5 regiones dis-
juntas y en la tabla de la Figura 2.9 se dan casos particulares de estimadores
que pertenecen a cada una de estas regiones en el caso de estimación del
parámetro θ de la distribución Bernoulli.
2.6 Consistencia 55
Estimadores
asintóticamente
insesgados
Estimadores
consistentes
Estimadores
insesgados
Figura 2.8
El último caso mostrado en la tabla de la Figura 2.9 se desarrolla en el
siguiente ejemplo. En la sección de ejercicios se muestran algunos otros
ejemplos de algunas de las situaciones de la Figura 2.9.
Ejemplo 2.27 (Consistencia ùñ { Insesgamiento ni insesgamiento
asintótico) Sea X1 , . . . , Xn una muestra aleatoria de la distribución Berpθq,
con θ desconocido. Sea Z otra variable aleatoria con distribución Bernoulli,
independiente de las primeras, y tal que
P pZ “ 0q “ pn ´ 1q{n,
P pZ “ 1q “ 1{n.
Ahora se define el estimador
#
X̄ si Z “ 0,
θ̂n “
n si Z “ 1.
Se comprueba que θ̂n no es insesgado, ni asintóticamente insesgado, pues
Epθ̂n q “ Epθ̂n | Z “ 0q P pZ “ 0q ` Epθ̂n | Z “ 1q P pZ “ 1q
n´1
“ θ `1
n
Ñ θ ` 1 cuando n Ñ 8.
56 2. Estimación puntual
Distribución Estimador Insesgado Asint. insesgado Consistente
Berpθq X̄ X X X
n
Berpθq n´1 X̄ ✗ X X
Berpθq X1 X X ✗
n
Berpθq n´1 X1 ✗ X ✗
Berpθq Ejemplo 2.27 ✗ ✗ X
Figura 2.9
Sin embargo, θ̂n es consistente pues para cualquier ǫ ą 0,
P p|θ̂n ´ θ| ą ǫq “ P p|θ̂n ´ θ| ą ǫ | Z “ 0q P pZ “ 0q
`P p|θ̂n ´ θ| ą ǫ | Z “ 1q P pZ “ 1q
n´1 1
“ P p|X̄ ´ θ| ą ǫq ` P p|n ´ θ| ą ǫq
n n
Ñ 0 cuando n Ñ 8.
‚
Para concluir esta sección y a manera de resumen de las definiciones de
insesgamiento, insesgamiento asintótico y consistencia, tenemos la siguiente
tabla.
Condición Propiedad
Epθ̂n q “ θ Insesgamiento
Epθ̂n q Ñ θ Insesgamiento asintótico
p
θn Ñ θ Consistencia
Ejercicios
68. Convergencia en distribución. Demuestre que un estimador θ̂n es con-
2.6 Consistencia 57
sistente para el parámetro θ si, y sólo si, θ̂n converge en distribución
a la constante θ.
69. Propiedades de la convergencia en probabilidad a una constante. Sea
θ̂n un estimador consistente para θ. Demuestre que
a) aθ̂n ` b es consistente para aθ ` b.
b) θ̂n2 es consistente para θ2 .
c) |θ̂n | es consistente para |θ|.
d ) eθn es consistente para eθ .
e) 1{θ̂n es consistente para 1{θ, suponiendo θ̂n ‰ 0, θ ‰ 0.
En el siguiente ejercicio se generalizan estos resultados.
70. Funciones continuas de estimadores consistentes. Sea θ̂n un estimador
consistente para θ y sea ϕ una función continua con dominio adecuado.
Demuestre que ϕpθ̂n q es consistente para la función parametral ϕpθq.
71. Distribución Bernoulli. Sea X1 , . . . , Xn una muestra aleatoria de la
distribución Berpθq, con θ desconocido. Demuestre que X̄ es un esti-
mador consistente para θ.
72. Distribución uniforme. Sea X1 , . . . , Xn una muestra aleatoria de la
distribución unifp0, θq, con parámetro θ ą 0 desconocido. Demuestre
que máxtX1 , . . . , Xn u es un estimador consistente para θ.
73. Distribución exponencial. Demuestre directamente que el estimador
máximo verosı́mil θ̂ “ 1{X̄ para el parámetro desconocido θ de la
distribución exponencial es consistente.
74. Distribución normal. Sea X1 , . . . , Xn una muestra aleatoria de la dis-
tribución Npµ, σ 2 q, en donde tanto µ como σ 2 son desconocidos. De-
muestre que el estimador σ̂ 2 que aparece abajo no es insesgado pero
es consistente para σ 2 .
n
1 ÿ
σ̂ 2 “ pXi ´ X̄q2 .
n i“1
58 2. Estimación puntual
75. Sean X1 , . . . , Xn variables aleatorias independientes tal que la i-ési-
ma variable tiene distribución binpki , θq. Suponga que los parámetros
k1 , . . . , kn son conocidos, pero θ es desconocido. Es inmediato compro-
bar que los siguientes estimadores son insesgados para θ. Demuestre
ahora que son consistentes.
X1 ` ¨ ¨ ¨ ` Xn
a) θ̂n “ .
k1 ` ¨ ¨ ¨ ` kn
X1 ` 2X2 ` ¨ ¨ ¨ ` nXn
b) θ̂n “ .
k1 ` 2k2 ` ¨ ¨ ¨ ` n kn
76. Consistencia ùñ { Insesgamiento. Sea X1 , . . . , Xn una muestra aleato-
ria de la distribución exppθq, con θ desconocido. Sabemos que el esti-
mador θ̂ que aparece abajo no es insesgado para θ. Demuestre que θ̂
es consistente. Este es un ejemplo de un estimador que es consistente
pero no es insesgado.
1
θ̂ “ .
X̄
77. Sea X1 , . . . , Xn una muestra aleatoria de la distribución que aparece
abajo, en donde θ ą ´1 es un parámetro desconocido. Demuestre que
el estimador por máxima verosimilitud θ̂n “ ´1 ´ n{ ni“1 ln Xi es
ř
consistente.
#
pθ ` 1qxθ si 0 ă x ă 1,
f px; θq “
0 en otro caso.
78. Sea X1 , . . . , Xn una muestra aleatoria de la distribución f px; θq como
aparece especificada abajo, en donde θ ą 0 es un parámetro desconoci-
do. Demuestre que el estimador por el método de momentos θ̂n “ 3X̄
es consistente.
$
& 2pθ ´ xq
si 0 ă x ă θ,
f px; θq “ θ2
0 en otro caso.
%
79. Sea X1 , . . . , Xn una muestra aleatoria de la distribución Npµ, σ 2 q con
µ y σ 2 desconocidos. Defina la estadı́stica
2X1 ` 4X2 ` ¨ ¨ ¨ ` 2nXn
T “ .
npn ` 1q
2.7 Sesgo y error cuadrático medio 59
Determine si
a) T insesgado para µ.
b) T consistente para µ.
c) máxt0, T u es consistente para µ.
80. Distribución normal. Demuestre que la varianza muestral S 2 es un
estimador consistente para la varianza desconocida σ 2 de una distri-
bución normal.
81. Sea X1 , . . . , Xn una muestra aleatoria de una distribución con función
de densidad o de probabilidad f px; θq como aparece abajo, en don-
de θ es un parámetro desconocido. Demuestre que θ̂n “ Xp1q es un
estimador consistente para θ.
#
e´px´θq si x ą θ,
f px; θq “
0 en otro caso.
82. Sea X1 , . . . , Xn una muestra aleatoria de la distribución f px; θq co-
mo se especifica abajo, en donde ´1 ă θ ă 1 es un parámetro des-
conocido. Demuestre que el estimador por el método de momentos
θ̂n “ p5{nq ni“1 Xi3 es consistente.
ř
& 1 ` θx si ´ 1 ă x ă 1,
$
f px; θq “ 2
0 en otro caso.
%
2.7. Sesgo y error cuadrático medio
En el siguiente enunciado formalizamos la definición de sesgo de un estima-
dor que habı́amos mencionado en una sección anterior.
Definición 2.13 Sea θ̂ un estimador para un parámetro θ. El sesgo de
θ̂ es la diferencia
Bpθ̂q “ Epθ̂q ´ θ.
60 2. Estimación puntual
Observemos que el sesgo es una cantidad que depende del valor de θ. La
letra B proviene del término en inglés bias, que se traduce como sesgo o
desviación. Es claro que cuando el estimador es insesgado el sesgo es cero.
Además, el estimador es asintóticamente insesgado si el sesgo tiende a cero
cuando el tamaño de la muestra tiende a infinito.
Ejemplo 2.28 Para la distribución exppθq, con θ desconocido, se puede
comprobar que el estimador θ̂ “ 1{X̄ no es insesgado pues Epθ̂q “ nθ{pn´1q.
El sesgo en este caso es
1
Bpθ̂q “ Epθ̂q ´ θ “ θ.
n´1
El sesgo es sólo una de varias maneras en las que se puede medir algún tipo
de distancia entre el estimador y el parámetro a estimar. Otra de ellas es el
error cuadrático medio que se define a continuación.
Definición 2.14 Sea θ̂ un estimador para un parámetro θ. El error
cuadrático medio de θ̂ es
ECMpθ̂q “ E pθ̂ ´ θq2 .
De esta manera, el error cuadrático medio es la distancia cuadrática pro-
medio entre el estimador y el parámetro a estimar. Es claro que cuando el
estimador es insesgado, el error cuadrático medio es la varianza del estima-
dor, es decir, ECM pθ̂q “ Varpθ̂q. El sesgo y el error cuadrático medio están
relacionados mediante las siguientes fórmulas.
2.7 Sesgo y error cuadrático medio 61
Proposición 2.3 Sea θ̂ un estimador para una parámetro desconocido
θ. Entonces
1. ECMpθ̂q “ Varpθ̂q ` B 2 pθ̂q.
2. B 2 pθ̂q ď ECMpθ̂q.
Demostración. Para el primer resultado tenemos que el análisis que apa-
rece abajo. El segundo resultado es una consecuencia inmediata del primero.
ECMpθ̂q “ Epθ̂ ´ θq2
“ Erpθ̂ ´ Epθ̂qq ` pEpθ̂q ´ θqs2
“ Epθ̂ ´ Epθ̂q2 ` 2Epθ̂ ´ Epθ̂qqpEpθ̂q ` θq ` pEpθ̂q ´ θq2
“ Epθ̂ ´ Epθ̂q2 ` pEpθ̂q ´ θq2
“ Varpθ̂q ` B 2 pθ̂q.
Ejemplo 2.29 Considere la distribución exppθq, con θ desconocido. Se pue-
de comprobar que para el estimador θ̂ “ 1{X̄ se cumplen las fórmulas que
aparecen abajo y se verifican las relaciones generales de la proposición an-
terior.
1
Bpθ̂q “ θ,
n´1
n2
Varpθ̂q “ θ2 ,
pn ´ 1qpn ´ 2q
n`2
ECMpθ̂q “ θ2 .
pn ´ 1qpn ´ 2q
‚
62 2. Estimación puntual
Ejercicios
83. Use la desigualdad de Jensen para demostrar, nuevamente, que
B 2 pθ̂q ď ECMpθ̂q.
84. Demuestre las tres afirmaciones del Ejemplo —
85. Criterio para la consistencia. Sea θ̂n un estimador para un parámetro
desconocido θ, basado en una muestra aleatoria de tamaño n. Demues-
tre que si ECMpθ̂n q Ñ 0 cuando n Ñ 8, entonces θ̂n es consistente. En
particular, cuando θ̂n es insesgado, ECMpθ̂n q “ Varpθ̂n q y la hipótesis
se expresa como Varpθ̂n q Ñ 0.
86. Insesgamiento no implica ECM menor. Sea X1 , . . . , Xn una muestra
aleatoria de la distribución N pµ, θq, en donde la varianza θ ą 0 es des-
conocida. Suponga n ě 2. Se proponen los siguientes dos estimadores
para θ.
n
1 ÿ
θ̂1 “ pXi ´ X̄q2 ,
n ´ 1 i“1
n
1 ÿ
θ̂2 “ pXi ´ X̄q2 .
n ` 1 i“1
En el Ejemplo 2.22 se demostró que θ̂1 es insesgado para θ y puede
comprobarse que θ̂2 es sesgado. Demuestre, sin embargo, que
ECMpθ̂2 q ă ECMpθ̂1 q.
87. Distribución Bernoulli. Sea X1 , . . . , Xn una muestra aleatoria de la
distribución Berpθq, con θ desconocido. Encuentre la esperanza, va-
rianza, sesgo y el ECM del estimador θ̂ “ X̄.
88. Distribución Poisson. Sea X1 , . . . , Xn una muestra aleatoria de la dis-
tribución Poissonpθq, con θ desconocido. Encuentre la esperanza, va-
rianza, sesgo y el ECM del estimador θ̂ “ X̄.
2.8 Cota inferior de Cramér-Rao 63
2.8. Cota inferior de Cramér-Rao
Consideremos que una cierta variable aleatoria es de nuestro interés y que
ésta tiene función de densidad o de probabilidad f px; θq, cuya forma es
conocida pero depende de un parámetro desconocido θ, el cual deseamos
estimar con base en una muestra aleatoria X1 , . . . , Xn de esta distribución.
En secciones anteriores hemos estudiado algunos métodos para encontrar
posibles estimadores para el parámetro θ y hemos también establecido el
insesgamiento como un primer criterio para determinar la bondad de un
estimador. Un segundo criterio consiste en escoger, dentro de los posibles
estimadores insesgados, aquellos que tengan varianza menor. Tales estima-
dores estarán centrados en el valor θ y variarán lo menos posibe alrededor
de esa cantidad. Ası́, nos interesa buscar estimadores insesgados que tengan
la varianza más pequeña posible.
El resultado interesante que estudiaremos a continuación establece que no
es posible hacer que la varianza de un estimador insesgado sea tan pequeña
como se desee. En otras palabras, bajo ciertas condiciones, existe una cota
inferior para la varianza de cualquier estimador insesgado. Demostraremos
este resultado para el problema general de estimar cualquier función para-
metral τ pθq.
Teorema 2.2 (Cota inferior de Cramér-Rao3 ) Sea X1 , . . . , Xn una
muestra aleatoria de una distribución con función de probabilidad o de
distribución f px; θq, dependiente de un parámetro desconocido θ. Sea T
un estimador insesgado para una función parametral τ pθq. Bajo ciertas
condiciones generales que especificaremos más adelante se cumple que
pτ 1 pθqq2
VarpT q ě . (2.7)
B 2
nE rp ln f pX; θqq s
Bθ
3
Harald Cramér (1893-1985), matemático y estadı́stico sueco.
3
Calyampudi Radhakrishna Rao (1920-), matemático y estadı́stico hindú.
64 2. Estimación puntual
Demostración. En los siguientes cálculos llevaremos a cabo algunas
operaciones cuya validez supondremos implı́citamente. Haremos el análisis
suponiendo, además, el caso de variables aleatorias
ş continuas. El caso dis-
creto se analiza de manera semejante. Como R f px; θq dx “ 1, derivando
respecto de θ y suponiendo válido el intercambio de la derivada y la integral
se tiene que
ż
d
0 “ f px; θq dx
dθ
ż R
B
“ f px; θq dx
Bθ
żR
B ln f px;θq
“ e dx
Bθ
żR
B
“ f px; θq ln f px; θq dx
R Bθ
B
“ Er ln f pX; θq s. (2.8)
Bθ
De esta manera hemos comprobado que la variable aleatoria pB{Bθq ln f pX; θq
tiene esperanza nula. Suponiendo ahora la diferenciablidad de la función pa-
rametral,
d
τ 1 pθq “ EpT q
dθ ż
d
“ T px1 , . . . , xn q f px1 , . . . , xn ; θq dx1 ¨ ¨ ¨ dxn
dθ Rn
B
ż
“ T px1 , . . . , xn q f px1 , . . . , xn ; θq dx1 ¨ ¨ ¨ dxn (2.9)
R n Bθ
B ln f px1 ,...,xn ;θq
ż
“ T px1 , . . . , xn q e dx1 ¨ ¨ ¨ dxn
R n Bθ
n
B
ż ÿ
“ T px1 , . . . , xn q r ln f pxi ; θqs f px1 , . . . , xn ; θq dx1 ¨ ¨ ¨ dxn
R n
i“1
Bθ
n
ÿ B
“ Ep T ¨ ln f pXi ; θq q
i“1
Bθ
n
ÿ B
“ CovpT, ln f pXi ; θqq.
i“1
Bθ
2.8 Cota inferior de Cramér-Rao 65
La última igualdad se obtiene recordando que CovpX, Y q “ EpXY q ´
EpXqEpY q y a usando laa
identidad (2.8). Ahora utilizaremos la desigualdad
CovpX, Y q ď VarpXq VarpY q. Tenemos que
n
1 2
ÿ B
pτ pθqq ď VarpT pX1 . . . , Xn qq ¨ Varp ln f pXi ; θqq
i“1
Bθ
n
ÿ B
“ VarpT q ¨ Varp ln f pXi ; θqq
i“1
Bθ
B
“ VarpT q ¨ n ¨ Varp ln f pX; θqq
Bθ
B
“ VarpT q ¨ n ¨ Er p ln f pX; θqq2 s.
Bθ
‚
Vamos a hacer ahora algunos comentarios sobre el resultado recién demos-
trado. En el enunciado de la cota inferior de Cramér-Rao y en su demostra-
ción hemos usado la letra X para indicar a cualquier elemento de la muestra
aleatoria X1 , . . . , Xn . Esto es conveniente notacionalmente pues de esa ma-
nera no se hace uso de subı́ndices, e implı́citamente se utiliza la hipótesis
de idéntica distribución de las variables de la muestra aleatoria. Por otro
lado, es importante observar que el término f pX; θq corresponde a la fun-
ción de densidad o de probabilidad f px; θq evaluada en la variable aleatoria
X. Supondremos que tal operación, junto con las que aparecen en la expre-
sión (2.7), produce nuevamente una variable aleatoria y que además ésta
tiene esperanza es finita.
Definición 2.15 Al lado derecho de la expresión (2.7) le llamaremos
la cota inferior de Cramér-Rao (CICR) para la varianza de cualquier
estimador insesgado para τ pθq y se le denota por CICRpθq.
En general, la CICR es una función del parámetro θ y por ello se le es-
cribe como CICRpθq, aunque en esta notación no se hace referencia a la
función parametral τ pθq. Asi es que debemos tener cuidado en que al escri-
66 2. Estimación puntual
bir CICRpθq no haya duda de la función parametral τ pθq a la que se hace
referencia. En particular, si esta función parametral a estimar es el mismo
parámetro θ, la cota inferior se escribe
1
CICRpθq “ . (2.10)
B
nE rp ln f pX; θqq2 s
Bθ
Cuando no se hace referencia a ninguna función parametral τ pθq, se supone
implı́citamente que la CICRpθq corresponde a la cota inferior para la va-
rianza de cualquier estimador insesgado para θ como aparece en (2.10).
Es interesante observar que el denominador de (2.7) no depende de la función
parametral, de modo que conociendo la CICR para la varianza de cualquier
estimador insesgado para θ, es casi inmediato encontrar la CICR para la
varianza de cualquier estimador insesgado de la función parametral τ pθq,
simplemente se multiplica por pτ 1 pθqq2 .
De esta manera, la varianza de cualquier estimador insesgado para una
función parametral τ pθq tiene como valor mı́nimo la función CICRpθq. Por
lo tanto, en caso de existir un estimador insesgado con varianza CICRpθq,
sabemos que tal estimador es el mejor en términos de ser insesgado y tener
varianza mı́nima. Más adelante retomaremos el problema de determinar la
existencia y unicidad de un estimador con estas caracterı́sticas. Antes de
especificar las condiciones técnicas bajo las cuales se cumple la cota inferior
de Cramér-Rao, veamos algunos ejemplos del cálculo de esta cota inferior.
Ejemplo 2.30 Sea X una variable aleatoria con distribución Berpθq, con θ
desconocido.
#
θx p1 ´ θq1´x si x “ 0, 1,
f px; θq “
0 en otro caso.
Sea θ̂ cualquier estimador insesgado para el parámetro θ, definido a través
de una muestra aleatoria de esta distribución. Encontraremos la cota inferior
de Cramér-Rao para la varianza de θ̂. La función parametral es τ pθq “ θ
y por lo tanto τ 1 pθq “ 1. Evaluando la función de probabilidad f px; θq en
2.8 Cota inferior de Cramér-Rao 67
la variable aleatoria X y haciendo las operaciones indicadas, es inmediato
comprobar que
B X 1´X
ln f pX; θq “ ´ .
Bθ θ 1´θ
Observe que esta es una variable aleatoria y que tiene esperanza cero, como
hemos demostrado antes de manera general. Su segundo momento es
ˆ ˙2
B X 1´X
Er p ln f pX; θqq2 s “ E ´
Bθ θ 1´θ
1
“ .
θp1 ´ θq
Substituyendo esta expresión en la fórmula (2.7) se obtiene que la cota
inferior de Cramér-Rao es
θp1 ´ θq
CICRpθq “ , 0 ă θ ă 1.
n
En consecuencia, todo estimador insesgado para θ y construido a partir
de una muestra aleatoria de tamaño n de la distribución Bernoulli tiene
varianza por lo menos esta cantidad. Vista como función de θ, la gráfica de
la cota inferior de Cramér-Rao se muestra en la Figura 2.10. La varianza de
cualquier estimador insesgado debe ser un valor dentro del área sombreada,
es decir, por arriba de la cota inferior indicada mediante una lı́nea continua.
θp1 ´ θq{n
CICRpθq
θ
1
Figura 2.10
68 2. Estimación puntual
Por ejemplo, consideremos el estimador θ̂ “ X1 . Claramente este estimador
es insesgado y su varianza es θp1 ´ θq. Se verifica entonces la desigualdad
θp1 ´ θq
CICRpθq “ ď θp1 ´ θq “ Varpθ̂q.
n
Podemos considerar también el estimador insesgado θ̂ “ X̄. Claramente su
varianza es θp1 ´ θq{n y observamos que coincide con la CICR. Se verifica
entonces la desigualdad CICRpθq ď Varpθ̂q como igualdad. ‚
Ejemplo 2.31 Sea X una variable aleatoria con distribución exppθq con θ
desconocido. #
θ e´θx si x ą 0,
f px; θq “
0 en otro caso.
Sea θ̂ cualquier estimador insesgado para el parámetro θ, definido a través
de una muestra aleatoria de esta distribución. Encontraremos la cota inferior
de Cramér-Rao para la varianza de θ̂. La función parametral es τ pθq “ θ
y por lo tanto τ 1 pθq “ 1. Evaluando la función de probabilidad f px; θq en
la variable aleatoria X y haciendo las operaciones indicadas, es inmediato
comprobar que
B 1
ln f pX; θq “ ´ X.
Bθ θ
Nuevamente esta es una variable aleatoria que tiene esperanza cero, como
hemos demostrado antes de manera general. Por lo tanto,
B 1
Er p ln f pX; θqq2 s “ E p1{θ ´ Xq2 “ VarpXq “ 2 .
Bθ θ
Substituyendo esta expresión en la fórmula (2.7) se obtiene que la cota
inferior de Cramér-Rao es
θ2
CICRpθq “ , θ ą 0.
n
En consecuencia, todo estimador insesgado para θ y construido a partir
de una muestra aleatoria de tamaño n en la distribución exponencial tiene
varianza por lo menos esta cantidad. Vista como función de θ ą 0, la gráfica
de la cota inferior de Cramér-Rao se muestra en la Figura 2.11.
2.8 Cota inferior de Cramér-Rao 69
θ2 {n
CICRpθq
Figura 2.11
Para cada θ ą 0, la varianza de cualquier estimador insesgado debe ser
un valor en la lı́nea vertical que pasa por θ dentro del área sombreada.
Veamos un ejemplo. Recordemos que el estimador máximo verosı́mil para
el parámetro θ de la distribución exponencial es 1{X̄ y recordemos que este
estimador no es insesgado pues
n
Ep1{X̄q “ θ.
n´1
De aquı́ puede proponerse el estimador insesgado
n´1 1
θ̂ “ ,
n X̄
cuya varianza es
pn ´ 1q2
ˆ ˙
1
Varpθ̂q “ 2
Var
n X̄
« ˆ ˙ ˆ ˙ff
pn ´ 1q2 1 2 1
“ 2
E ´ E2
n X̄ X̄
2 2 n2
„
pn ´ 1q n 2 2
“ θ ´ θ (2.11)
n2 pn ´ 1qpn ´ 2q pn ´ 1q2
1
“ θ2 .
n´2
70 2. Estimación puntual
Las expresiones que aparecen en (2.11) se pueden obtener con facilidad usan-
do la distribución gamma. De esta manera, se comprueba que la varianza del
estimador insesgado θ̂ es, efectivamente, mayor o igual que la cota inferior
de Cramér-Rao, es decir, para n ě 3,
1 2 1
CICRpθq “ θ ď θ2 “ Varpθ̂q.
n n´2
‚
Teniendo ahora una mayor familiaridad con la cota inferior de Cramér-Rao,
vamos a establecer las hipótesis bajo las cuales dicho resultado es válido.
Condiciones de regularidad
Las siguientes hipótesis son necesarias para la validez de la cota inferior de
Cramér-Rao. Se conocen con el nombre de condiciones de regularidad.
1. El soporte de f px; θq dado por el conjunto tx : f px; θq ą 0u no depende
de θ.
2. Para todo x en el soporte de f px; θq, la siguiente derivada existe
B
ln f px; θq.
Bθ
3. Es válido el siguiente intercambio de derivada e integral.
B
ż ż
d
0“ f px; θq dx “ f px; θq dx.
dθ R R Bθ
B
4. 0 ă E r p ln f pX; θqq2 s ă 8.
Bθ
5. Es válido el intercambio de derivada e integral que aparece abajo.
Esto se usa en la identidad (2.9) de la demostración. Por simplicidad,
hacemos uso de la notación xn “ px1 , . . . , xn q.
B
ż ż
d n n n
T px q f px ; θq dx “ T pxn q f pxn ; θq dxn .
dθ Rn Rn Bθ
2.8 Cota inferior de Cramér-Rao 71
En la tabla de la Figura 2.12 se muestran las expresiones de la cota inferior
de Cramér-Rao para algunas distribuciones. El parámetro a estimar se de-
nomina por la letra θ, suponiendo que cualquier otro posible parámetro que
aparezca en la distribución es conocido. Como siempre, se reserva la letra
n para el tamaño de la muestra. Se ha dejado comprobar estas expresiones
en la sección de ejercicios.
Distribución Parámetro CICRpθq
θp1 ´ θq
Berpθq 0ăθă1
n
θp1 ´ θq
binpk, θq 0ăθă1
nk
2
θ p1 ´ θq
geopθq 0ăθă1
n
2
θ p1 ´ θq
bin negpr, θq 0ăθă1
nr
θ
Poissonpθq θą0
n
θ2
exppθq θą0
n
2θ2
Npµ, θq θą0
n
Figura 2.12
Para concluir esta sección, planteamos una pregunta que resulta natural
después de lo estudiado en esta sección.
Dada una distribución f px; θq, ¿existe siempre
un estimador insesgado para θ que alcance la CICR?
72 2. Estimación puntual
Ejercicios
89. Distribución binomial. Sea X1 , . . . , Xn una muestra aleatoria de la
distribución binpk, θq, con 0 ă θ ă 1 desconocido. Suponga que k ě 1
es un entero conocido. Demuestre que
θp1 ´ θq
CICRpθq “ , 0 ă θ ă 1.
nk
Demuestre que el estimador θ̂ “ X̄{k es insesgado y que su varianza
coincide con la cota inferior de Cramér-Rao, es decir,
θp1 ´ θq
CICRpθq “ “ Varpθ̂q.
nk
90. Distribución geométrica. Sea X1 , . . . , Xn una muestra aleatoria de la
distribución geopθq, con θ desconocido. Demuestre que
θ2 p1 ´ θq
CICRpθq “ , 0 ă θ ă 1.
n
91. Distribución binomial negativa. Sea X1 , . . . , Xn una muestra aleatoria
de la distribución bin negpr, θq, con θ desconocido. Suponga que r ě 1
es un entero conocido. Demuestre que
θ2 p1 ´ θq
CICRpθq “ , 0 ă θ ă 1.
nr
92. Distribución Poisson. Sea X1 , . . . , Xn una muestra aleatoria de la dis-
tribución Poissonpθq, con θ desconocido. Demuestre que
θ
CICRpθq “ , θ ą 0.
n
Calcule la varianza de los siguientes estimadores insesgados y com-
pruebe el cumplimiento de la cota inferior de Cramér-Rao.
a) θ̂ “ X1 .
b) θ̂ “ X̄.
2.9 Eficiencia 73
93. Distribución normal. Sea X1 , . . . , Xn una muestra aleatoria de la dis-
tribución Np0, θq, con θ ą 0 desconocido. Demuestre que
2 2
CICRpθq “ θ , θ ą 0.
n
Demuestre que el estimador θ̂ “ pX12 ` ¨ ¨ ¨ ` Xn2 q{n es insesgado y que
su varianza coincide con la cota inferior de Cramér-Rao, es decir,
2 2
CICRpθq “ θ “ Varpθ̂q.
n
94. Distribución normal. Sea X1 , . . . , Xn una muestra aleatoria de la dis-
tribución Npµ, σ 2 q, con ambos parámetros desconocidos. Suponga n ě
2. Recordemos que la varianza muestral S 2 es un estimador insesgado
para σ 2 .
n
1 ÿ
S2 “ pXi ´ X̄q2 .
n ´ 1 i“1
Demuestre que
2 4 2
CICRpσ 2 q “ σ ă σ 4 “ VarpS 2 q.
n n´1
2.9. Eficiencia
En esta sección veremos varias definiciones relacionadas al concepto de efi-
ciencia de un estimador. Primero veamos una posible manera de comparar
dos estimadores insesgados.
Definición 2.16 Sean θ̂1 y θ̂2 dos estimadores insesgados para un
parámetro θ. Se dice que θ̂1 es relativamente más eficiente que θ̂2 si
Varpθ̂1 q ď Varpθ̂2 q. (2.12)
De esta manera, de entre dos estimadores insesgados para un mismo paráme-
tro, preferiremos aquel que tenga varianza menor, si es que tal comparación
74 2. Estimación puntual
puede llevarse a cabo. Recordemos que la varianza del estimador puede de-
pender de θ y la desigualdad (2.12) pudiera no cumplirse para cualquier
valor de θ dentro del espacio parametral. En consecuencia, no cualesquiera
dos estimadores insesgados pueden compararse uno con el otro de la forma
indicada en la definición anterior.
Ejemplo 2.32 Sea X1 , . . . , Xn una muestra aleatoria de la distribución
Berpθq, con θ desconocido. Es claro que los estimadores θ̂1 “ X̄ y θ̂2 “ X1
son insesgados para θ. Sin embargo, el estimador θ̂1 es relativamente más
eficiente que θ̂2 pues, para cualquier valor de θ en p0, 1q, se cumple
θp1 ´ θq
Varpθ̂1 q “ ď θp1 ´ θq “ Varpθ̂2 q.
n
‚
Por otro lado, en ocasiones hay estimadores insesgados con la mı́nima va-
rianza posible dada por la cota inferior de Cramér-Rao. Los llamaremos
estimadores eficientes.
Definición 2.17 Se dice que un estimador insesgado es eficiente cuando
su varianza alcanza la cota inferior de Cramér-Rao.
Es decir, el estimador insesgado θ̂ es eficiente si Varpθ̂q “ CICRpθq para
todo valor de θ. Teniendo como elemento de comparación la cota inferior de
Cramér-Rao podemos ahora definir la eficiencia de un estimador insesgado
de la siguiente manera.
Definición 2.18 La eficiencia de un estimador insesgado θ̂ es
CICRpθq
Efipθ̂q “ . (2.13)
Varpθ̂q
Observemos nuevamente que la eficiencia es una función del parámetro θ a
estimar, es siempre positiva y menor o igual a uno. Más generalmente, la
2.9 Eficiencia 75
cualidad de ser eficiente para un estimador insesgado puede alcanzarse en
el lı́mite cuando el tamaño de la muestra tiende a infinito.
Definición 2.19 Sea θ̂n un estimador insesgado para θ, construido a
partir de una muestra aleatoria de tamaño n. Se dice que θ̂n es asintóti-
camente eficiente si
lı́m Efipθ̂n q “ 1.
nÑ8
Por supuesto, todo estimador eficiente es asintóticamente eficiente y el
recı́proco no se cumple. Veamos algunos ejemplos de los conceptos estu-
diados en esta sección.
Ejemplo 2.33 Sea X1 , . . . , Xn una muestra aleatoria de la distribución
Berpθq, con θ desconocido. Sabemos que la cota inferior de Cramér-Rao
es
θp1 ´ θq
CICRpθq “ .
n
a) El estimador insesgado θ̂ “ X̄ es estimador eficiente pues Varpθ̂q “
θp1 ´ θq{n “ CICRpθq.
b) Consideremos ahora el estimador insesgado
2
θ̂n “ pX1 ` 2X2 ` ¨ ¨ ¨ ` nXn q.
npn ` 1q
Su varianza puede encontrarse como sigue
« ff
n
4 ÿ
Varpθ̂n q “ k 2 θp1 ´ θq
n2 pn ` 1q2 k“1
2p2n ` 1q θp1 ´ θq
“ .
3pn ` 1q n
Por lo tanto, su eficiencia es
3pn ` 1q
Efipθ̂n q “ ă 1.
2p2n ` 1q
76 2. Estimación puntual
Entonces, este es un estimador que no es eficiente y tampoco es asintóti-
camente eficiente pues
3
lı́m Efipθ̂n q “ ă 1.
nÑ8 4
c) Finalmente consideremos el estimador insesgado θ̂n “ pX1 `¨ ¨ ¨`Xn´1 q{pn´
1q, es decir, sólo se toma el promedio de las primeras n ´ 1 variables de
la muestra aleatoria. Es claro que θ̂n es insesgado y su varianza es
θp1 ´ θq
Varpθ̂n q “ .
n´1
Su eficiencia es
n´1
Efipθ̂n q “
ă 1.
n
Se trata entonces de un estimador que no es eficiente, sin embargo es
asintóticamente eficiente.
Ejercicios
95. Sea X1 , . . . , Xn una muestra aleatoria de una población normal de me-
dia µ. Demuestre que X̄ es un estimador insesgado de mı́nima varianza
para el parámetro µ.
2.10. Suficiencia
Consideremos nuevamente la situación de tener una variable aleatoria de
interés X con función de densidad o de probabilidad conocida f px; θq, pero
dependiente de un parámetro desconocido θ, el cual deseamos estimar a
través de la información de una muestra aleatoria X1 , . . . , Xn Definiremos a
continuación el concepto de suficiencia de una estadı́stica para el parámetro
θ. Este concepto fue propuesto por Ronald Fisher4 en 1920 y ha resultado
4
Ronald Aylmer Fisher (1890-1962), estadı́stico y genetista inglés.
2.10 Suficiencia 77
ser de suma importancia dentro de la estadı́stica y sus aplicaciones. En las
siguientes secciones tendremos oportunidad de mostrar su utilidad.
Definición 2.20 Una estadı́stica T pX1 , . . . , Xn q es suficiente para un
parámetro θ si la distribución de conjunta de la muestra aleatoria
X1 , . . . , Xn condicionada al evento pT “ tq no depende del parámetro θ,
cualquiera que sea el posible valor t de la estadı́stica.
En otras palabras, esto significa que dado un valor t de la estadı́stica T , la
muestra aleatoria no contiene información adicional sobre el parámetro θ
que aquella proporcionada por la estadı́stica T . Más adelante precisaremos
esta interpretación. Veamos algunos ejemplos de la forma en la que puede
verificarse la propiedad de suficiencia de una estadı́stica mediante la defini-
ción anterior. Por ahora, este es un primer mecanismo para comprobar la
propiedad de suficiencia de una estadı́stica.
Ejemplo 2.34 Sea X1 , . . . , Xn una muestra aleatoria de la distribución
Bernoulli de parámetro desconocido θ. Comprobaremos que la estadı́stica
T “ X1 ` ¨ ¨ ¨ ` Xn es suficiente para θ. Observemos que T tiene distri-
bución binpn, θq y que T no necesariamente es un estimador para θ. Sea
t P t0, 1, . . . , nu un posible valor de la estadı́stica T . Para cualesquiera valo-
res x1 , . . . , xn P t0, 1u de la muestra aleatoria, tenemos que
f px1 , . . . , xn , T “ tq
f px1 , . . . , xn | T “ tq “
fT ptq
f px1 , . . . , xn q
“ ¨ 1ttu px1 ` ¨ ¨ ¨ ` xn q
fT ptq
θx1 p1 ´ θq1´x1 ¨ ¨ ¨ θxn p1 ´ θq1´xn
“ `n˘
t n´t
¨ 1ttu px1 ` ¨ ¨ ¨ ` xn q
t θ p1 ´ θq
θx1 `¨¨¨`xn p1 ´ θqn´px1 `¨¨¨`xn q
“ `n˘
t n´t
¨ 1ttu px1 ` ¨ ¨ ¨ ` xn q
t θ p1 ´ θq
1
“ `n˘ ¨ 1ttu px1 ` ¨ ¨ ¨ ` xn q.
t
78 2. Estimación puntual
Como esta probabilidad no depende de θ, concluimos que T es una estadı́sti-
ca suficiente para θ. ‚
Ejemplo 2.35 Sea X1 , . . . , Xn una muestra aleatoria de la distribución
Poissonpθq con θ ą 0 desconocido. Comprobaremos que la estadı́stica T “
X1 ` ¨ ¨ ¨ ` Xn es suficiente para θ. Observemos que T tiene distribución
Poissonpnθq y consideremos que t P t0, 1, . . .u es uno de sus posibles valo-
res. Para cualesquiera valores x1 , . . . , xn P t0, 1, . . .u de la muestra aleatoria,
tenemos que
f px1 , . . . , xn , T “ tq
f px1 , . . . , xn | T “ tq “
fT ptq
f px1 , . . . , xn q
“ ¨ 1ttu px1 ` ¨ ¨ ¨ ` xn q
fT ptq
re´θ θx1 {x1 !s ¨ ¨ ¨ re´θ θxn {xn !s
“ ¨ 1ttu px1 ` ¨ ¨ ¨ ` xn q
e´nθ pnθqt {t!
e´nθ θt {px1 ! ¨ ¨ ¨ xn !q
“ ¨ 1ttu px1 ` ¨ ¨ ¨ ` xn q
e´nθ pnθqt {t!
t!
“ ¨ 1 px1 ` ¨ ¨ ¨ ` xn q
nt x1 ! ¨ ¨ ¨ xn ! ttu
.
Esta probabilidad no depende de θ y por lo tanto T es una estadı́stica
suficiente para θ. ‚
Ejemplo 2.36 (No suficiencia) Sea X1 , X2 , X3 una muestra aleatoria de
tamaño n “ 3 de la distribución Berpθq, con θ desconocido. Comprobare-
mos que la estadı́stica T “ X1 ` 2X2 ` 3X3 no es suficiente para θ. Para
ello es suficiente dar un valor de la muestra aleatoria y un valor de la es-
tadı́stica para los cuales no se cumpla la condición de suficiencia. Tomemos
2.10 Suficiencia 79
px1 , x2 , x3 q “ p1, 1, 0q y t “ 3. Entonces
f p1, 1, 0, T “ 3q
f p1, 1, 0 | T “ 3q “
fT p3q
f p1, 1, 0q
“
fT p3q
θ2 p1 ´ θq
“
θ p1 ´ θq ` p1 ´ θq2 θ
2
“ θ.
Claramente esta probabilidad depende del parámetro θ y por lo tanto T no
es una estadı́stica suficiente para θ. ‚
A pesar de lo fácil que resultaron los cálculos en los ejemplos anteriores, en
general no es sencillo comprobar la suficiencia de una estadı́stica usando la
definición. Observe que en estos ejemplos fue necesario conocer la distribu-
ción de la estadı́stica T y en los casos mostrados tal distribución fue evidente
de encontrar. Esto no siempre es ası́ y los cálculos pueden ser sumamente
complicados con casi cualquier otro caso que se considere. Afortunadamente
se cuenta con el siguiente resultado bastante útil, que establece una condi-
ción equivalente para la suficiencia. Esta condición es relativamente fácil
de verificar y la usaremos con mayor frecuencia que la definición misma de
suficiencia. Será un segundo mecanismo para comprobar la suficiencia de
una estadı́stica.
Recordemos nuevamente que X1 , . . . , Xn una muestra aleatoria de una dis-
tribución con función de densidad o de probabilidad f px; θq, dependiente de
un parámetro desconocido θ.
80 2. Estimación puntual
Teorema 2.3 (Teorema de factorización de J. Neyman)
Una estadı́stica T pX1 , . . . , Xn q es suficiente para θ si y sólo si la función
de densidad conjunta de la muestra aleatoria se puede factorizar de la
siguiente forma
f px1 , . . . , xn ; θq “ gpT px1 , . . . , xn q, θq ¨ hpx1 , . . . , xn q, (2.14)
en donde g es una función no negativa que depende de los valores de la
muestra aleatoria únicamente a través de la estadı́stica T , y h es una
función no negativa que depende únicamente de los valores x1 , . . . , xn
de la muestra aleatoria.
Demostración.
pñq Supongamos que T es una estadı́stica suficiente y sea x1 , . . . , xn cual-
quier valor de la muestra aleatoria, es decir, X1 “ x1 , . . . , Xn “ xn .
Entonces la estadı́stica T toma el valor T px1 , . . . , xn q. A la distribu-
ción conjunta de la muestra f px1 , . . . , xn q le añadimos la información
redundante T “ T px1 , . . . , xn q y condicionamos de la siguiente forma
f px1 , . . . , xn q “ f px1 , . . . , xn , T px1 , . . . , xn qq
“ fT pT px1 , . . . , xn qq ¨ f px1 , . . . , xn | T “ T px1 , . . . , xn qq
El primer factor es una función gpT px1 , . . . , xn q; θq que depende del
parámetro θ y del punto muestral x1 , . . . , xn únicamente a través del
valor de la estadı́stica T . El segundo factor es una función hpx1 , . . . , xn q
que depende únicamente del valor de la muestra aleatoria, pues T es
suficiente. De esta forma hemos construido la expresión del lado dere-
cho de la igualdad (2.14).
pðq Suponga que se cumple la factorización (2.14). Demostraremos que T
es suficiente. Por simplicidad en la escritura consideraremos el caso
discreto. Sea xn “ px1 , . . . , xn q cualquier valor de la muestra alea-
toria. A partir de este valor definimos el valor de la estadı́stica t “
T px1 , . . . , xn q. Ahora consideremos la imagen inversa del valor t bajo
2.10 Suficiencia 81
la función T , es decir,
T ´1 ttu “ t y n : T py n q “ t u.
Por construcción, xn P T ´1 ttu. Entonces
P pX n “ xn , T “ tq
P pX1 “ x1 , . . . , Xn “ xn | T “ tq “
P pT “ tq
P pX n “ xn q
“
P pX n P T ´1 ttuq
P pX n “ xn q
“ ř n n
y n PT ´1 ttu P pX “ y q
gpT pxn q; θq hpxn q
“ ř n n
y n PT ´1 ttu gpT py q; θq hpy q
gpt; θq hpxn q
“
gpt; θq yn PT ´1 ttu hpy n q
ř
hpxn q
“ ř n
.
y n PT ´1 ttu hpy q
Como esta probabilidad no depende de θ, concluimos que T es sufi-
ciente.
‚
Como una muestra de la forma en la que se aplica el teorema anterior,
repetiremos los resultados de los Ejemplos 2.34 y 2.35, pero ahora usando
el teorema de factorización.
Ejemplo 2.37 La estadı́stica T “ X1 ` ¨ ¨ ¨ ` Xn es suficiente para el
parámetro desconocido θ en la distribución Bernoulli pues
f px1 , . . . , xn q “ θx1 p1 ´ θq1´x1 ¨ ¨ ¨ θxn p1 ´ θq1´xn
“ r θx1 `¨¨¨`xn p1 ´ θqn´px1 `¨¨¨`xn q s ¨ r 1 s
“ gpT px1 , . . . , xn q; θq ¨ hpx1 , . . . , xn q.
Por simplicidad en la escritura hemos omitido los factores 1t0,1u pxi q, para
i “ 1, . . . , n, los cuales deben incorporarse a la función hpx1 , . . . , xn q.
82 2. Estimación puntual
La estadı́stica indicada también es suficiente para el parámetro desconocido
θ de la distribución Poisson pues
θ x1 θ xn
f px1 , . . . , xn q “ e´θ ¨ ¨ ¨ e´θ
x1 ! xn !
1
“ r e´nθ θx1 `¨¨¨`xn s ¨ r s
x1 ! ¨ ¨ ¨ xn !
“ gpT px1 , . . . , xn q; θq ¨ hpx1 , . . . , xn q.
Nuevamente hemos omitido los factores 1t0,1,...u pxi q, para i “ 1, . . . , n, los
cuales deben incorporarse a la función hpx1 , . . . , xn q. ‚
Algunos otros ejemplos de estadı́sticas suficientes aparecen en la sección
de ejercicios. Observemos que para demostrar que una estadı́stica no es
suficiente parece ser más conveniente usar directamente la Definición 2.20
como lo hemos hecho en el Ejemplo 2.36. Para ello se deben encontrar va-
lores particulares x1 , . . . , xn de la muestra aleatoria y un valor particular t
de la estadı́stica T , y verificar que la función f px1 , . . . , xn | T “ tq depende
del parámetro θ a estimar.
En lo que resta de esta sección estudiaremos algunos resultados relativos
al concepto de suficiencia. Por ejemplo, uno puede plantearse la siguiente
pregunta.
¿Es la transformación de una estadı́stica suficiente
también suficiente para el mismo parámetro?
Para que tal propiedad se cumpla, la condición de biyectividad para la
transformación es suficiente. Demostraremos esto a continuación.
Proposición 2.4 Funciones biyectivas de estadı́sticas suficientes son
suficientes.
Demostración. Usaremos el teorema de factorización. Sea T una estadı́sti-
ca suficiente para un parámetro θ y sea ϕ una función biyectiva definida
2.10 Suficiencia 83
sobre el conjunto de valores de T y con valores reales. Entonces la fun-
ción inversa de ϕ existe y podemos escribir T “ ϕ´1 ˝ pϕ ˝ T q. Como T es
suficiente, por el teorema de factorización tenemos que
f px1 , . . . , xn ; θq “ gpT px1 , . . . , xn q; θq ¨ hpx1 , . . . , xn q
“ gpϕ´1 ˝ pϕ ˝ T qpx1 , . . . , xn q; θq ¨ hpx1 , . . . , xn q
“ Gppϕ ˝ T qpx1 , . . . , xn q; θq ¨ hpx1 , . . . , xn q,
en donde G “ g ˝ ϕ´1 es no negativa pues g es no negativa. Por lo tanto,
ϕ ˝ T es también una estadı́stica suficiente para θ. ‚
En el Ejercicio 96 que aparece en la página 84 se pide demostrar el resultado
anterior usando directamente la definición de suficiencia. Observemos que
el resultado y demostración anteriores incluyen el caso cuando T es un
vector de estadı́sticas pT1 , . . . , Tk q. En este caso la función biyectiva tiene
como dominio alguna región de Rk , aquella en donde el vector T toma sus
valores, y como contradominio alguna región de Rk . Veamos un ejemplo del
uso del resultado recién demostrado.
Ejemplo 2.38 Sabemos que la estadı́stica X1 ` ¨ ¨ ¨ ` Xn es suficiente para
el parámetro de la distribución Poissonpθq. Tenemos entonces que
a) La estadı́stica pX1 ` ¨ ¨ ¨ ` Xn q2 es también suficiente para θ pues la
función ϕpxq “ x2 es biyectiva sobre el intervalo p0, 8q.
b) La estadı́stica exp pX1 ` ¨ ¨ ¨ ` Xn q es suficiente para θ pues la función
ϕpxq “ ex es biyectiva.
El resultado y el ejemplo anteriores sugieren un tercer mecanismo para
comprobar la suficiencia de una estadı́stica: verificar que la estadı́stica en
cuestión es una función biyectiva de otra estadı́stica que sabemos que es
suficiente.
Para concluir esta sección enunciamos un resultado que da respuesta a la
siguiente pregunta:
84 2. Estimación puntual
Sea T una estadı́stica suficiente para θ.
¿será T suficiente para cualquier función parametral τ pθq?
La respuesta es afirmativa y se pide proveer una demostración como un
ejercicio. Aquı́ tenemos el enunciado.
Proposición 2.5 Toda estadı́stica suficiente para un parámetro θ es
también suficiente para cualquier función parametral τ pθq.
Esto nos provee de un cuarto posible método para demostrar la propiedad de
suficiencia: en el caso cuando se desee probar suficiencia de una estadı́stica
para una función parametral, verificar si la estadı́stica es suficiente para el
parámetro en cuestión.
Ejemplo 2.39 — ‚
Más adelante estudiaremos el concepto de suficiencia de un vector de es-
tadı́sticas para uno o varios parámetros. A tal situación le llamaremos sufi-
ciencia conjunta del vector de estadı́sticas. La definición y los resultados son
completamente análogos. En la siguiente sección estudiaremos la informa-
ción de Fisher. A través de este concepto se le puede dar una interpretación
a la suficiencia.
Ejercicios
96. Usando directamente la definición de suficiencia, demuestre que cual-
quier función biyectiva de una estadı́stica suficiente es suficiente. Con-
sidere únicamente el caso discreto.
97. Demuestre que toda estadı́stica suficiente para un parámetro θ es tam-
bién suficiente para cualquier función parametral τ pθq. Este es el con-
tenido de la Proposición 2.5.
2.10 Suficiencia 85
98. Sea T una estadı́stica suficiente para un parámetro θ. Demuestre di-
rectamente que las siguientes estadı́sticas también son suficientes para
θ.
a) T ` a, a constante conocida.
b) aT , a ‰ 0 constante conocida.
c) eT .
99. Sea X1 , . . . , Xn una muestra aleatoria de la distribución especificada
abajo, en donde θ es un parámetro desconocido. Suponga que cualquier
otro parámetro que pudiera aparecer en la distribución es conocido.
Demuestre directamente que la estadı́stica U “ X1 ` ¨ ¨ ¨ ` Xn es
suficiente.
a) binpk, θq. c) Npθ, σ 2 q.
b) geopθq. d ) gammapγ, θq.
100. Distribución uniforme. Sea X1 , . . . , Xn una muestra aleatoria de la
distribución unifp0, θq, con θ ą 0 desconocido. Demuestre que la es-
tadı́stica de orden Xpnq es suficiente para θ.
101. Distribución uniforme. Sea T “ |X1 |, en donde X1 es una muestra
aleatoria de tamaño n “ 1 de la distribución unifp´θ, θq, con θ ą 0
desconocido. Determine si T es una estadı́stica suficiente para θ.
102. Distribución exponencial. Sea X1 una muestra aleatoria de tamaño
n “ 1 de la distribución exppθq, en donde θ ą 0 es desconocido.
Demuestre que
a) T “ X1 es suficiente para θ.
b) T “ 1pX1 ą2q no es suficiente para θ.
103. Distribución Rayleigh. Sea X1 , . . . , Xn una muestra aleatoria de la dis-
tribución Rayleigh especificada abajo, en donde θ ą 0 es un parámetro
desconocido. Demuestre que la estadı́stica U “ X12 ` ¨ ¨ ¨ ` Xn2 es sufi-
ciente para θ.
# 2
2px{θqe´x {θ si x ą 0,
f px; θq “
0 en otro caso.
86 2. Estimación puntual
104. Sea X1 , . . . , Xn una muestra aleatoria de una distribución continua
con función de densidad
#
apθq bpxq si 0 ă x ă θ,
f px; θq “
0 en otro caso,
en donde apθq y bpxq son dos funciones no negativas y θ ą 0 es un
parámetro desconocido. Por ejemplo, cuando apθq “ 1{θ y bpxq “ 1 se
obtiene la distribución unifp0, θq. Demuestre que máx tX1 , . . . , Xn u es
una estadı́stica suficiente para θ.
105. Distribución normal. Sea X1 , . . . , Xn una muestra aleatoria de la dis-
tribución Npµ, θq, en donde µ es conocido y θ ą 0 es desconocido.
Encuentre el estimador por el método de máxima verosimilitud para
θ y determine si éste es una estadı́stica suficiente.
106. No suficiencia. Sea X1 una muestra aleatoria de tamaño n “ 1 de
la distribución Npθ, σ 2 q en donde θ es desconocido y σ 2 es conocido.
Demuestre que la siguiente estadı́stica no es suficiente para θ.
T “ |X1 |.
107. No suficiencia. Sea X1 , . . . , X4 una muestra aleatoria de tamaño n “ 4
de la distribución Berpθq, con 0 ă θ ă 1 desconocido. Demuestre que
la siguiente estadı́stica no es suficiente para θ.
T “ X1 pX2 ` X3 q ` X4 .
108. No suficiencia. Sea X1 , X2 una muestra aleatoria de tamaño n “ 2 de
la distribución Poissonpθq, en donde θ es desconocido. Demuestre que
la siguiente estadı́stica no es suficiente para θ.
T “ X1 ´ X2 .
109. No suficiencia. Sea X1 , X2 una muestra aleatoria de tamaño n “ 2 de
la distribución Npθ, 1q, en donde θ es desconocido. Demuestre que la
siguiente estadı́stica no es suficiente para θ.
T “ X1 ` 2X2 .
2.11 Suficiencia e información 87
2.11. Suficiencia e información
En esta sección se define el concepto de información de Fisher de una va-
riable aleatoria, o de su distribución f px; θq, dependiente de un parámetro
desconocido y unidimensional θ. Se muestra además su relación con el con-
cepto de suficiencia de una estadı́stica.
Definición 2.21 Sea X una variable aleatoria con función de densidad
o probabilidad f px; θq, dependiente de un parámetro θ. La información
de Fisher de X, o de su distribución, es la función
B
Ipθq “ E r p log f pX; θqq2 s. (2.15)
Bθ
Observemos con cuidado la expresión f pX; θq que aparece en el enunciado: la
función de densidad f px; θq es evaluada en la variable aleatoria X, es decir,
se trata de una composición de funciones. Supondremos que este término es
nuevamente una variable aleatoria y que la función log f pX; θq es diferen-
ciable respecto de θ. Cuando sea necesario especificar la variable aleatoria
en cuestión escribiremos IX pθq y la función de densidad o de probabilidad
será fX px; θq. Por convención, el logaritmo indicado es el logaritmo natu-
ral pero lo escribiremos como log. La información de Fisher se interpreta
como una medida de la cantidad de información que una observación de la
variable aleatoria contiene acerca del parámetro desconocido θ. Veremos a
continuación algunos ejemplos del cálculo de la información de Fisher.
Ejemplo 2.40 La información de Fisher de una variable aleatoria X con
distribución Berpθq es
B
Ipθq “ Erp log θX p1 ´ θq1´X q2 s
Bθ
B
“ Erp rX log θ ` p1 ´ Xq log p1 ´ θqsq2 s
Bθ
“ ErpX{θ ´ p1 ´ Xq{p1 ´ θqq2 s
1
“ .
θp1 ´ θq
88 2. Estimación puntual
Ejemplo 2.41 La información de Fisher de una variable aleatoria X con
distribución exppθq es
B
Ipθq “ Erp log θ e´θX q2 s
Bθ
B
“ Erp rlog θ ´ θ Xsq2 s
Bθ
“ Erp1{θ ´ Xq2 s
“ VarpXq
1
“ .
θ2
Como ejemplos adicionales, en la tabla de la Figura 2.13 se muestran las
expresiones de la información de Fisher para algunas otras distribuciones.
Esta tabla es equivalente a la tabla sobre la cota inferior de Cramér-Rao
de la Figura 2.12 en la página 71. El parámetro se denota por la letra θ,
suponiendo que cualquier otro posible parámetro que aparezca en la dis-
tribución es conocido. Como siempre, se reserva la letra n para el tamaño
de la muestra. Se ha dejado comprobar estas expresiones en la sección de
ejercicios.
En la siguiente proposición tenemos dos resultados de utilidad. El primero
B
de ellos establece que la variable aleatoria Bθ log fX pX; θq, que es parte de
la expresión (2.15), siempre tiene esperanza cero. El segundo resultado nos
provee de una fórmula alternativa para calcular la información de Fisher.
2.11 Suficiencia e información 89
Distribución Parámetro Ipθq
1
Berpθq 0ăθă1
θp1 ´ θq
k
binpk, θq 0ăθă1
θp1 ´ θq
1
geopθq 0ăθă1 2
θ p1 ´ θq
r
bin negpr, θq 0ăθă1 2
θ p1 ´ θq
1
Poissonpθq θą0
θ
1
exppθq θą0
θ2
1
Npµ, θq θą0
2θ2
Figura 2.13
Proposición 2.6 Sea X una variable aleatoria con función de densidad
o de probabilidad f px; θq dependiente de un parámetro θ. Entonces
B
1. E r log f pX; θq s “ 0.
Bθ
B2
2. Ipθq “ ´E r log f pX; θq s.
Bθ2
Demostración. Por simplicidad en la escritura supondremos el caso
continuo. La prueba es análoga en el caso discreto.
90 2. Estimación puntual
1.
B B
ż
Er log fX pX; θq s “ f px; θq log f px; θq dx
Bθ Bθ
żR
B
“ f px; θq dx
R Bθ
B
ż
“ f px; θq dx
Bθ R
“ 0.
2. Por el primer resultado, derivando por segunda vez respecto de θ,
tenemos que
B B
0 “ Er log fX pX; θq s
Bθ ż „Bθ
B B
“ log f px; θq f px; θq dx
Bθ R Bθ
ż „ 2
B B B log f px;θq
“ p 2 log f px; θqq f px; θq ` p log f px; θqqp e q dx
R Bθ Bθ Bθ
ż „ 2
B B 2
“ p 2 log f px; θqq f px; θq ` p log f px; θqq f px; θq dx
R Bθ Bθ
B2
“ Er 2 log fX pX; θq s ` IX pθq.
Bθ
Observemos entonces que, como consecuencia de la definición y el primer
inciso del resultado anterior,
B
IX pθq “ Var r log fX pX; θq s.
Bθ
La definición de información de Fisher de una variable aleatoria o de su
distribución se puede extender fálcilmente para muestras aleatorias. Este es
el contenido de la siguiente definición y es completamente análoga al caso
unidimensional.
2.11 Suficiencia e información 91
Definición 2.22 Sea X1 , . . . , Xn una muestra aleatoria de una distri-
bución con función de densidad o de probabilidad f px; θq dependiente
de un parámetro desconocido θ. La información de Fisher del vector
pX1 , . . . , Xn q o de su distribución es la función
B
IX1 ,...,Xn pθq “ E r p log fX1 ,...,Xn pX1 , . . . , Xn ; θqq2 s. (2.16)
Bθ
A la cantidad (2.16) le llamaremos información de Fisher de la muestra
aleatoria y representa la cantidad de información que la muestra aleatoria
contiene acerca del parámetro θ. Como en el caso unidimensional, observe
con cuidado la expresión fX1 ,...,Xn pX1 , . . . , Xn ; θq, la cual es la función de
densidad conjunta de la muestra aleatoria evaluada en la muestra aleatoria
misma. Supondremos que tal expresión es una variable aleatoria.
Los resultados de la Proposición 2.6 pueden extenderse de manera análoga
al caso de muestras aleatorias. Este es el contenido del siguiente resultado,
en donde además se demuestra que la información de una muestra aleatoria
es n veces la información de cualquiera de las variables aleatorias de la
muestra.
Proposición 2.7 Sea X1 , . . . , Xn una muestra aleatoria de una distri-
bución f px; θq, dependiente de un parámetro θ. Entonces
B
1. E r log fX1 ,...,Xn pX1 , . . . , Xn ; θq s “ 0.
Bθ
B2
2. IX1 ,...,Xn pθq “ ´E r log fX1 ,...,Xn pX1 , . . . , Xn ; θq s.
Bθ2
3. IX1 ,...,Xn pθq “ n IX1 pθq.
Demostración. Los dos primeros resultados se demuestran de manera
análoga al caso unidimensional. Véase la página 89. Veamos el tercer resul-
92 2. Estimación puntual
tado.
3. Sea f px; θq la distribución en cuestión. Entonces,
B
IX1 ,...,Xn pθq “ Erp log f pX1 , . . . , Xn ; θqq2 s
Bθ
n
ÿ B
“ Erp log f pXi ; θqq2 s
i“1
Bθ
n n
ÿ B ÿ B
“ Erp log f pXi ; θqqp log f pXj ; θqqs
i“1
Bθ j“1
Bθ
n
ÿ B
“ Erp log f pXi ; θqq2 s
i“1
Bθ
ÿ B B
` Ep log f pXi ; θqqEp log f pXj ; θqq,
i‰j
Bθ Bθ
B
en donde sabemos que la variable aleatoria Bθ log f pXi ; θq tiene espe-
ranza cero y, en consecuencia, la segunda suma desaparece. Además,
usando la hipótesis de idéntica distribución, tenemos que
B
IX1 ,...,Xn pθq “ n Erp log fX1 pX1 ; θqq2 s
Bθ
“ n IX1 pθq.
Para concluir esta sección, demostraremos una relación entre la información
de Fisher de una muestra aleatoria y la información de una estadı́stica cual-
quiera de la misma muestra aleatoria. A partir de este resultado se obtendrá
una interpretación del concepto de suficiencia de una estadı́stica.
2.11 Suficiencia e información 93
Teorema 2.4 Sea X1 , . . . , Xn una muestra aleatoria de una distribu-
ción dependiente de un parámetro θ y sea T pX1 , . . . , Xn q una estadı́stica.
Entonces
1. IX1 ,...,Xn pθq ě IT pX1 ,...,Xn q pθq.
2. La igualdad se cumple si y sólo si T es suficiente para θ.
Demostración. Tenemos que
B2
IX1 ,...,Xn pθq “ ´Er 2 log f pX1 , . . . , Xn qs
Bθ
B2
ż
“ ´ r 2 log f pxqs f pxq dx.
Rn Bθ
Cuando la muestra aleatoria toma el valor x, la estadı́stica T toma el valor
T pxq, de modo que el evento T “ T pxq se cumple. Añadimos esta informa-
ción redundante y condicionamos respecto de este evento,
B2
ż
IX1 ,...,Xn pθq “ ´ 2
rlog f px, T pxqs f pxq dx
Rn Bθ
B2
ż
“ ´ r 2 log f px | T pxq fT pT pxqqsf pxq dx
Rn Bθ
B2
ż
“ ´ r 2 log f px | T pxqqsf pxq dx
Rn Bθ
B2
ż
´ r 2 log fT pT pxqqsf pxq dx
Rn Bθ
“ IT pθq ` IX1 ,...,Xn |T pθq
ě IT pθq.
Esto demuestra la primera afirmación. Veamos ahora el segundo resultado.
94 2. Estimación puntual
Por lo demostrado antes,
IX1 ,...,Xn pθq “ IT pθq ô IX1 ,...,Xn |T pθq “ 0
B
ô Erp log f pX1 , . . . , Xn |T qq2 s “ 0
ż Bθ
B
ô p log f px | T pxqq2 f pxq dx “ 0
Rn Bθ
B
ô log f px | T pxqq “ 0
Bθ
B
f px | T pxqq
ô Bθ “0
f px | T pxqq
ô f px | T pxqq no depende de θ
ô T es suficiente para θ.
El resultado anterior establece que una estadı́stica es suficiente si, y sólo
si, captura toda la información de la muestra aleatoria. Por otro lado, este
resultado también nos provee de un mecanismo alternativo para demostrar
que una estadı́stica es suficiente: su información debe coincidir con la infor-
mación de la muestra aleatoria.
Ejercicios
110. Otras propiedades de la información de Fisher. Demuestre las siguien-
tes propiedades.
a) IX pθq ě 0.
b) IaX pθq “ IX pθq, a ‰ 0 constante.
c) IX`b pθq “ IX pθq, b constante.
111. Distribución Bernoulli. Aplicando directamente la definición, demues-
tre que la información de Fisher para la distribución Berpθq es
1
Ipθq “ .
θp1 ´ θq
2.11 Suficiencia e información 95
112. Distribución binomial. Sea k ě 1 un entero conocido. Aplicando di-
rectamente la definición, demuestre que la información de Fisher para
la distribución binpk, θq es
k
Ipθq “ .
θp1 ´ θq
113. Distribución geométrica. Aplicando directamente la definición, demues-
tre que la información de Fisher para la distribución geopθq es
1
Ipθq “ .
θ2 p1´ θq
114. Distribución binomial negativa. Sea r ě 1 un entero conocido. Aplican-
do directamente la definición, demuestre que la información de Fisher
para la distribución bin negpr, θq es
r
Ipθq “ .
θ2 p1´ θq
115. Distribución Poisson. Aplicando directamente la definición, demuestre
que la información de Fisher para la distribución Poissonpθq es
1
Ipθq “ .
θ
116. Distribución exponencial. Aplicando directamente la definición, de-
muestre que la información de Fisher para la distribución exppθq es
1
Ipθq “ .
θ2
117. Distribución normal. Sea µ un número real conocido. Aplicando di-
rectamente la definición, demuestre que la información de Fisher para
la distribución Npµ, θq es
1
Ipθq “ .
2θ2
118. Calcule la información de Fisher de una variable aleatoria X con la
siguiente distribución dependiente del parámetro θ indicado.
96 2. Estimación puntual
a) f pxq “ θ xθ´1 ¨ 1p0,1q pxq, θ ą 0.
b) —
c) —
119. Calcule la información de Fisher de una muestra aleatoria X1 , . . . , Xn
de una distribución dependiente de un parámetro θ como se indica en
cada inciso.
a) —
b) —
c) —
120. Usando la infomación de Fisher, determine si las siguientes estadı́sticas
son suficientes para el parámetro desconocido θ.
a) —
b) —
c) —
2.12. Suficiencia conjunta
En esta sección extenderemos el concepto de suficiencia de una estadı́stica
para un parámetro al caso de varias dimensiones. Consideraremos enton-
ces que T es un vector de estadı́sticas y θ es un vector de parámetros, no
necesariamente de la misma dimensión. Las definiciones y resultados son
análogos al caso unidimensional y partiremos nuevamente de una muestra
aleatoria X1 , . . . , Xn de una distribución f px; θq dependiente de ℓ paráme-
tros θ “ pθ1 , . . . , θℓ q.
Definición 2.23 Se dice que las variables de un vector de estadı́sticas
T “ pT1 , . . . , Tk q son suficientes conjuntamente para el vector de paráme-
tros θ “ pθ1 , . . . , θℓ q si y sólo si la distribución de la muestra X1 , . . . , Xn
condicionada al evento T “ pt1 , . . . , tk q no depende de θ.
2.12 Suficiencia conjunta 97
Ejemplo 2.42
a) Cada variable de la muestra aleatoria X1 , . . . , Xn es una estadı́stica, de
modo que podemos formar el vector de n estadı́sticas T “ pX1 , . . . , Xn q.
Es intuitivamente claro y se puede comprobar que T es suficiente para
θ.
b) Si tomamos el vector de las estadı́sticas de orden T “ pXp1q , . . . , Xpnq q,
es claro que este vector es suficiente para θ.
c) Si no tomamos la totalidad de la muestra aleatoria y consideramos que
T “ pX1 , . . . , Xk q, en donde k ă n, puede comprobarse que, en general,
T no es suficiente para θ. De hecho, cualquier vector que se pueda for-
mar con un subconjunto propio del conjunto de variables de la muestra
aleatoria no será, en general, suficiente para θ.
d) El vector de las primeras k estadı́sticas de orden, con k ă n, no es, en
general, suficiente para θ. Nuevamente, cualquier vector que se pueda
formar con cualesquiera k estadı́sticas de orden, no será, en general,
suficiente para θ.
‚
El bastante útil teorema de factorización de Jerzy Neyman en el caso uni-
dimensional puede extenderse sin dificultad al caso de vectores. La demos-
tración es análoga.
Teorema 2.5 (Teorema de factorización) Un vector de estadı́sticas
T “ pT1 , . . . , Tk q es suficiente conjuntamente para el vector de paráme-
tros θ “ pθ1 , . . . , θℓ q si y sólo si
Lpx, θq “ gpT1 pxq, . . . , Tk pxq; θq ¨ hpxq,
en donde g y h son dos funciones no negativas que dependen únicamente
de los argumentos indicados.
98 2. Estimación puntual
Ejemplo 2.43 Sea X1 , . . . , Xn una muestra aleatoria de la distribución
Npµ, σ 2 q, en donde µ y σ 2 son desconocidos. Definamos las estadı́sticas
n
ÿ
T1 “ Xi ,
i“1
ÿn
T2 “ Xi2 .
i“1
Demostraremos que T “ pT1 , T2 q es suficiente para θ “ pµ, σ 2 q. Si se qui-
siera usar la definición de suficiencia conjunta, se tendrı́a que considerar
un posible valor t1 de T1 y un posible valor t2 de T2 y demostrar que la
expresión
fX1 ,...,Xn ,T1 ,T2 px1 , . . . , xn , t1 , t2 q
fX1 ,...,Xn | T1 ,T2 px1 , . . . , xn | t1 , t2 q “
fT1 ,T2 pt1 , t2 q
no depende de µ ni de σ 2 . Sin embargo, encontrar la expresión anterior no
es sencillo. Utilizaremos entonces el teorema de factorización. Tenemos que
ˆ ˙n{2 n
2 1 1 ÿ
Lpx; µ, σ q “ expp´ pxi ´ µq2 q
2πσ 2 2σ 2 i“1
ˆ ˙n{2 ˆ ˙n{2 n n
1 1 1 ÿ 2 ÿ
“ ¨ expp´ p x ´ 2µ xi ` nµ2 qq
2π σ2 2σ 2 i“1 i i“1
El primer factor es la función constante hpxq y el resto de la expresión
corresponde a una función gpT1 , T2 ; µ, σ 2 q. Por lo tanto, pT1 , T2 q es suficiente
para pµ, σ 2 q. ‚
Cuando a un vector de estadı́sticas suficientes conjuntamente se le aplica
una función biyectiva se obtiene otro vector que preserva la propiedad de ser
suficiente. Este resultado es análogo al caso unidimensional y se enuncia a
continuación. Su demostración es idéntica al caso estudiado antes y se deja
como ejercicio.
Proposición 2.8 Funciones biyectivas de estadı́sticas suficientes con-
juntas son también suficientes.
2.13 Suficiencia minimal 99
Ejemplo 2.44 En el ejemplo anterior ř se comprobóřque el vector de es-
tadı́sticas pT1 , T2 q dadas por T1 “ ni“1 Xi y T2 “ ni“1 Xi2 es suficiente
para el vector de parámetros pµ, σ 2 q en una distribución normal. La trans-
formación
pt1 , t2 q ÞÑ pt1 {n, pt2 ´ t21 {nq{pn ´ 1qq
resulta ser una función biyectiva sobre p´8, 8q ˆ p0, 8q. Después de un
cálculo sencillo puede comprobarse que cuando esta función se aplica al
vector pT1 , T2 q se obtiene el vector pX̄, S 2 q. Por lo tanto, este nuevo vector
de estadı́sticas también es suficiente para pµ, σ 2 q. ‚
Observación 2.1 La suficiencia conjunta de un vector de k estadı́sticas
para un vector de k parámetros no implica la suficiencia individual coor-
denada a coordenada. Considerando el ejemplo anterior, se comprobó que
el vector pX̄, S 2 q es suficiente para pµ, σ 2 q en una distribución normal. Es
inmediato verificar que el vector en el orden cambiado pS 2 , X̄q también es
suficiente para pµ, σ 2 q. La suficiencia coordenada a coordenada dirı́a que S 2
es suficiente individualmente para µ y que X̄ es suficiente para σ 2 . Estas
afirmaciones son falsas.
Ejercicios
121. Demuestre que toda función biyectiva de un vector suficiente de es-
tadı́sticas pT1 , . . . , Tk q para un vector de parámetros pθ1 , . . . , θl q es
también suficiente.
122. Información adicional. Sea pT1 , . . . , Tk q suficiente para pθ1 , . . . , θℓ q. Su-
ponga que Tk`1 es una estadı́stica adicional. Demuestre que el vector
pT1 , . . . , Tk`1 q también es suficiente para pθ1 , . . . , θℓ q.
2.13. Suficiencia minimal
Como hemos visto antes, la cualidad de ser suficiente para una estadı́stica
significa que ésta preserva de manera completa la información de la mues-
tra aleatoria. El objetivo ahora es buscar formas compactas de escribir a
100 2. Estimación puntual
las estadı́sticas suficientes. En tal caso a la estadı́stica se le llama suficien-
te minimal. Para entender mejor el concepto de minimalidad definiremos
primero cuándo una estadı́stica es función de otra.
Definición 2.24 Sea X1 , . . . , Xn una muestra aleatoria. Se dice que una
estadı́stica T es una función de otra estadı́stica S si para cualesquiera
dos valores x “ px1 , . . . , xn q y y “ py1 , . . . , yn q de la muestra aleatoria
se cumple
Spxq “ Spyq ñ T pxq “ T pyq.
Recordemos que τ : A Ñ B es una función si para cada a P A existe un único
elemento b P B tal que τ paq “ b, de manera equivalente, esta condición se
puede expresar como la implicación τ pa1 q ‰ τ pa2 q ñ a1 ‰ a2 . La siguiente
serie de equivalencias demuestra que esta definición elemental de función
coincide con la definición de función de una estadı́stica respecto a otra que
hemos dado antes.
T es una función τ de S (i.e. T “ τ pS))
ô τ pSpxqq ‰ τ pSpyqq ñ Spxq ‰ Spyq
ô Spxq “ Spyq ñ τ pSpxqq “ τ pSpyqq
ô Spxq “ Spyq ñ T pxq “ T pyq.
La última implicación es la condición que aparece en la Definición 2.24 .
Nota. Observemos que no hay restricciones sobre las dimensiones de las
estadı́sticas T y S en la Definición 2.24, de modo que éstas pueden ser
vectores de estadı́sticas. Por ejemplo, supongamos que S es la estadı́stica
dada por el vector de la muestra aleatoria, i.e. S “ pX1 , . . . , Xn q. Entonces
es claro que toda estadı́stica o vector de estadı́sticas es función de S.
Ejemplo 2.45 Las estadı́sticas T que aparecen a continuación son ejemplos
de funciones de las estadı́sticas S indicadas. En cada caso es inmediato
comprobar que se cumple la condición de la Definición 2.24 .
2.13 Suficiencia minimal 101
1
a) S “ X1 ` ¨ ¨ ¨ ` Xn , T “ X̄ “ n pX1 ` ¨ ¨ ¨ ` Xn q.
b) S “ pX1 , . . . , Xn q, T “ pXp1q , . . . , Xpnq q.
c) S “ pXp1q , . . . , Xpnq q, T “ X1 ` ¨ ¨ ¨ ` Xn .
Otros ejemplos de situaciones cuando una estadı́stica es, o no es, función
de otra estadı́stica se muestran en la sección de ejercicios. Ahora podemos
enunciar el concepto de suficiencia minimal.
Definición 2.25 Se dice que una estadı́stica T es suficiente minimal
para un parámetro θ cuando
a) T es suficiente para θ y
b) T es minimal, es decir, es función de cualquier otra estadı́stica sufi-
ciente para θ.
Aplicar directamente la definición anterior para demostrar que una estadı́sti-
ca es suficiente minimal puede ser difı́cil pues, por la segunda condición,
debe comprobarse que la estadı́stica minimal es función de cualquier otra
estadı́stica suficiente. El siguiente resultado es de suma utilidad y establece
condiciones suficientes para comprobar la suficiencia minimal de una es-
tadı́stica.
102 2. Estimación puntual
Teorema 2.6 Sea X1 , . . . , Xn una muestra aleatoria de una distribu-
ción con función de densidad o de probabilidad f px; θq, dependiente
de un parámetro θ. Sea T una estadı́stica y sean x “ px1 , . . . , xn q y
y “ py1 , . . . , yn q cualesquiera dos valores dados fijos de la muestra alea-
toria. Si se cumple la equivalencia
« ff « ff
f px; θq
no depende de θ ðñ T xq “ T pyq , (2.17)
f py; θq
entonces T es una estadı́stica suficiente minimal para θ.
Demostración. Demostraremos primero la suficiencia usando el teo-
rema de factorización. Sea px1 , . . . , xn q un valor cualquiera de la muestra
aleatoria y supongamos que t es su valor bajo la estadı́stica T , es decir,
T px1 , . . . , xn q “ t. Sea py1 , . . . , yn q otro posible valor de la muestra aleatoria
tal que T py1 , . . . , yn q “ t. Este otro valor de la muestra aleatoria no necesa-
riamente es distinto de px1 , . . . , xn q, pues puede ser que no haya otro valor
con esa propiedad. Es importante observar que, por el orden en que fueron
considerados estos objetos, py1 , . . . , yn q depende de px1 , . . . , xn q únicamente
a través del valor t. Esto se ilustra en la Figura 2.14.
b
t
px1 , . . . , xn q
py1 , . . . , yn q
Rn
Figura 2.14
Por construcción, se cumple que T px1 , . . . , xn q “ T py1 , . . . , yn q “ t y ha-
ciendo uso de la hipótesis (implicación de derecha a izquierda) se obtiene
2.13 Suficiencia minimal 103
que el cociente f px1 , . . . , xn ; θq{f py1 , . . . , yn ; θq no depende de θ, es decir,
f px1 , . . . , xn ; θq
“ h0 px1 , . . . , xn , y1 , . . . , yn q,
f py1 , . . . , yn ; θq
para alguna función no negativa h0 dependiente únicamente de las variables
indicadas. Por lo tanto,
f px1 , . . . , xn ; θq “ f py1 , . . . , yn ; θq ¨ h0 px1 , . . . , xn , y1 , . . . , yn q
“ gpT px1 , . . . , xn q; θq ¨ hpx1 , . . . , xn q.
Observe que el factor f py1 , . . . , yn ; θq se puede escribir como una función
no negativa gpT px1 , . . . , xn q; θq, pues py1 , . . . , yn q depende de px1 , . . . , xn q
únicamente a través de T px1 , . . . , xn q. El segundo factor es un función
hpx1 , . . . , xn q dependiente únicamente de px1 , . . . , xn q pues nuevamente ob-
servamos que py1 , . . . , yn q depende de px1 , . . . , xn q.
Ahora veamos la minimalidad. Sea S otra estadı́stica suficiente para θ. Por
el teorema de factorización, para cualquier valor px1 , . . . , xn q de la muestra
aleatoria,
f px1 , . . . , xn ; θq “ gpSpx1 , . . . , xn q; θq ¨ hpx1 , . . . , xn q,
para ciertas funciones no negativas g y h. Sean px1 , . . . , xn q y py1 , . . . , yn q
dos valores de la muestra aleatoria tales que Spx1 , . . . , xn q “ Spy1 , . . . , yn q.
Demostraremos que T px1 , . . . , xn q “ T py1 , . . . , yn q. Tenemos que
f px1 , . . . , xn ; θq gpSpx1 , . . . , xn q; θq ¨ hpx1 , . . . , xn q
“
f py1 , . . . , yn ; θq gpSpy1 , . . . , yn q; θq ¨ hpy1 , . . . , yn q
hpx1 , . . . , xn q
“ .
hpy1 , . . . , yn q
Esto significa que este cociente no depende de θ, de modo que, usando la
hipótesis (implicación de izquierda a derecha), se obtiene que T px1 , . . . , xn q “
T py1 , . . . , yn q, es decir, T es función de S. ‚
A continuación veremos algunos ejemplos de aplicación del teorema anterior.
104 2. Estimación puntual
Ejemplo 2.46 Sea X1 , . . . , Xn una muestra aleatoria de la distribución
Berpθq, en donde θ es un parámetro desconocido. Hemos demostrado an-
tes que T “ X1 ` ¨ ¨ ¨ ` Xn es una estadı́stica suficiente para θ. Usando el
teorema anterior mostraremos que T es suficiente minimal. Demostraremos
que la equivalencia (2.17) se cumple. Sean px1 , . . . , xn q y py1 , . . . , yn q dos
posibles valores de la muestra aleatoria. Entonces
f px1 , . . . , xn ; θq θx1 p1 ´ θq1´x1 ¨ ¨ ¨ θxn p1 ´ θq1´xn
“
f py1 , . . . , yn ; θq θy1 p1 ´ θq1´y1 ¨ ¨ ¨ θyn p1 ´ θq1´yn
θnx̄ p1 ´ θq´nx̄
“
θnȳ p1 ´ θq´nȳ
ˆ ˙nx̄´nȳ
θ
“ .
1´θ
De esta identidad se desprende el siguiente análisis.
f px1 , . . . , xn ; θq
no depende de θ ô nx̄ ´ nȳ “ 0
f py1 , . . . , yn ; θq
ô x̄ “ ȳ
ô T px1 , . . . , xn q “ T py1 , . . . , yn q.
‚
El siguiente ejemplo es particularmente interesante pues muestra una ma-
nera de usar la suficiencia minimal de una estadı́stica para demostrar la no
suficiencia de otra estadı́stica.
Ejemplo 2.47 (No suficiencia) Sea X1 , X2 , X3 una muestra aleatoria de
tamaño n “ 3 de la distribución Berpθq. Demostraremos que la estadı́stica
U “ X1 ¨ X2 ` X3 no es suficiente para θ. Supongamos lo contrario: supon-
gamos que U es suficiente. Como T “ X1 ` X2 ` X3 es suficiente minimal,
T debe ser función de U , es decir,
U px1 , x2 , x3 q “ U py1 , y2 , y3 q ùñ T px1 , x2 , x3 q “ T py1 , y2 , y3 q.
Sin embargo, esto no se cumple pues tomando px1 , x2 , x3 q “ p0, 0, 0q y
py1 , y2 , y3 q “ p0, 1, 0q, se tiene que U px1 , x2 , x3 q “ U py1 , y2 , y3 q “ 0 pero
0 “ T px1 , x2 , x3 q ‰ T py1 , y2 , y3 q “ 1. Se concluye que T no es función de U
y por lo tanto U no puede ser suficiente. ‚
2.13 Suficiencia minimal 105
Ejemplo 2.48 Sea X1 , . . . , Xn una muestra aleatoria de la distribución
Npµ, σ 2 q con µ y σ 2 desconocidos. Sea pT1 , T2 q el vector de estadı́sticas
T1 “ X 1 ` ¨ ¨ ¨ ` X n ,
T2 “ X12 ` ¨ ¨ ¨ ` Xn2 .
Demostraremos que pT1 , T2 q es suficiente minimal para pµ, σ 2 q. Sean x “
px1 , . . . , xn q y y “ py1 , . . . , yn q cualesquiera dos puntos muestrales. Entonces
p2πσ 2 q´n{2 expt´ ni“1 pxi ´ µq2 {2σ 2 u
ř
f px; θq
“
f py; θq p2πσ 2 q´n{2 expt´ ni“1 pyi ´ µq2 {2σ 2 u
ř
expt´ ni“1 x2i {2σ 2 ` µ ni“1 xi {σ 2 u
ř ř
“
expt´ ni“1 yi2 {2σ 2 ` µ ni“1 yi {σ 2 u
ř ř
n n n n
1 ÿ ÿ µ ÿ ÿ
“ expt´ 2 p x2i ´ yi2 q ` 2 p xi ´ yi qu.
2σ i“1 i“1
σ i“1 i“1
Esta cantidad no depende de pµ, σ 2 q ô el exponente es cero
para todo valor de µ y σ 2
ÿn ÿn ÿn n
ÿ
ô xi “ yi y x2i “ yi2
i“1 i“1 i“1 i“1
ô T1 pxq “ T1 pyq y T2 pxq “ T2 pyq.
Por lo tanto, pT1 , T2 q es suficiente minimal para pµ, σ 2 q. ‚
Demostraremos a continuación que toda función biyectiva de una estadı́stica
suficiente minimal es también suficiente minimal. Este resultado es también
válido en el caso vectorial.
Proposición 2.9 Toda función biyectiva de una estadı́stica suficiente
minimal es también suficiente minimal para el mismo parámetro.
Demostración. Veamos primero la suficiencia. Sabemos que toda función
biyectiva de una estadı́stica suficiente es también suficiente por la Proposi-
ción 2.4 de la página 82. De modo que esta propiedad ya es conocida. Ahora
106 2. Estimación puntual
veamos la minimalidad. Sea T la estadı́stica suficiente minimal y sea τ la
función biyectiva. Sea U otra estadı́stica suficiente. Supongamos que x y y
son dos puntos muestrales tales que U pxq “ U pyq. Como T es minimal, T es
función de U , y por lo tanto, T pxq “ T pyq. Entonces pτ ˝ T qpxq “ pτ ˝ T qpyq,
es decir, τ ˝ T es función de U . ‚
Ejemplo 2.49 Para la distribución Berpθq, sabemos que la estadı́stica T “
X1 ` ¨ ¨ ¨ ` Xn es suficiente minimal para θ. Definiendo la función biyectiva
τ ptq “ t{n se obtiene que la estadı́stica τ pT q “ X̄ es también suficiente
minimal para θ. ‚
Ejemplo 2.50 Sabemos que el vector de estadı́sticas pT1 , T2 q dadas por
T1 “ X 1 ` ¨ ¨ ¨ ` X n ,
T2 “ X12 ` ¨ ¨ ¨ ` Xn2 .
es suficiente minimal para el vector de parámetros de la distribución Npµ, σ 2 q.
Defina la función τ pt1 , t2 q “ pt1 {n, t2 {pn ´ 1q ´ t21 {pnpn ´ 1qq. Puede com-
probarse que τ es biyectiva cuando se le considera definida sobre una región
adecuada de R2 y que τ pT1 , T2 q “ pX̄, S 2 q. Por lo tanto, este vector de
estadı́sticas también es suficiente minimal para pµ, σ 2 q. ‚
Métodos para probar suficiencia
1 Usando la Definición 2.20
2 Usando el teorema de factorización 2.3
3 Comprobar que la estadı́stica es una biyección
de otra estadı́stica que sabemos que es suficiente
4 Usando la información de Fisher
5 Usando suficiencia minimal
Figura 2.15
2.13 Suficiencia minimal 107
Ejercicios
123. Sea X1 , . . . , Xn una muestra aleatoria y sea Xpiq la i-ésima estadı́stica
de orden, 1 ď i ď n. Determine si la estadı́stica T indicada es función
de la estadı́stica S.
a) S “ X1 ´ X2 , T “ X1 ` X2 .
b) S “ X1 ` X2 , T “ X1 .
c) S “ X1 ` X2 , T “ X1 ` X2 ` X3 .
d ) S “ X1 ` ¨ ¨ ¨ ` Xn , T “ pX1 ` ¨ ¨ ¨ ` Xn q2 .
e) S “ X1 ` ¨ ¨ ¨ ` Xn , T “ Xpnq .
f ) S “ pX1 , . . . , Xn q, T “ Xpnq .
g) S “ pX1 , . . . , Xn q, T “ Xp1q .
h) S “ X1 ` ¨ ¨ ¨ ` Xn , T “ pXp1q , Xpnq q.
i ) S “ pX1 , . . . , Xn q, T “ pXp1q , Xpnq q.
j ) S “ X1 ` ¨ ¨ ¨ ` Xk , T “ X1 ` ¨ ¨ ¨ ` Xn , 1 ď k ď n ´ 1.
124. Sea X1 , . . . , Xn una muestra aleatoria y sean S, T y U tres estadı́sticas.
Demuestre que
a) (Transitividad) Si U es función de T y T es función de S, entonces
U es función de S.
b) (Simetrı́a) T es siempre función de T .
c) (No reflexividad) Si T es función de S, no necesariamente S es
función de T .
125. El estimador máximo verosı́mil es función de cualquier estadı́stica su-
ficiente. Sea X1 , . . . , Xn una muestra aleatoria de una distribución
f px; θq, con θ desconocido. Suponga que T pX1 , . . . , Xn q es una es-
tadı́stica suficiente para θ y que existe un único estimador θ̂ para
θ por el método de máxima verosimilitud. Demuestre que θ̂ es una
función de T .
126. Sea X1 , . . . , Xn una muestra aleatoria de la distribución especificada
abajo, en donde θ es un parámetro desconocido. Suponga que cualquier
108 2. Estimación puntual
otro parámetro que pudiera aparecer en la distribución es conocido.
Demuestre directamente que la estadı́stica U “ X1 ` ¨ ¨ ¨ ` Xn es
suficiente minimal.
a) binpk, θq. d ) Npθ, σ 2 q.
b) Poissonpθq. e) gammapγ, θq.
c) geopθq.
127. Sea X1 , . . . , Xn una muestra aleatoria de la distribución unifp0, θq.
Demuestre que la última estadı́stica de orden T “ Xpnq es suficiente
minimal para θ.
128. Sea X1 , . . . , Xn una muestra aleatoria de la distribución unifpθ ´ 1, θ `
1q. Defina las estadı́sticas T1 “ Xp1q y Tn “ Xpnq Demuestre que
pT1 , T2 q es suficiente minimal para θ.
129. Suficiencia pero no minimalidad. Sea X1 , . . . , Xn una muestra alea-
toria de la distribución Npθ, σ 2 q. Suponga que n es par y defina la
estadı́stica
T “ X1 ` ¨ ¨ ¨ ` Xn ,
junto con las siguientes estadı́sticas definidas como la suma de las
variables con ı́ndice impar y con ı́ndice par,
T1 “ X1 ` X3 ` ¨ ¨ ¨ ` Xn´1 ,
T2 “ X 2 ` X 4 ` ¨ ¨ ¨ ` X n .
Claramente T “ T1 ` T2 y es inmediato comprobar que T es suficiente
para θ. Demuestre que
a) pT1 , T2 q es suficiente para θ.
b) pT1 , T2 q no puede ser suficiente minimal para θ.
130. Distribución geométrica. Sea X1 , . . . , Xn una muestra aleatoria de la
distribución geopθq, con 0 ă θ ă 1 desconocido, como se muestra
abajo. Demuestre que T “ X1 ` ¨ ¨ ¨ ` Xn es una estadı́stica suficiente
minimal para θ.
#
θp1 ´ θqx si x “ 0, 1, . . .
f px; θq “
0 en otro caso.
2.14 Esperanza condicional 109
131. Distribución uniforme. Sea X1 , . . . , Xn una muestra aleatoria de la
distribución unifpθ ´ 1{2, θ ` 1{2q, en donde θ es desconocido. Deter-
mine si
a) la variable Xp1q es suficiente para θ.
b) la variable Xpnq es suficiente para θ.
c) las variables Xp1q y Xpnq son suficientes minimales conjuntamente
para θ.
132. Distribución uniforme. Sea X1 , . . . , Xn una muestra aleatoria de la
distribución unifp0, θq, con θ ą 0 desconocido. Demuestre que la es-
tadı́stica de orden Xpnq es suficiente minimal para θ.
2.14. Esperanza condicional
Esta sección contiene una revisión breve sobre el concepto de esperanza
condicional de una variable aleatoria respecto de una sigma álgebra. Los
resultados que se mencionan se proporcionan sin demostración y pueden
consultarse, por ejemplo, en el texto de David Williams [8]. Aplicaremos el
concepto de esperanza condicional en las siguiente secciones de este capı́tulo.
Sea pΩ, F , P q un espacio de probabilidad y sea X una variable aleatoria
definida sobre este espacio. Supondremos que la esperanza de X es finita.
Consideremos que G Ď F es una sub σ-álgebra de F .
110 2. Estimación puntual
Definición 2.26 La esperanza condicional de X dado G es una variable
aleatoria denotada por el sı́mbolo EpX | G q y que se define mediante las
siguientes tres propiedades:
1. Es G -medible, esto significa que EpX | G q es una variable aleatoria
respecto de la sub σ-álgebra G .
2. Tiene esperanza finita.
3. Para cualquier evento G en G ,
EpEpX | G q ¨ 1G q “ EpX ¨ 1G q.
Una de las dificultades para entender el concepto de esperanza condicional es
que ésta no se define de manera explı́cita, sino a través de las propiedades
mencionadas. En cursos avanzados de probabilidad se demuestra que la
esperanza condicional existe y es la única variable aleatoria en el sentido casi
seguro que satisface estas tres propiedades. En este trabajo vamos a usar
la esperanza condicional en el caso cuando la sub σ-álgebra G es generada
por una variable aleatoria Y , es decir, G “ σpY q, esto significa que G es la
mı́nima σ-álgebra respecto de la cual Y es variable aleatoria. En este caso
en lugar de escribir EpX | G q se escribe EpX | Y q.
Notación. Cuando G “ σpY q, en donde Y es una variable aleatoria, la
esperanza condicional EpX | G q se escribe EpX | Y q.
Debido a la propiedad de unicidad casi segura, las igualdades o desigual-
dades entre una esperanza condicional y otra variable aleatoria son en el
sentido casi seguro (c.s.), y a menudo omitiremos tal especificación. En ge-
neral no es sencillo encontrar expresiones explı́citas para la esperanza condi-
cional o para su distribución, ni tampoco la definición implı́cita que hemos
dado lı́neas arriba permite su manejo directo. La manera de trabajar con
la esperanza condicional es a través de sus propiedades. Mencionaremos a
continuación algunas de ellas.
2.14 Esperanza condicional 111
1. La esperanza condicional es única casi seguramente. Esto significa que
si existe una variable aleatoria W que cumple las tres condiciones de
la Definición 2.26, entonces W “ EpX | G q c.s.
2. La esperanza condicional es lineal, es decir, si X y Y son variables
aleatorias con esperanza finita y a es una constante, entonces
EpaX ` Y | G q “ a EpX | G q ` EpY | G q.
3. Esta es la propiedad de monotonı́a: si X ď Y son dos variables alea-
torias con esperanzas finitas, entonces
EpX | G q ď EpY | G q.
4. La esperanza de la variable aleatoria EpX | G q es idéntica a la espe-
ranza de X, es decir,
EpEpX | G qq “ EpXq.
5. Si X es G -medible, entonces es inmediato comprobar que X mismo
cumple las tres condiciones de la Definición 2.26 y por la propiedad
de unicidad tenemos que
EpX | G q “ X.
6. Si X es independiente de G , entonces
EpX | G q “ EpXq.
7. Si Y es G -medible y acotada, entonces
EpX ¨ Y | G q “ Y ¨ EpX | G q.
8. Si G1 Ď G2 entonces
EpEpX | G1 q | G2 q “ EpEpX | G2 q | G1 q “ EpX | G1 q.
112 2. Estimación puntual
9. Si Y es discreta con valores 0, 1, . . . entonces
8
ÿ
EpX | Y q “ EpX | Y “ yq ¨ 1pY “yq
y“0
$
’
’ EpX | Y “ 0q si Y “ 0,
&
“ EpX | Y “ 1q si Y “ 1,
% .. ..
’
’
. .
El siguiente ejemplo es un caso particular de la última propedad y ayuda a
entender mejor el concepto de esperanza condicional.
Ejemplo 2.51 Sea Y una variable aleatoria con distribución Berpθq. En-
tonces
EpX | Y q “ EpX | Y “ 0q ¨ 1pY “0q ` EpX | Y “ 1q ¨ 1pY “1q ,
en donde las esperanzas condicionales respecto a eventos, que aquı́ aparecen,
son las usuales de probabilidad elemental. Más explı́citamente,
#
EpX | Y “ 0q si Y pωq “ 0,
EpX | Y qpωq “
EpX | Y “ 1q si Y pωq “ 1.
De esta manera, la variable aleatoria EpX | Y q es dicotómica y su distribu-
ción es
P p EpX | Y q “ EpX | Y “ 0q q “ 1 ´ θ,
P p EpX | Y q “ EpX | Y “ 1q q “ θ.
Ejercicios
133. A partir de la Definición 2.26, demuestre las siguientes propiedades de
la esperanza condicional.
2.15 Teorema de Rao-Blackwell 113
a) EpEpX | G qq “ EpXq.
b) Si X es G -medible entonces EpX | G q “ X.
134. Sea X una variable aleatoria con esperanza finita y sea Y una variable
aleatoria discreta con valores 0, 1, . . . Demuestre directamente que
EpEpX | Y qq “ EpXq.
135. Sea X una variable aleatoria con esperanza finita e independiente de
la variable aleatoria discreta Y con valores 0, 1, . . . Demuestre direc-
tamente que
EpX | Y q “ EpXq.
136. Sea pX, Y q un vector aleatorio discreto con función de probabilidad
como aparece abajo. Encuentre EpX | Y q.
xzy ´1 1
a) 1 1{8 1{4
2 1{8 1{8
3 1{4 1{8
xzy ´1 0 1
b) 1 1{9 1{9 1{9
2 1{9 1{9 1{9
3 1{9 1{9 1{9
2.15. Teorema de Rao-Blackwell
El siguiente resultado establece un procedimiento para mejorar un estimador
insesgado a través de una estadı́stica suficiente. La mejorı́a consiste en que
se propone un nuevo estimador insesgado con varianza menor o igual a la
varianza del estimador insesgado original teniendo como base el cálculo de
una esperanza condicional.
114 2. Estimación puntual
Teorema 2.7 (Rao-Blackwell5 ) Sea T un estimador insesgado para
una función parametral unidimensional τ pθq y sea U una estadı́stica
suficiente para θ. Entonces la variable aleatoria EpT | U q
1. Es una estadı́stica.
2. Es función de la estadı́stica U .
3. Es insesgado para τ pθq.
4. Es tal que se cumple la desigualdad que aparece abajo, con igual-
dad si y sólo si T “ EpT | U q c.s.
VarpEpT | U qq ď VarpT q.
Demostración.
1. Como U es suficiente, la variable aleatoria EpT | U q resulta ser una
función de la muestra aleatoria que no depende de θ, pues para cada
valor u de U ,
EpT | U “ uq “ EpT pX1 , . . . , Xn q | U “ uq
ż
“ T px1 , . . . , xn q f px1 , . . . , xn | U “ uq dx1 ¨ ¨ ¨ dxn ,
Rn
en donde ambos factores de este integrando no dependen de θ.
2. Sean ω1 y ω2 dos puntos muestrales tales que U pω1 q “ U pω2 q. Demos-
traremos que la estadı́stica EpT | U q también toma un mismo valor en
estos dos puntos muestrales. Tenemos que
EpT | U qpω1 q “ EpT | U “ U pω1 qq
“ EpT | U “ U pω2 qq
“ EpT | U qpω2 q.
5
Calyampudi Radhakrishna Rao (1920-), matemático y estadı́stico hindú.
5
David Harold Blackwell (1919–2010), estadı́stico estadounidense.
2.15 Teorema de Rao-Blackwell 115
3. EpEpT | U qq “ EpT q “ τ pθq.
4.
VarpT q “ EpT ´ τ pθqq2
“ ErpT ´ EpT | U qq ` pEpT | U q ´ τ pθqqs2
“ EpT ´ EpT | U qq2 ` EpEpT | U q ´ τ pθqq2
`2EpT ´ EpT | U qqEpEpT | U q ´ τ pθqq.
Usando las propiedades de la esperanza condicional, es inmediato com-
probar que el doble producto que aparece en la última lı́nea se anula.
Por lo tanto,
VarpT q “ EpT ´ EpT | U qq2 ` VarpEpT | U qq
ě VarpEpT | U qq.
Además, esta desigualdad es una igualdad si y sólo si EpT ´EpT | U qq2 “
0. Pero la esperanza de esta variable aleatoria no negativa es cero si y
sólo si la variable misma es cero c.s., esto es, T “ EpT | U q c.s.
De esta manera, un estimador insesgado T puede mejorarse en el sentido
de producir a través de él otro estimador insesgado de varianza menor o
igual a la varianza de T , calculando su esperanza condicional respecto de
alguna estadı́stica suficiente. En lo que resta de esta sección daremos varios
ejemplos de aplicación de este procedimiento.
Ejemplo 2.52 Sea X1 , . . . , Xn una muestra aleatoria de la distribución
Berpθq con θ desconocido. Es inmediato comprobar que la estadı́stica T “
X1 es un estimador insesgado para θ. Por otro lado, sabemos que U “
X1 ` ¨ ¨ ¨ ` Xn es suficiente para θ. Calcularemos EpT | U q encontrando ası́
un mejor estimador insesgado para θ. Sea u P t1, 2, . . . , nu un posible valor
116 2. Estimación puntual
de U . Entonces
EpT | U “ uq “ 1 ¨ P pT “ 1 | U “ uq ` 0 ¨ P pT “ 1 | U “ uq
“ P pX1 “ 1 | X1 ` ¨ ¨ ¨ ` Xn “ uq
P pX1 “ 1q P pX2 ` ¨ ¨ ¨ ` Xn “ u ´ 1q
“
P pX1 ` ¨ ¨ ¨ ` Xn “ uq
`n´1˘ u´1
θ u´1 θ p1 ´ θqpn´1q´pu´1q
“ ` n u
˘
θ p1 ´ θqn´u
ˆ ˙u ˆ ˙
n´1 n
“ {
u´1 u
“ u{n.
De la identidad anterior se obtiene que EpT | U q “ U {n “ X̄. Observemos
que VarpT q “ θp1 ´ θq, mientras que VarpEpT | U qq “ θp1 ´ θq{n. Se verifica
la desigualdad
1
θp1 ´ θq “ VarpEpT | U qq ď VarpT q “ θp1 ´ θq.
n
‚
La siguiente es una situación general que incluye el ejemplo anterior.
Ejemplo 2.53 Sea X1 , . . . , Xn una muestra aleatoria de una distribución
dependiente de un parámetro desconocido θ y tal que su media es θ mismo.
Las distribuciones Poissonpθq y Npθ, σ 2 q son ejemplos de esta situación. Es
claro que la estadı́stica T “ X1 es un estimador insesgado para θ. Suponga-
mos que U “ X1 ` ¨ ¨ ¨ ` Xn es suficiente para θ. Entonces, para cualquier
posible valor u de U , por la hipótesis de idéntica distribución
EpT | U “ uq “ EpX1 | X1 ` ¨ ¨ ¨ ` Xn “ uq
1
“ EpX1 ` ¨ ¨ ¨ ` Xn | X1 ` ¨ ¨ ¨ ` Xn “ uq
n
u
“ .
n
Esto demuestra que EpT | U q “ U {n “ X̄. Este es el estimador inses-
gado mejorado por el procedimiento de Rao-Blackwell y su varianza es
2.15 Teorema de Rao-Blackwell 117
1
VarpEpT | U qq “ n VarpT q. Se verifica la desigualdad
1
VarpT q “ VarpEpT | U qq ď VarpT q.
n
‚
Ejemplo 2.54 Supongamos nuevamente que X1 , . . . , Xn es una muestra
aleatoria de la distribución Berpθq, con θ desconocido. Sea τ pθq “ θp1 ´ θq.
La estadı́stica T “ X1 p1 ´ X2 q es un estimador insesgado para la función
parametral τ pθq pues, por la hipótesis de independencia,
EpT q “ EpX1 p1 ´ X2 qq “ EpX1 q Ep1 ´ X2 q “ θp1 ´ θq.
Sea U “ X1 ` ¨ ¨ ¨ ` Xn . Sabemos que U es suficiente para θ y por lo tanto
también lo es para τ pθq. Encontraremos el estimador insesgado mejorado por
el procedimiento de Rao-Blackwell para τ pθq usando el estimador insesgado
inicial T y la estadı́stica suficiente U . Sea u P t0, 1, . . . , nu un posible valor
de U . Entonces
EpT | U “ uq “ EpX1 p1 ´ X2 q | U “ uq
“ EpX1 | U “ uq ´ EpX1 X2 | U “ uq
u
“ ´ 1 ¨ P pX1 “ 1, X2 “ 1 | U “ uq
n
u P pX1 “ 1, X2 “ 1, X3 ` ¨ ¨ ¨ ` Xn “ u ´ 2q
“ ´
n P pX1 ` ¨ ¨ ¨ ` Xn “ uq
2
`n´2˘ u´2
u θ u´2 θ p1 ´ θqn´u
“ ´ `n˘
n θu p1 ´ θqn´u
`n´2˘u
u
“ ´ u´2
`n˘
n u
u upu ´ 1q
“ ´
n npn ´ 1q
n u u
“ p1 ´ q.
n´1n n
n U U
Por lo tanto, EpT | U q “ n´1 n p1 ´ n q. Este es el estimador insesgado me-
jorado para τ pθq “ θp1 ´ θq. Sin mucha dificultad puede comprobarse que
VarpT q “ θp1 ´ θqp1 ´ θ ` θ2 q.
118 2. Estimación puntual
y, haciendo el cálculo adicional, se comprueba que
VarpEpT | U qq ď VarpT q.
‚
Ejemplo 2.55 Sea X1 , . . . , Xn una muestra aleatoria de la distribución
Npµ, σ 2 q con µ desconocido pero σ 2 conocida. El estimador T “ X1 es
insesgado para µ. Por otro lado, U “ X̄ es suficiente. Deseamos encontrar
el estimador insesgado mejorado EpT | U q. Para cualquier valor t de T y
cualquier valor u de U ,
fT,U pt, uq
fT | U pt | uq “
fU puq
fX1 ,pX1 `¨¨¨`Xn q{n pt, uq
“
fU puq
fX1 ,X1 `¨¨¨`Xn pt, nuq
“
fU puq
fX1 ,X2 `¨¨¨`Xn pt, nu ´ tq
“
fU puq
fX1 ptq fX2 `¨¨¨`Xn pnu ´ tq
“ .
fU puq
Las tres funciones de densidad que aparecen en la última expresión son nor-
males con ciertos parámetros. Substituyendo estas funciones y simplificando
se encuentra que esta función de densidad es Npu, p1´1{nqσ 2 q. Por lo tanto,
la esperanza de esta función de densidad condicional es EpT | U “ uq “ u “
x̄, de donde se concluye que EpT | U q “ X̄. La varianza de esta variable
aleatoria es VarpEpT | U qq “ σ 2 {n. Se verifica entonces la desigualdad
1 2
σ “ VarpEpT | U qq ď VarpT q “ σ 2 .
n
‚
Ejercicios
137. —
2.16 Completez 119
2.16. Completez
Sea X1 , . . . , Xn una muestra aleatoria de una distribución con función de
densidad o de probabilidad f px; θq, dependiente de un parámetro descono-
cido θ. Supongamos que θ toma valores en un cierto espacio parametral Θ.
Sea T una estadı́stica y sea fT pt; θq su función de densidad o de probabili-
dad, que también depende de θ. En esta sección definiremos el concepto de
completez para la familia de funciones de densidad o de probabilidad
t fT pt; θq : θ P Θ u.
Definición 2.27 Se dice que una estadı́stica T o su familia de funciones
de densidad o de probabilidad
t fT pt; θq : θ P Θ u
es completa si para cualquier función h se cumple la implicación
EphpT qq “ 0 ñ hpT q “ 0 c.s. (2.18)
Observe que no hemos especificado el dominio de la función h, pero éste
debe contener al conjunto de valores de la estadı́stica T , de tal forma que la
composición hpT q tiene sentido. Supondremos que tal composición es tam-
bién una variable aleatoria y que tiene esperanza finita. Otra observación
importante es que, en general, la esperanza EphpT qq depende del paráme-
tro desconocido θ, ası́ es que la condición EphpT qq “ 0 que aparece en la
definición anterior debe cumplirse para todo valor posible del parámetro θ.
En la siguiente sección veremos la utilidad de la propiedad de completez de
una estadı́stica cuando se conjunte con la propiedad de suficiencia. Estas
propiedades para una estadı́stica aparecen como hipótesis en el bastante
útil teorema de Lehmann-Scheffé. Regresando a la definición de completez,
en general no es fácil comprobar su cumplimiento. El siguiente ejemplo, sin
embargo, es particularmente sencillo.
120 2. Estimación puntual
Ejemplo 2.56 (Caso discreto) Sea X1 , . . . , Xn una muestra aleatoria de
la distribución Berpθq, en donde 0 ă θ ă 1 es desconocido. Demostraremos
que la estadı́stica T “ X1 ` ¨ ¨ ¨ ` Xn es completa. Sea h una función cual-
quiera tal que EphpT qq “ 0. Como T tiene distribución binpn, θq, tenemos
que
n ˆ ˙
ÿ n t
EphpT qq “ hptq θ p1 ´ θqn´t
t“0
t
n ˆ ˙
n
ÿ n
“ p1 ´ θq hptq pθ{p1 ´ θqqt .
t“0
t
La última suma indicada corresponde a un polinomio en la variable α “
θ{p1 ´ θq. Para que este polinomio en α sea cero para cualquier posible valor
de α, sus coeficientes deben ser todos forzosamente cero, esto es, para cada
t “ 0, 1, . . . ˆ ˙
n
hptq “ 0.
t
Esto implica que hptq “ 0 para cada t “ 0, 1, . . ., es decir, hpT q “ 0. De esta
manera hemos comprobado que T es una estadı́stica completa. ‚
Veamos otro ejemplo, esta vez cuando la distribución de probabilidad invo-
lucrada es continua.
Ejemplo 2.57 (Caso continuo) Sea X1 , . . . , Xn una muestra aleatoria de
la distribución unifp0, θq, en donde θ ą 0 es desconocido. Demostraremos
que la estadı́stica T “ máxtX1 , . . . , Xn u es completa. Observemos primero
que T tiene como posibles valores el intervalo p0, θq y recordemos que su
función de distribución es
FT ptq “ P pmáxtX1 , . . . , Xn u ď tq
“ pP pX1 ď tqqn
$
’
’ 0 si t ď 0,
& ˆ t ˙n
’
“ si 0 ă t ă θ,
’
’ θ
’
1 si t ě 1.
%
2.16 Completez 121
Por lo tanto, $ ˆ ˙
n´1
& n t
’
si 0 ă t ă θ,
fT ptq “ θ θ
’
% 0 en otro caso.
Sea entonces h una función cualquiera tal que EphpT qq “ 0. Para cualquier
valor θ ą 0,
żθ ˆ ˙n´1
n θ
ż
n t
0“ hptq dt “ n hptq tn´1 dt.
0 θ θ θ 0
Esto implica que la integral se anula para cualquier θ ą 0. Derivando esta
integral respecto de θ y suponiendo continuidad para la función h, se obtiene
que hpθq θn´1 “ 0 para cualquier θ ą 0. Esto se cumple cuando hpθq “ 0
para cualquier θ ą 0, es decir, hpT q “ 0. Esto demuestra que T es completa.
‚
Observemos que para demostrar la no completez de una estadı́stica T es
suficiente dar una función h que no sea idénticamente cero en el conjunto
de valores de T y tal que ErhpT qs “ 0. Veremos a continuación un ejemplo
de esta situación.
Ejemplo 2.58 (No completez) Supongamos que una estadı́stica T tiene
función de densidad f pt; θq dada por la distribución Np0, θq, es decir,
1 2
f pt; θq “ ? e´t {2θ , ´8 ă t ă 8,
2πθ
en donde el parámetro θ ą 0 es la varianza de la distribución y la media es
cero. Entonces es fácil comprobar que T , o la familia de densidades
t f pt; θq : 0 ă θ ă 8 u,
no es completa pues para la función hptq “ t, que es distinta de cero, se
cumple la condición ż8
hptq f pt; θq dt “ 0.
´8
‚
122 2. Estimación puntual
Es interesante observar que la propiedad de completez de una estadı́stica de-
pende fuertemente del espacio parametral Θ que se considere como conjunto
de posibles valores para θ. En efecto, la implicación (2.18) que aparece en la
Definición 2.27 debe cumplirse para todo valor de θ en Θ. Si este conjunto
se reduce la completez puede perderse.
Completez para vectores de estadı́sticas
La definición de completez para una estadı́stica T es también válida para
un vector de estadı́sticas T “ pT1 , . . . , Tk q. En este caso la función real h
que se utiliza debe tener como dominio un subconjunto de Rk .
Como en el caso unidimensional, se pueden dar ejemplos de vectores de
estadı́sticas que no satisfacen la propiedad de completez.
Preservación de la completez bajo biyecciones
Demostraremos a continuación que la propiedad de completez permanece
invariante bajo transformaciones biyectivas.
Teorema 2.8 Toda función biyectiva de una estadı́stica (o vector de
estadı́sticas) completa(s) también es completa.
Demostración. Consideremos el caso vectorial. Sea T “ pT1 , . . . , Tk q un
vector de estadı́sticas completo. Es decir, para cualquier función real h con
dominio adecuado, la condición EphpT qq “ 0 implica que hpT q “ 0 c.s. Sea
ϕ una función biyectiva tal que ϕpT q es un vector aleatorio de dimensión k
y con esperanza finita. Sea g una función real cualquiera con dominio en un
subconjunto de Rk tal que EpgpϕpT qqq “ 0. Es decir, Eppg ˝ ϕqpT qq “ 0. La
completez de T implica que pg ˝ ϕqpT q “ 0 c.s., es decir, gpϕpT qq “ 0 c.s.
Esto demuestra la completez de ϕpT q. ‚
Para concluir esta sección mencionaremos que un apéndice se presenta un
ejemplo general de completez para cierta estadı́stica en la familia exponen-
cial.
2.16 Completez 123
Ejercicios
138. Sea X1 , . . . , Xn una muestra aleatoria de la distribución especificada
abajo, en donde θ es un parámetro desconocido. Suponga que cualquier
otro parámetro que pudiera aparecer en la distribución es conocido.
Demuestre directamente que la estadı́stica U “ X1 ` ¨ ¨ ¨ ` Xn es
completa.
a) binpk, θq. d ) Npθ, σ 2 q.
b) Poissonpθq. e) gammapγ, θq.
c) geopθq.
139. Distribución uniforme. Sea T “ |X1 |, en donde X1 es una muestra
aleatoria de tamaño n “ 1 de la distribución unifp´θ, θq, con θ ą 0
desconocido. Determine si T es una estadı́stica completa.
140. Sea X1 , . . . , Xn una muestra aleatoria de la distribución Poissonpθq
con θ ą 0 desconocido. Demuestre que la estadı́stica
a) T “ X1 ` ¨ ¨ ¨ ` Xk es completa, 1 ď k ď n.
b) T “ pX1 , . . . , Xk q no es completa, 2 ď k ď n.
141. Sea f px; θq la función de densidad de la distribución unifp´θ, θq, con
θ ą 0. Demuestre que la familia de densidades tf px; θq : 0 ă θ ă 8u
no es completa.
142. Sea f px; θq la función de densidad de la distribución Np0, θq, con θ ą 0.
Demuestre que la familia de densidades tf px; θq : 0 ă θ ă 8u no es
completa.
143. Demuestre que cada una de las siguientes familias de distribuciones
no son completas.
a) unifp´θ, θq con θ ą 0.
b) Np0, θq con θ ą 0.
124 2. Estimación puntual
2.17. Teorema de Lehmann-Scheffé
Finalmente llegamos al siguiente resultado importante que nos permite cons-
truir insesgadores insesgados de varianza mı́nima a partir de ciertos elemen-
tos.
Teorema 2.9 (Teorema de Lehmann-Scheffé6 ) Sea T un estimador
insesgado para la función parametral unidimensional τ pθq, en donde θ
puede ser un vector de parámetros. Sea U una estadı́stica suficiente y
completa para θ. Entonces el estimador EpT | U q
1. es único en el sentido casi seguro, que es función de U y es insesgado
para τ pθq.
2. tiene varianza mı́nima dentro del espacio de todos los estimadores
insesgados para τ pθq que son funciones de U .
3. tiene varianza mı́nima, es decir, es el UMVUE para τ pθq.
Demostración.
1. Unicidad. Por el teorema de Rao-Blackwell sabemos que EpT | U q es
función de U y es insesgado para τ pθq. Sea W otro estimador para τ pθq
con estas dos caracterı́sticas. Defina la función hpU q “ W ´ EpT | U q.
Entonces
EphpU qq “ EpW q ´ EpEpT | U qq “ τ pθq ´ τ pθq “ 0.
Como U es completa, hpU q “ 0 c.s. Es decir, W “ EpT | U q c.s.
2. Demostraremos primero que EpT | U q tiene varianza mı́nima dentro
del espacio de todos los estimadores insesgados para τ pθq que son
funciones de U . Sea W cualquier estimador para τ pθq con estas dos
caracterı́sticas. Por el teorema de Rao-Blackwell,
VarpEpW | U qq ď VarpW q,
6
Erich Leo Lehmann (1917-2009), estadı́stico estadounidense.
6
Henry Scheffé (1907-1977), matemático y estadı́stico estadounidense.
2.17 Teorema de Lehmann-Scheffé 125
pero por la propiedad de unicidad demostrada en el inciso anterior,
tenemos que W “ EpT | U q c.s. Esto es,
VarpEpEpT | U q | U qq ď VarpW q.
De aquı́ se obtiene que VarpEpT | U qq ď VarpW q, es decir, el estima-
dor EpT | U q tiene varianza mı́nima dentro del espacio de todos los
estimadores insesgados para τ pθq que son funciones de U .
3. Sea W cualquier estimador insesgado para τ pθq pero que no necesa-
riamente es función de U . Sin embargo, EpW | U q es función de U , de
modo que por el teorema de Rao-Blackwell primero y después por lo
demostrado en el inciso anterior tenemos que
VarpW q ě VarpEpW | U qq
ě VarpEpT | U qq.
Es decir, la varianza de W es por lo menos la varianza de EpT | U q. Su-
pongamos que la varianza de W alcanza este valor mı́nimo. Entonces
las desigualdades anteriores son en realidad igualdades. Esto implica
que VarpW q “ VarpEpW | U qq. Por el teorema de Rao-Blackwell nue-
vamente, W “ EpW | U q c.s., es decir, resulta que W es realmente
función de U c.s. Por el inciso anterior, W “ EpT | U q c.s.
Del resultado general anterior se desprenden los siguientes casos particulares
que permiten encontrar el UMVUE para una función parametral τ pθq.
Corolario 2.1 Sea U una estadı́stica suficiente y completa para θ. Si
la función gpU q es un estimador insesgado para τ pθq, entonces gpU q es
el UMVUE para τ pθq.
Demostración. Sea T “ gpU q. Entonces EpT | U q “ gpU q c.s. ‚
126 2. Estimación puntual
Corolario 2.2 Si T es un estimador insesgado para τ pθq, y suficiente
y completo para θ, entonces T es el UMVUE para τ pθq.
Demostración. EpT | T q “ T c.s. ‚
Ejercicios
144. Distribución Berpθq: UMVUE para τ pθq “ θ ` p1 ´ θqe2 .
Sea X1 , . . . , Xn una muestra aleatoria de la distribución Berpθq, con θ
desconocido. Defina la función parametral τ pθq “ θ ` p1 ´ θqe2 .
a) Encuentre un estimador insesgado T para τ pθq y compruebe que
lo es.
b) Considere la estadı́stica suficiente y completa U “ X1 ` ¨ ¨ ¨ ` Xn .
Para cada valor u de U , calcule EpT | U “ uq.
c) Use el teorema de Lehmann-Scheffé para encontrar el UMVUE
para τ pθq.
145. Distribución geo(θ): UMVUE para θ.
Sea X1 , . . . , Xn una muestra aleatoria de la distribución geopθq, con
θ desconocido. Nos interesa estimar el parámetro θ. Sabemos que la
estadı́stica U “ X1 ` ¨ ¨ ¨ ` Xn es suficiente y completa para θ y que
el estimador máximo verosı́mil es
1
T “ .
1 ` X̄
Demuestre los siguientes resultados que llevan a encontrar el UMVUE
para θ. Se verifica que la varianza del UMVUE alcanza la cota inferior
de Cramér-Rao.
a) Demuestre que T es insesgado para θ.
99K b) Calcule VarpT q.
c) Calcule EpT | U q. Este es el UMVUE para θ.
2.17 Teorema de Lehmann-Scheffé 127
d ) Calcule VarpEpT | U qq.
e) Calcule CICRpθq.
f ) Compruebe que CICRpθq “ VarpEpT | U qq ď VarpT q.
146. Distribución Poisson(θ): UMVUE para θ.
Sea X1 , . . . , Xn una muestra aleatoria de la distribución Poissonpθq,
con n ě 2 y θ ą 0 desconocido. Nos interesa estimar el parámetro θ.
Sabemos que la estadı́stica U “ X1 ` ¨ ¨ ¨ ` Xn es suficiente y completa
para θ. Defina el estimador
1
T “ pX1 ` X2 q.
2
Demuestre los siguientes resultados que llevan a encontrar el UMVUE
para θ. Se verifica que la varianza del UMVUE alcanza la cota inferior
de Cramér-Rao.
a) T es insesgado para θ.
b) VarpT q “ θ{2.
c) EpT | U q “ X̄. Este es el UMVUE para θ.
d ) VarpEpT | U qq “ θ{n.
e) CICRpθq “ θ{n.
f ) CICRpθq “ VarpEpT | U qq ď VarpT q.
147. Distribución Poissonpθq: UMVUE para τ pθq “ e´θ .
Sea X1 , . . . , Xn una muestra aleatoria de la distribución Poissonpθq,
con θ ą 0 desconocido.
a) Demuestre que la estadı́stica T “ 1t0u pX1 q es un estimador in-
sesgado para la función parametral τ pθq “ e´θ .
b) Demuestre que la estadı́stica U “ X1 `¨ ¨ ¨`Xn es suficiente para
θ.
c) Demuestre que U es una estadı́stica suficiente minimal para θ.
d ) El procedimiento de Rao-Blackwell sugiere encontrar EpT | U q.
Demuestre que
n´1 U
ˆ ˙
EpT | U q “ .
n
128 2. Estimación puntual
e) Demuestre que VarpT q “ e´θ p1 ´ e´θ q.
f ) Recuerde que si X es una variable aleatoria con distribución
Poissonpθq, entonces su f.g.p. está dada por
Gptq “ EptX q “ eθpt´1q .
Use la expresión anterior para demostrar que
VarpEpT | U qq “ e´2θ peθ{n ´ 1q.
g) Demuestre que para la función parametral τ pθq “ e´θ ,
θ ´2θ
CICRpθq “ e .
n
h) Demuestre que
CICRpθq ă VarpEpT | U qq ď VarpT q.
i ) Con únicamente la información anterior, ¿qué puede decir de
EpT | U q?
j ) Demuestre que U es una estadı́stica completa.
k ) ¿Qué puede decir ahora de EpT | U q?
148. Distribución Poisson(θ): UMVUE para θ e´θ .
Sea X1 , . . . , Xn una muestra aleatoria de la distribución Poissonpθq,
con θ ą 0 desconocido. Nos interesa estimar la función parametral
τ pθq “ θ e´θ . Sabemos que la estadı́stica U “ X1 `¨ ¨ ¨`Xn es suficiente
y completa para θ. Defina el estimador
T “ 1t1u pX1 q.
Demuestre los siguientes resultados que llevan a encontrar el UMVUE
para τ pθq. Se verifica que la varianza del UMVUE alcanza la cota
inferior de Cramér-Rao.
a) T es insesgado para τ pθq.
b) VarpT q “ θ e´θ p1 ´ θ e´θ q.
2.17 Teorema de Lehmann-Scheffé 129
` n´1 ˘nX̄´1
c) EpT | U q “ n X̄. Este es el UMVUE para τ pθq.
d ) VarpEpT | U qq “ e´2θ`θ{n θ
n p1 ` pn ´ 1q2 nθ q ´ e´2θ θ2 .
θp1 ´ θq2
e) CICRpθq “ e´2θ , para τ pθq “ θ e´θ .
n
f ) CICRpθq ď VarpEpT | U qq ď VarpT q.
149. Distribución exppθq: UMVUE para θ.
Sea X1 , . . . , Xn una muestra aleatoria de la distribución exppθq, con
θ ą 0 desconocido. Sabemos que la estadı́stica T “ X1 ` ¨ ¨ ¨ ` Xn es
suficiente y completa para θ.
a) Demuestre que la estadı́stica pn´1q{T es un estimador insesgado
para θ.
b) Concluya que pn ´ 1q{T es el UMVUE para θ.
c) Calcule la varianza del UMVUE encontrado en el inciso anterior
y compare con la cota inferior de Cramér-Rao.
150. Distribución Npθ, σ 2 q: UMVUE para θ.
Sea X1 , . . . , Xn una muestra aleatoria de la distribución Npθ, σ 2 q, con
θ desconocido y σ 2 conocido. Nos interesa estimar el parámetro θ.
Sabemos que la estadı́stica U “ X1 ` ¨ ¨ ¨ ` Xn es suficiente y completa
para θ. Defina el estimador
T “ X1 .
Demuestre los siguientes resultados que llevan a encontrar el UMVUE
para θ. Se verifica que la varianza del UMVUE alcanza la cota inferior
de Cramér-Rao.
a) Demuestre que T es insesgado para θ.
b) Calcule VarpT q.
c) Calcule EpT | U q. Este es el UMVUE para θ.
d ) Calcule VarpEpT | U qq.
e) Calcule CICRpθq.
f ) Compruebe que CICRpθq ď VarpEpT | U qq ď VarpT q.
130 2. Estimación puntual
151. Distribución Npθ, σ 2 q: UMVUE para θ2 .
Sea X1 , . . . , Xn una muestra aleatoria de la distribución Npθ, σ 2 q, con θ
desconocido y σ 2 conocido. Nos interesa estimar la función parametral
τ pθq “ θ2 . Sabemos que la estadı́stica U “ X1 ` ¨ ¨ ¨ ` Xn es suficiente
y completa para θ. Defina el estimador
T “ X12 ´ σ 2 .
Demuestre los siguientes resultados que llevan a encontrar el UMVUE
para θ2 . Se verifica que la varianza del UMVUE alcanza la cota inferior
de Cramér-Rao.
a) Demuestre que T es insesgado para θ2 .
b) Calcule VarpT q.
c) Calcule EpT | U q. Este es el UMVUE para θ2 .
d ) Calcule VarpEpT | U qq.
e) Calcule CICRpθq.
f ) Compruebe que CICRpθq ď VarpEpT | U qq ď VarpT q.
152. Distribución Npθ, σ 2 q: UMVUE para P pX1 ą aq.
Sea X1 , . . . , Xn una muestra aleatoria de la distribución Npθ, σ 2 q, con
θ desconocido y σ 2 conocido. Sea a una constante cualquiera. Nos
interesa estimar la función parametral τ pθq “ P pX1 ą aq. Sabemos
que la estadı́stica U “ X1 ` ¨ ¨ ¨ ` Xn es suficiente y completa para θ.
Defina el estimador
T “ 1pa,8q pX1 q.
Demuestre los siguientes resultados que llevan a encontrar el UMVUE
para P pX1 ą aq. Se verifica que la varianza del UMVUE alcanza la
cota inferior de Cramér-Rao.
a) Demuestre que T es insesgado para τ pθq “ P pX1 ą aq.
b) Calcule VarpT q.
c) Calcule EpT | U q. Este es el UMVUE para τ pθq “ P pX1 ą aq.
d ) Calcule VarpEpT | U qq.
e) Calcule CICRpθq.
2.17 Teorema de Lehmann-Scheffé 131
f ) Compruebe que CICRpθq ď VarpEpT | U qq ď VarpT q.
153. Distribución Npθ, σ 2 q: UMVUE para P p|X1 | ď aq.
Sea X1 , . . . , Xn una muestra aleatoria de la distribución Npθ, σ 2 q, con
θ desconocido y σ 2 conocido. Sea a ą 0 una constante. Nos interesa
estimar la función parametral τ pθq “ P p|X1 | ď aq. Sabemos que la
estadı́stica U “ X1 ` ¨ ¨ ¨ ` Xn es suficiente y completa para θ. Defina
el estimador
T “ 1p0,aq p|X1 |q.
Demuestre los siguientes resultados que llevan a encontrar el UMVUE
para P p|X1 | ď aq. Se verifica que la varianza del UMVUE alcanza la
cota inferior de Cramér-Rao.
a) Demuestre que T es insesgado para τ pθq “ P p|X1 | ď aq.
b) Calcule VarpT q.
c) Calcule EpT | U q. Este es el UMVUE para τ pθq “ P p|X1 | ď aq.
d ) Calcule VarpEpT | U qq.
e) Calcule CICRpθq.
f ) Compruebe que CICRpθq ď VarpEpT | U qq ď VarpT q.
154. Sea X1 , . . . , Xn una muestra aleatoria de la distribución f px; θq que se
especifica abajo, en donde θ ą 0 es desconocido.
#
e´px´θq si x ą θ,
f px; θq “
0 en otro caso.
a) Demuestre que la estadı́stica Xp1q ´ 1{n es suficiente, completa e
insesgada para θ.
b) Encuentre el UMVUE para θ.
155. Sea X1 , . . . , Xn una muestra aleatoria de la distribución f px; θq que
se especifica abajo, en donde řn θ ą 0 es desconocido. Sabemos que la
estadı́stica T “ ´pn ´ 1q{ i“1 ln Xi es un estimador insesgado para
θ (Ejercicio 50).
#
θxθ´1 si 0 ă x ă 1; θ ą 0,
f px; θq “
0 en otro caso.
132 2. Estimación puntual
a) Demuestre que la media geométrica pX1 ¨ ¨ ¨ Xn q1{n es una es-
tadı́stica suficiente y completa para θ.
b) Encuentre el UMVUE para θ.
156. Sea X1 , . . . , Xn una muestra aleatoria de la distribución f px; θq que se
especifica abajo, en donde θ ą 0 es desconocido.
#
θ2 xe´θx si x ą 0,
f px; θq “
0 en otro caso.
a) Demuestre que la estadı́stica U “ X1 ` ¨ ¨ ¨ ` Xn es suficiente y
completa para θ.
b) Calcule Ep1{U q.
c) Encuentre una función de U que sea insesgada para θ. Use el
teorema de Lehmann-Scheffé para concluir que esta función es el
UMVUE para θ.
Capı́tulo 3
Estimación por intervalos
En algunos casos es preferible no dar un número como estimación de un
parámetro desconocido, sino un intervalo de posibles valores. En este tipo
de estimación se busca un intervalo de tal forma que se pueda afirmar, con
cierto grado de confiabilidad, que dicho intervalo contiene el verdadero valor
del parámetro desconocido. A este tipo de intervalos se les llama intervalos
de confianza y fueron introducidos por Jerzy Neyman1 en 1937.
En este capı́tulo se estudia brevemente el tema de estimación de parámetros
usando intervalos. Explicaremos los conceptos básicos y proporcionaremos
algunos ejemplos particulares de la forma en la que pueden encontrarse
intervalos de confianza.
3.1. Definiciones
Como antes, consideraremos que tenemos una cierta variable aleatoria de
nuestro interés y que ésta tiene función de densidad o de probabilidad co-
nocida f px; θq, pero dependiente de un parámetro desconocido θ, el cual
deseamos estimar con base en una muestra aleatoria X1 , . . . , Xn de esta
distribución. Aquı́ tenemos la definición de intervalo de confianza.
1
Jerzy Neyman (1894-1981), matemático y estadı́stico polaco.
133
134 3. Estimación por intervalos
Definición 3.1 Sea α P p0, 1q un número fijo dado. Un intervalo de
confianza para un parámetro desconocido θ de una distribución de pro-
babilidad es un intervalo aleatorio de la forma pθ̂1 , θ̂2 q, en donde θ̂1 y θ̂2
son estadı́sticas (funciones de una muestra aleatoria) tales que
P pθ̂1 ă θ ă θ̂2 q “ 1 ´ α. (3.1)
A las estadı́sticas θ̂1 y θ̂2 se les conoce como lı́mites inferior y superior,
respectivamente, del intervalo de confianza. Al número 1 ´ α se le conoce
como grado o coeficiente de confianza. En general, se toma el valor de α
cercano a cero de tal forma que el grado de confianza, 1 ´ α, sea cercano
a uno. En la práctica es común tomar α “ 0.05, de modo que el grado de
confianza es 1´α “ 0.95 . Decimos entonces que el grado de confianza es del
95 %. Observe que las estadı́sticas θ̂1 y θ̂2 dependen de una muestra aleatoria
X1 , . . . , Xn , de modo que al tomar estas variables aleatorias distintos valores
se generan distintos intervalos de confianza. Esta situación se ilustra en la
Figura 3.1.
Muestra 1
Muestra 2
Muestra 3
Muestra 4
Muestra 5
Figura 3.1
Observe además que no es correcto decir “la probabilidad de que θ perte-
nezca al intervalo pθ̂1 , θ̂2 q es 1 ´ α”, pues, en nuestra perspectiva clásica, el
parámetro θ no es un elemento aleatorio. En cambio, se dice “la probabi-
3.2 Distribución Bernoulli 135
lidad de que el intervalo pθ̂1 , θ̂2 q contenga el valor de θ es 1 ´ α”. De esta
forma se entiende que θ es constante, aunque desconocido, y el intervalo es el
que cambia dependiendo de la muestra aleatoria. Naturalmente el problema
fundamental es el siguiente.
¿Cómo encontrar θ̂1 y θ̂2 de tal forma que la igualdad (3.1) se cumpla?
El método pivotal es una manera general de resolver este problema. Este
método supone poder encontrar una función de la muestra y del parámetro
desconocido, qpX1 , . . . , Xn ; θq, con distribución de probabilidad completa-
mente conocida (no dependiente de θ), de tal manera que puedan determi-
narse dos números a ă b tales que
P pa ă qpX1 , . . . , Xn ; θq ă bq “ 1 ´ α.
Después, a partir de esta expresión, se debe buscar desprender el término θ
del evento determinado por las dos desigualdades anteriores y encontrar una
expresión de la forma (3.1). A la función qpX1 , . . . , Xn ; θq se le llama canti-
dad pivotal pues de ella debe poder obtenerse el término θ. En las siguientes
secciones mostraremos la forma de resolver este problema en algunos casos
particulares.
3.2. Distribución Bernoulli
Supongamos que una cierta variable de interés X tiene distribución Berpθq,
en donde el parámetro θ es desconocido. Deseamos estimar este parámetro
mediante un intervalo de confianza. Sea X1 , . . . , Xn una muestra aleatoria
de esta distribución. Haremos uso del hecho de que un estimador puntual
para θ es X̄, en donde EpX̄q “ θ y VarpX̄q “ θp1 ´ θq{n. Por el teorema
central del lı́mite, de manera aproximada,
X̄ „ Npθ, θp1 ´ θq{nq.
Puede entonces encontrarse un valor zα{2 ą 0 tal que se cumple lo siguiente.
Véase la Figura 3.2.
X̄ ´ θ
P p´zα{2 ă a ă zα{2 q « 1 ´ α. (3.2)
θp1 ´ θq{n
136 3. Estimación por intervalos
φpxq
1´α
α{2 α{2
x
´zα{2 zα{2
Figura 3.2
El problema aquı́ es resolver para θ estas dos desigualdades. Presentamos a
continuación tres formas en que tal tarea puede llevarse a cabo de manera
aproximada.
Primera solución
Una simplificación al problema planteado consiste en substituir el denomi-
nador θp1 ´ θq{n por la estimación puntual X̄p1 ´ X̄q{n. Esta substitución
producirá una aproximación al intervalo buscado pero la dificultad del pro-
blema se reduce considerablemente. Tenemos entonces la expresión
X̄ ´ θ
P p´zα{2 ă a ă zα{2 q « 1 ´ α.
X̄p1 ´ X̄q{n
Resolviendo las dos desigualdades para θ se obtiene el intervalo aproximado
? ?
X̄p1´X̄q X̄p1´X̄q
P pX̄ ´ zα{2 n ă θ ă X̄ ` zα{2 n q « 1 ´ α.
Segunda solución
Otra alternativa para desprender el parámetro θ es usar la desigualdad
θp1 ´ θq ď 1{4 para el denominador que aparece en (3.2). De esta forma se
tiene la siguiente cota superior
a 1
θp1 ´ θq{n ď ? .
2 n
3.2 Distribución Bernoulli 137
Utilizando esto en (3.2) se obtiene
´zα{2 zα{2
P p ? ă X̄ ´ θ ă ? q « 1 ´ α.
2 n 2 n
En consecuencia, tenemos el siguiente intervalo aproximado
zα{2 zα{2
P p X̄ ´ ? ă θ ă X̄ ` ? q « 1 ´ α.
2 n 2 n
Tercera solución
Como una tercera alternativa, observemos
a que el evento en cuestión pue-
de escribirse como p|X̄ ´ θ| ă zα{2 θp1 ´ θq{nq. Elevando al cuadrado y
desarrollando se llega a la desigualdad
θ2 p1 ` zα{2
2 2
{nq ` θp´2X̄ ´ zα{2 {nq ` X̄ 2 ă 0.
Considerando la igualdad, las raı́ces de esta ecuación cuadrática en θ son
2
θ1 “ X̄{p1 ` zα{2 {nq,
2 2
θ2 “ pX̄ ` zα{2 {nq{p1 ` zα{2 {nq.
Por lo tanto, la ecuación cuadrática es negativa cuando θ1 ă θ ă θ2 , es
decir, se tiene entonces el intervalo de confianza no simétrico
2 {n
X̄ ` zα{2
X̄
Pp 2 {n ă θ ă 1 ` z 2 {n q « 1 ´ α.
1 ` zα{2 α{2
El intervalo encontrado sigue siendo una aproximación pues tiene como pun-
to de partida la expresión (3.2).
Ejemplo 3.1 Se han inspeccionado 92 artı́culos producidos por una cierta
maquinaria de los cuales 7 artı́culos resultaron con algún tipo de defecto.
Encontraremos un intervalo de confianza al 90 % para la proporción desco-
nocida de artı́culos defectuosos que se producen por esta maquinaria. Cla-
ramente este problema puede modelarse mediante la distribución Berpθq, en
138 3. Estimación por intervalos
donde el parámetro θ es la proporción desconocida que deseamos estimar.
Usaremos el intervalo aproximado dado por
b b
P pX̄ ´ zα{2 X̄p1 ´ X̄q{n ď θ ď X̄ ` zα{2 X̄p1 ´ X̄q{nq « 1 ´ α,
en donde n “ 92, X̄ “ 7{92 “ 0.0760, α “ 0.1 y por lo tanto zα{2 “ 1.64.
Substituyendo estos valores en la fórmula mencionada se obtiene que
b
X̄ ´ zα{2 X̄p1 ´ X̄q{n “ 0.0307,
b
X̄ ` zα{2 X̄p1 ´ X̄q{n “ 0.1214,
ası́, con probabilidad 0.9, la verdadera proporción de artı́culos defectuosos
producidos por la maquinaria está contenido en el intervalo p0.0307, 0.1214q.
Esto equivale a un porcentaje de artı́culos defectuosos entre 3.07 % y 12.14 %.
‚
3.3. Distribución uniforme continua
En esta sección encontraremos un intervalo de confianza para cada paráme-
tro de la distribución unifpa, bq, considerando siempre un parámetro cono-
cido y el otro desconocido. Empezaremos con un caso particular.
Primer caso
Sea X una variable aleatoria con distribución unifp0, θq, en donde θ ą 0 es
un parámetro desconocido. Encontraremos un intervalo de confianza para
θ a partir de una muestra aleatoria X1 , . . . , Xn de esta distribución. Puede
comprobarse que la máxima estadı́stica de orden Xpnq es una estadı́stica
suficiente para θ y que la variable p1{θqXpnq tiene función de densidad
#
nxn´1 si 0 ă x ă 1,
f pxq “
0 en otro caso.
La gráfica de esta función de densidad se muestra en la Figura 3.3. Entonces,
dado un valor de α P p0, 1q, se pueden encontrar c1 y c2 tales que 0 ă c1 ă
3.3 Distribución uniforme continua 139
c2 ă 1 con
1 α
Pp X ă c1 q “ ,
θ pnq 2
1 α
P p Xpnq ą c2 q “ .
θ 2
Véase la Figura 3.3. De hecho, puede comprobarse que c1 “ pα{2q1{n y
c2 “ p1 ´ α{2q1{n . Por lo tanto, tenemos que
1
P p c1 ă X ă c2 q “ 1 ´ α,
θ pnq
de donde se obtiene el intervalo de confianza
1 1
Pp Xpnq ă θ ă X q “ 1 ´ α.
c2 c1 pnq
f pxq
n
1´α
x
c1 c2 1
Figura 3.3
Segundo caso
Consideremos ahora la distribución unifpa, θq con a conocido y θ descono-
cido. Encontraremos un intervalo de confianza para θ. Sea X1 , . . . , Xn una
muestra aleatoria de esta distribución. Entonces X1 ´ a, . . . , Xn ´ a es una
140 3. Estimación por intervalos
muestra aleatoria de la distribución unifp0, θ ´ aq. Puede comprobarse que
la estadı́stica
máx tX1 ´ a, . . . , Xn ´ au “ Xpnq ´ a
es suficiente para θ ´ a y el cociente pXpnq ´ aq{pθ ´ aq tiene función de
densidad #
nxn´1 si 0 ă x ă 1,
f pxq “
0 en otro caso.
Entonces, dado un valor de α P p0, 1q, se pueden encontrar constantes c1 y
c2 tales que 0 ă c1 ă c2 ă 1 con
Xpnq ´ a α
Pp ă c1 q “ ,
b´a 2
Xpnq ´ a α
Pp ą c2 q “ .
b´a 2
Esta situación corresponde nuevamente a la que se muestra en la Figura 3.3,
en donde c1 “ pα{2q1{n y c2 “ p1 ´ α{2q1{n . Por lo tanto,
Xpnq ´ a
P p c1 ă ă c2 q “ 1 ´ α,
b´a
de donde se obtiene el intervalo de confianza
Xpnq ´ a Xpnq ´ a
Ppa ` ăbăa` q “ 1 ´ α.
c2 c1
Cuando a “ 0 esta expresión se reduce a la encontrada antes.
Tercer caso
Finalmente consideremos esta misma distribución unifpθ, bq, pero esta vez
con b conocido y θ desconocido. Encontraremos un intervalo de confianza
para θ. Sea X1 , . . . , Xn una muestra aleatoria de esta distribución. Entonces
X1 ´ b, . . . , Xn ´ b es una muestra aleatoria de la distribución unifpθ ´
b, 0q. Multiplicando por ´1 tenemos que b ´ X1 , . . . , b ´ Xn es una muestra
aleatoria de la distribución unifp0, b ´ θq. Procedemos como antes. Puede
comprobarse que la estadı́stica
máx tb ´ X1 , . . . , b ´ Xn u “ b ´ Xp1q
3.4 Distribución exponencial 141
es suficiente para b ´ θ y el cociente pb ´ Xp1q q{pb ´ θq tiene función de
densidad #
nxn´1 si 0 ă x ă 1,
f pxq “
0 en otro caso.
Entonces, dado un valor de α P p0, 1q, se pueden encontrar constantes c1 y
c2 tales que 0 ă c1 ă c2 ă 1 con
b ´ Xp1q α
Pp ă c1 q “ ,
b´θ 2
b ´ Xp1q α
Pp ą c2 q “ .
b´θ 2
Véase nuevamente la Figura 3.3, en donde c1 “ pα{2q1{n y c2 “ p1´α{2q1{n .
Por lo tanto,
b ´ Xp1q
P p c1 ă ă c2 q “ 1 ´ α,
b´θ
de donde se obtiene el intervalo de confianza
b ´ Xp1q b ´ Xp1q
Ppb ´ ăθ ăb´ q “ 1 ´ α.
c1 c2
3.4. Distribución exponencial
Sea X una variable aleatoria con distribución exppθq, en donde θ ą 0 es
desconocido. Encontraremos un intervalo de confianza para este parámetro
a partir de una muestra aleatoria X1 , . . . , Xn de esta distribución. Sabemos
que
X1 ` ¨ ¨ ¨ ` Xn „ gammapn, θq.
Por otro lado, para cualquier constante c ą 0 y para cualquier variable
aleatoria continua X con función de distribución F pxq y función de densidad
f pxq, se cumple
FcX pxq “ FX px{cq,
1
fcX pxq “ fX px{cq.
c
142 3. Estimación por intervalos
Se pueden usar estos resultados para comprobar que, para el caso en estudio,
c pX1 ` ¨ ¨ ¨ ` Xn q „ gammapn, θ{cq.
Tomando c “ θ se encuentra que
θ pX1 ` ¨ ¨ ¨ ` Xn q „ gammapn, 1q.
Esta variable aleatoria involucra al parámetro θ y su distribución está ahora
completamente especificada. Entonces existen valores 0 ă a ă b tales que
P pa ă θ pX1 ` ¨ ¨ ¨ ` Xn q ă bq “ 1 ´ α,
para algún valor α P p0, 1q, y de manera óptima se busca que b ´ a sea
mı́nimo. De aquı́ se obtiene el intervalo de confianza
a b
Pp ăθă q “ 1 ´ α.
nX̄ nX̄
¿Cómo encontrar los valores a y b?
3.5. Distribución normal
En esta sección estudiaremos algunas formas en las que pueden encontrarse
intervalos de confianza para los parámetros de la distribución normal.
Intervalo para la media cuando la varianza es conocida
Sea X1 , . . . , Xn una muestra aleatoria de una población normal con media
desconocida θ y varianza conocida σ 2 . Encontraremos un intervalo de con-
fianza para el parámetro θ. Como cada una de las variables de la muestra
tiene distribución Npθ, σ 2 q, la media muestral X̄ “ n1 ni“1 Xi tiene distri-
ř
bución Npθ, σ 2 {nq. De modo que, estandarizando,
X̄ ´ θ
? „ Np0, 1q.
σ{ n
En esta situación, esta es la cantidad pivotal que nos ayudará a encontrar un
intervalo de confianza para θ. Explicaremos a continuación el procedimiento.
3.5 Distribución normal 143
Para cualquier valor de α P p0, 1q podemos encontrar un valor zα{2 en tablas
de probabilidad normal estándar, véase la Figura 3.4, tal que
X̄ ´ θ
P p ´zα{2 ă ? ă zα{2 q “ 1 ´ α.
σ{ n
φpxq
1´α
α{2 α{2
x
´zα{2 zα{2
Figura 3.4
Despejando la constante desconocida θ se obtiene el siguiente resultado.
Proposición 3.1 Un intervalo de confianza al p1 ´ αq100 % para la
media θ de una distribución normal con varianza conocida σ 2 está dado
por
σ σ
P p X̄ ´ zα{2 ? ă θ ă X̄ ` zα{2 ? q “ 1 ´ α. (3.3)
n n
De esta forma, el intervalo pX̄ ´ zα{2 ?σn , X̄ ` zα{2 ?σn q es un intervalo de
confianza para el parámetro desconocido θ, pues contiene a dicho parámetro
?
con probabilidad 1´α. Su longitud es 2¨zα{2 ¨σ{ n. Observe que los términos
que aparecen en los lı́mites inferior y superior de este intervalo son conocidos.
Ilustraremos la aplicación de esta fórmula mediante un ejemplo.
Ejemplo 3.2 Suponga que la vida promedio útil, medida en horas, de focos
de 100 watts producidos por cierta compañı́a, puede ser modelada mediante
una variable aleatoria con distribución normal de media θ y varianza σ 2 .
144 3. Estimación por intervalos
Suponga que la desviación estándar σ es conocida y es igual a 30 horas.
El objetivo es encontrar un intervalo de confianza para la vida promedio
útil θ de los focos producidos por esta compañı́a. Para ello se toma una
muestra de 20 focos y mediante pruebas de laboratorio se determina la
vida útil de cada uno de ellos. Los resultados x1 , . . . , x20 arrojan una media
muestral x̄ de 1050 horas. Si consideramos un nivel de confianza del 95 %,
es decir, α “0.05, de la tabla de probabilidad normal se encuentra que
zα{2 “ z0.025 “1.96, y entonces puede ahora calcularse el intervalo
σ σ 30 30
px̄ ´ zα{2 ? , x̄ ` zα{2 ? q “ p1050 ´ 1.96 ? , 1050 ` 1.96 ˆ ? q
n n 20 20
“ p1050 ´ 13.148, 1050 ` 13.148q
“ p1036.852, 1063.148q.
De esta forma, con una confianza del 95 %, podemos afirmar que la vida
promedio útil de este tipo de focos es de 1050 ˘ 13.148 horas. ‚
Observe que la longitud del intervalo aleatorio que aparece en (3.3) es
σ
2zα{2 ? .
n
De aquı́ pueden obtenerse varias observaciones interesantes:
a) La longitud del intervalo decrece conforme el tamaño de la muestra
crece, es decir, mientras mayor información se tenga más preciso es
el intervalo. En el lı́mite cuando n Ñ 8, el intervalo se colapsa en el
estimador puntual x̄.
b) Si la confianza requerida crece, es decir, si 1 ´ α aumenta, entonces
zα{2 crece, véase la Figura 3.4, y por lo tanto la longitud del intervalo
también crece.
c) Si la dispersión de los datos es alta, es decir, desviación estándar σ
grande, entonces la longitud del intervalo tiende a ser grande.
3.5 Distribución normal 145
Ejemplo 3.3 Un intervalo de confianza al 90 % para la media de una po-
blación normal con σ “ 5 cuando se ha tomado una muestra de tamaño 25
cuya media muestral es 60 está dado por
σ σ 5 5
p x̄ ´ zα{2 ? , x̄ ` zα{2 ? q “ p60 ´ 1.65 ? , 60 ` 1.65 ? q
n n 25 25
“ p58.35, 61.65q.
Intervalo para la media cuando la varianza es desconocida
Sea X1 , . . . , Xn una muestra aleatoria de una distribución normal con media
desconocida θ pero ahora con varianza desconocida σ 2 . El resultado teórico
fundamental en la siguiente derivación es que la variable aleatoria
X̄ ´ θ
T “ ?
S{ n
tiene una distribución t con n ´ 1 grados de libertad. Observe que esta es la
distribución exacta de la variable T , sin importar el tamaño de la muestra y
sobre todo, sin suponer que la varianza de la muestra es conocida. A partir de
lo anterior podemos construir un intervalo de confianza para el parámetro
desconocido θ de forma análoga al caso normal mencionado antes. Para
cualquier valor de α P p0, 1q podemos encontrar un valor tα{2 ą 0 en tablas
de probabilidad de la distribución t de n ´ 1 grados de libertad (véase la
Figura 3.5) tal que
X̄ ´ θ
P p ´tα{2 ă ? ă tα{2 q “ 1 ´ α.
S{ n
Despejando la constante desconocida θ de la ecuación anterior se obtiene el
siguiente resultado.
146 3. Estimación por intervalos
f pxq
1´α
α{2 α{2
x
´tα{2 tα{2
Figura 3.5
Proposición 3.2 Un intervalo de confianza al p1 ´ αq100 % para la
media θ de una distribución normal está dado por la siguiente expresión
S S
P p X̄ ´ tα{2 ? ă θ ă X̄ ` tα{2 ? q “ 1 ´ α. (3.4)
n n
De este modo, el intervalo p X̄ ´ tα{2 ?Sn , X̄ ` tα{2 ?Sn q es un intervalo de
confianza para la media θ de una población normal sin suponer la varianza
conocida. No lo hemos escrito de manera explı́cita en la fórmula anterior pero
el valor tα{2 corresponde a la distribución t con n ´ 1 grados de libertad.
Para mayor precisión se escribe también tα{2,n´1 .
Intervalo para la varianza
Sea X1 , . . . , Xn una muestra aleatoria de una distribución normal con am-
bos parámetros desconocidos. Deseamos encontrar un intervalo de confianza
para la varianza, la cual denotaremos por θ2 ą 0. En este caso el resultado
teórico de utilidad es el siguiente
S2
pn ´ 1q „ χ2 pn ´ 1q.
θ2
Esta es la cantidad pivotal que nos ayudará a encontrar el intervalo buscado.
3.5 Distribución normal 147
f pxq
1´α
α{2 α{2
x
χ21´α{2 χ2α{2
Figura 3.6
Se pueden encontrar dos valores 0 ă χ21´α{2 ă χ2α{2 tales que
S2 α
P ppn ´ 1q ă χ21´α{2 q “ ,
θ2 2
S2 α
P ppn ´ 1q 2 ą χ2α{2 q “ .
θ 2
Véase la Figura 3.6. En consecuencia,
S2
P pχ21´α{2 ă pn ´ 1q ă χ2α{2 q “ 1 ´ α
θ2
Despejando la constante desconocida θ2 de las dos desigualdades anteriores
se obtiene el siguiente intervalo de confianza.
Proposición 3.3 Un intervalo de confianza al p1 ´ αq100 % para la
varianza desconocida θ2 de una distribución normal está dado por
pn ´ 1qS 2 pn ´ 1qS 2
Pp 2 ă θ2 ă q “ 1 ´ α. (3.5)
χα{2 χ21´α{2
De este resultado puede derivarse un intervalo de confianza para la desvia-
ción estándar θ. Por simplicidad hemos escrito χ2α{2 , la expresión completa,
148 3. Estimación por intervalos
incluyendo los grados de libertad, debe ser χ2α{2, n´1 . Análogamente para
χ21´α{2, n´1 .
Intervalo para la diferencia de dos medias
cuando las varianzas son conocidas
Sea X1 , . . . , Xn una muestra aleatoria de una distribución Npθ1 , σ12 q y sea
Y1 , . . . , Ym otra muestra aleatoria, independiente de la primera, de una dis-
tribución Npθ2 , σ22 q. Consideraremos que las medias θ1 y θ2 son desconocidas
y deseamos encontrar un intervalo de confianza para la diferencia θ1 ´ θ2 .
En esta sección consideraremos el caso cuando las varianzas σ12 y σ22 son
conocidas. Como X̄ „ Npθ1 , σ12 {nq y Ȳ „ Npθ2 , σ22 {mq, tenemos que
pX̄ ´ Ȳ q ´ pθ1 ´ θ2 q
a „ Np0, 1q
σ12 {n ` σ22 {m
Puede entonces encontrarse un valor zα{2 de la distribución normal estándar
tal que
pX̄ ´ Ȳ q ´ pθ1 ´ θ2 q
P p´zα{2 ă a 2 ă zα{2 q “ 1 ´ α,
σ1 {n ` σ22 {m
se donde se puede obtener el intervalo de confianza buscado.
Proposición 3.4 Un intervalo de confianza al p1 ´ αq100 % para la
diferencia de medias θ1 ´ θ2 de dos poblaciones normales Npθ1 , σ12 q y
Npθ2 , σ22 q, cuando las varianzas son conocidas está dado por
c
σ12 σ22
pX̄ ´ Ȳ q ˘ zα{2 `
n m
Intervalo para la diferencia de dos medias
cuando las varianzas son desconocidas pero iguales
Considere nuevamente que X1 , . . . , Xn es una muestra aleatoria de una dis-
tribución Npθ1 , σ 2 q y sea Y1 , . . . , Ym otra muestra aleatoria, independiente de
3.5 Distribución normal 149
la primera, de una distribución Npθ2 , σ 2 q. Observe que estamos considerando
el caso cuando la varianza σ 2 es común a ambas distribuciones. Conside-
raremos que estos tres parámetros θ1 , θ2 y σ 2 son desconocidos. Deseamos
encontrar un intervalo de confianza para la diferencia θ1 ´ θ2 . Definamos las
siguientes varianzas muestrales.
n
2 1 ÿ
SX “ pXi ´ X̄q2 ,
n ´ 1 i“1
m
1 ÿ
SY2 “ pYi ´ Ȳ q2 ,
m ´ 1 i“1
1
S2 “ 2
r pn ´ 1qSX ` pm ´ 1qSY2 s.
n`m´2
El último término es una varianza muestral combinada de las dos muestras.
Recordemos entonces los siguientes resultados.
X̄ ´ θ1
a) ? „ tpn ´ 1q.
SX { n
Ȳ ´ θ2
b) ? „ tpm ´ 1q.
SY { m
pX̄ ´ Ȳ q ´ pθ1 ´ θ2 q
c) a „ tpn ` m ´ 2q.
S 1{n ` 1{m
El último de estos resultados es el que tomaremos como cantidad pivotal.
Se puede encontrar un valor tα{2 ą 0 de la distribución tpn ` m ´ 2q tal que
pX̄ ´ Ȳ q ´ pθ1 ´ θ2 q
P p´tα{2 ă a ă tα{2 q “ 1 ´ α,
S 1{n ` 1{m
de donde se obtiene el intervalo de confianza buscado.
150 3. Estimación por intervalos
Proposición 3.5 Un intervalo de confianza al p1 ´ αq100 % para la
diferencia de medias θ1 ´ θ2 de dos poblaciones normales Npθ1 , σ 2 q y
Npθ2 , σ 2 q está dado por
c c
1 1 1 1
P p pX̄´Ȳ q´tα{2 S ` ă θ1 ´θ2 ă pX̄´Ȳ q`tα{2 S ` q “ 1´α.
n m n m
3.6. Intervalo para la media de una distribución
cualquiera
Sea X1 , . . . , Xn una muestra aleatoria de una distribución cualquiera con
media desconocida θ. Supongamos que el tamaño n de la muestra es grande,
por ejemplo, n ě 30. Entonces, por el teorema central del lı́mite, de manera
aproximada,
X̄ ´ θ
? „ Np0, 1q.
S{ n
Ahora, para cualquier valor de α P p0, 1q podemos encontrar un valor zα{2
en tablas de probabilidad normal estándar tal que
X̄ ´ θ
P p ´zα{2 ă ? ă zα{2 q « 1 ´ α.
S{ n
Resolviendo para la constante desconocida θ se obtiene
S S
P p X̄ ´ zα{2 ? ă θ ă X̄ ` zα{2 ? q « 1 ´ α.
n n
De esta forma, el intervalo pX̄ ´ zα{2 ?Sn , X̄ ` zα{2 ?Sn q es un intervalo de
confianza aproximado para el parámetro desconocido θ pues contiene a di-
cho parámetro con probabilidad 1 ´ α. Observe nuevamente que todas las
expresiones que aparecen en este intervalo son conocidas.
A manera de resumen se tiene la siguiente tabla.
3.6 Intervalo para la media de una distribución cualquiera151
Hipótesis Intervalo para la media θ
Distribución normal
varianza σ 2 conocida P p X̄ ´ zα{2 ?σ ă θ ă X̄ ` zα{2 ?σ q “ 1 ´ α.
n n
Distribución normal
varianza σ 2 desconocida P p X̄ ´ tα{2,n´1 ?S ă θ ă X̄ ` tα{2,n´1 ?S q “ 1 ´ α.
n n
Cualquier distribución Intervalo aproximado:
muestra grande, n ě 30 P p X̄ ´ zα{2 ?Sn ă θ ă X̄ ` zα{2 ?Sn q « 1 ´ α.
Ejercicios
157. Distribución uniforme. Sea X1 , . . . , Xn una muestra aleatoria de la
distribución unifp´θ, θq, en donde θ ą 0 es desconocido. Considerando
la cantidad pivotal máx1ďiďn |Xi |, encuentre un intervalo de confianza
para θ al p1 ´ αq100 %.
158. Sea X1 , . . . , Xn una muestra aleatoria de la distribución f px; θq espe-
cificada abajo, en donde a es una constante conocida y θ ą 0 es des-
conocido. Encuentre un intervalo de confianza para θ al p1 ´ αq100 %.
& 1 e´px´aq{θ si x ą a,
$
f pxq “ θ
% 0 en otro caso.
159. Sea X1 una muestra aleatoria de tamaño n “ 1 de la distribución
f px; θq especificada abajo, en donde θ ą 0 es desconocido. Consideran-
do la cantidad pivotal U “ X1 {θ, encuentre un intervalo de confianza
para θ al p1 ´ αq100 %.
$
& 2pθ ´ xq
si 0 ă θ ă x,
f px; θq “ θ2
0 en otro caso.
%
152 3. Estimación por intervalos
160. Sea X1 , . . . , Xn una muestra aleatoria de la distribución unifp0, θq,
con θ ą 0 desconocido. Demuestre que Xpnq {θ es una cantidad pivotal
y compruebe que el intervalo pXpnq , Xpnq {α1{n q es el intervalo más
pequeño para θ con nivel de confianza 1 ´ α.
Capı́tulo 4
Pruebas de hipótesis
En este capı́tulo daremos una breve introducción al tema de pruebas de
hipótesis.
4.1. Introducción
Ilustraremos las ideas básicas de una prueba de hipótesis mediante un ejem-
plo sencillo. Consideremos una situación en la que se efectúa sólo uno de
los siguientes dos experimentos aleatorios: se lanza un dado equilibrado y
se registra el número x obtenido, o bien se lanza una moneda cinco veces y
se registra el número x de cruces totales que se obtienen (suponiendo que
los lados de cada moneda se denominan cara y cruz). Véase la Figura 4.1.
Figura 4.1
Supongamos que únicamente conocemos el resultado x y se nos pide deter-
153
154 4. Pruebas de hipótesis
minar cuál de los dos experimentos se realizó con base en este número x
reportado. Tenemos entonces una situación de dos hipótesis:
H0 : “Se lanzó el dado” vs H1 : “Se lanzó la moneda”.
Como única información sobre este experimento tenemos un número x den-
tro del conjunto t0, 1, 2, 3, 4, 5, 6u, y con base en él debemos decidir si se
llevó a cabo un experimento o el otro. La pregunta que nos planteamos es
¿qué decisión tomar para cada valor de x reportado? Observemos que si el
número reportado es 0, entonces con seguridad se realizó el experimento de
la moneda. Si se reporta el número 6, entonces con seguridad el dado fue
lanzado. ¿Qué decisión tomar para cualquier otro valor de x? Una forma de
responder esta pregunta es usando la idea de máxima verosimiltud. En la
siguiente tabla se muestran las probabilidades de obtener los posibles valo-
res de x bajo cada uno de los dos experimentos.
x
0 1 2 3 4 5 6
Dado 0 1{6 1/6 1/6 1{6 1{6 1{6
Moneda 1{32 5/32 10{32 10{32 5/32 1/32 0
Es claro que cuando se efectúa el experimento de lanzar el dado, cada uno
de los resultados 1, 2, 3, 4, 5, 6 se obtiene con probabilidad 1{6. Por otro
lado, cuando se efectúa el experiemento de lanzar la moneda equilibrada,
la
`5˘probabilidad de obtener cualquiera de los números x “ 0, 1, 2, 3, 4, 5 es
p1{2qx p1{2q5´x . De esta manera se construye la tabla anterior. Debe ser
x
claro que una estrategia natural es decidir por el experimento que tenga
mayor probabilidad de producir el valor reportado. De esta forma se llega a
la siguiente regla de decisión:
Regla de decisión.
Si x P C “ t0, 2, 3u, se rechaza H0 ,
en caso contrario, no se rechaza H0 .
Por razones naturales al conjunto C se le llama región de rechazo de la
hipótesis H0 . La regla de decisión anterior es razonable, sin embargo, no
4.1 Introducción 155
está libre de errores, por ejemplo, si x “ 2, se decide por el experimento
de la moneda, pero el resultado bien pudo provenir del dado. Igualmente,
si x “ 1, se decide por el dado pero es factible que el resultado haya sido
obtenido por la moneda. De esta manera, cualquier regla de decisión no
está exenta de errores. Los dos tipos de errores que se pueden presentar se
muestran en la siguiente tabla.
H0 cierta H0 falsa
Rechazar H0 Error tipo I X
No rechazar H0 X Error tipo II
Se usan las letras α y β para denotar a las probabilidades de cometer los
errores tipo I y II, respectivamente. Para el ejemplo que estamos analizando
las probabilidades de estos errores se calculan de la siguiente manera.
α “ P p“Error tipo I”q
“ P p“Rechazar H0 ” | “H0 es verdadera”q
“ P pX P t0, 2, 3u | “Se lanzó el dado”q
“ 2{6.
Por otro lado,
β “ P p“Error tipo II”q
“ P p“No rechazar H0 ” | “H0 es falsa”q
“ P pX P t1, 4, 5, 6u | “Se lanzó la moneda”q
“ 11{32.
Naturalmente, si se modifica la región de rechazo, entonces cambian las
probabilidades de los errores. Por ejemplo,
a) Si se toma C “ t0, 1, 2, 3u, entonces puede comprobarse que
α “ P p“Error tipo I”q “ P px P C | “H0 es cierta”q “ 3{6,
β “ P p“Error tipo II”q “ P px P C c | “H1 es cierta”q “ 6{32.
156 4. Pruebas de hipótesis
b) Si se toma C “ t2, 3u, entonces puede comprobarse que
α “ P p“Error tipo I”q “ P px P C | “H0 es cierta”q “ 2{6,
β “ P p“Error tipo II”q “ P px P C c | “H1 es cierta”q “ 12{32.
Observe que las probabilidades α y β no son complementarias, es decir, no
necesariamente suman uno. En un problema de decisión de este tipo se desea
encontrar una regla de decisión que sea razonable y que tenga probabilida-
des de error pequeños. Por ejemplo, la regiones de rechazo C “ t0, 2, 3u y
C “ t2, 3u tienen ambas α “ 2{6, sin embargo para la primera β “ 11{32
y para la segunda β “ 12{32. Comparativamente, preferimos la primera
región de rechazo.
Nuestra perspectiva será fijar un valor de α y buscar la región de rechazo
C cuya probabilidad de error tipo I sea α y la probabilidad de error tipo II
sea la más pequeña posible. Por ejemplo, en la siguiente tabla se muestran
distintas regiones de rechazo C con el mismo nivel de significancia α “ 2{6
y para las cuales se ha calculado la probabilidad β. El renglón sombreado,
y que corresponde al obtenido usando máxima verosimilitud, es la mejor
región de rechazo para α “ 2{6 pues la probabilidad β es la menor posible.
4.1 Introducción 157
Región de rechazo α β
C “ t0, 1, 2u 2{6 16{32
C “ t0, 1, 3u 2{6 16{32
C “ t0, 1, 4u 2{6 21{32
C “ t0, 1, 5u 2{6 25{32
C “ t0, 1, 6u 2{6 26{32
C “ t0, 2, 3u 2{6 11{32
C “ t0, 2, 4u 2{6 16{32
C “ t0, 2, 5u 2{6 20{32
C “ t0, 2, 6u 2{6 21{32
C “ t0, 3, 4u 2{6 16{32
C “ t0, 3, 5u 2{6 20{32
C “ t0, 3, 6u 2{6 21{32
C “ t0, 4, 5u 2{6 25{32
C “ t0, 4, 6u 2{6 26{32
C “ t0, 5, 6u 2{6 30{32
Vamos ahora a estudiar pruebas de hipótesis en el contexto de la estimación
de parámetros en las distribuciones de probabilidad.
Ejercicios
161. Para la prueba vista en esta sección encuentre la mejor región de
rechazo con α “ 1{6.
162. Suponga que se tiene una moneda en donde la probabilidad de obtener
una de las caras es un parámetro desconocido θ, aunque se conoce que
sólo puede haber dos casos: θ “ 1{2 ó θ “ 7{12. Con base en los
resultados x1 , . . . , xn de n lanzamientos de la moneda se desea llevar
a cabo la prueba de hipótesis
H0 : θ “ 1{2 vs H1 : θ “ 7{12,
158 4. Pruebas de hipótesis
en donde se ha convenido en definir la región de rechazo como
R “ tpx1 , . . . , xn q : x̄ ď 13{14u.
Use el teorema central del lı́mite para aproximar las probabilidades de
error tipo I y II
163. Sea X1 , . . . , X4 una muestra aleatoria de tamaño n “ 4 de la distribu-
ción Npθ, 4q, en donde θ es desconocido. Encuentre las probabilidades
de cometer los errores tipo I y II para la prueba
H0 : θ “ 2 vs H1 : θ “ 5,
considerando como región de rechazo
a) R “ tpx1 , . . . , x4 q : x1 ą 4.7u.
b) R “ tpx1 , . . . , x4 q : px1 ` 2x2 q{3 ą 4.5u.
c) R “ tpx1 , . . . , x4 q : px1 ` x3 q{2 ą 4.2u.
d ) R “ tpx1 , . . . , x4 q : x̄ ą 4.1u.
4.2. Definiciones
En esta sección se formalizan algunas definiciones sobre pruebas de hipótesis.
Definición 4.1 Una hipótesis estadı́stica, o simplemente hipótesis, es
una afirmación o conjetura acerca de la distribución de una o mas va-
riables aleatorias.
Por ejemplo, si X es una variable aleatoria con distribución binpk, pq, enton-
ces la afirmación “p “ 0.2” es una hipótesis. Del mismo modo, si X es una
variable aleatoria con distribución Npµ, σ 2 q, entonces la afirmación “µ ą 0”
es otro ejemplo de una hipótesis estadı́stica.
4.2 Definiciones 159
Definición 4.2 Una hipótesis es simple si especifica por completo la
distribución de probabilidad en cuestión, en caso contrario, la hipótesis
se llama compuesta.
Por ejemplo, si X es una variable aleatoria con distribución exppλq, enton-
ces la afirmación “λ “ 5” es una hipótesis simple. Si X tiene distribución
Npµ, 1q, entonces la afirmación “µ “ 0” es otro ejemplo de hipótesis simple.
En cambio, si X tiene distribución Poissonpλq, entonces “λ ą 20” es una
hipótesis compuesta pues no se especifica completamente la distribución de
la variable aleatoria. Si X tiene distribución χ2 pnq, entonces “n ‰ 5” es
otro ejemplo de una hipótesis compuesta. En general, contrastaremos dos
hipótesis de acuerdo al siguiente esquema y notación.
H0 : phipótesis nulaq vs H1 : phipótesis alternativaq.
Tanto la hipótesis nula H0 como la hipótesis alternativa H1 pueden ser
simples o compuestas. De este modo tenemos cuatro diferentes tipos de
contraste de hipótesis: simple vs simple, simple vs compuesta, compuesta
vs simple, y compuesta vs compuesta.
Definición 4.3 Llevar a cabo una prueba de hipótesis significa aplicar
una regla para decidir si se acepta la hipótesis nula o se rechaza en favor
de la hipótesis alternativa.
Como hemos mencionado, al tomar una decisión en una prueba de hipótesis
se corre el riesgo de cometer errores. Rechazar la hipótesis nula cuando ésta
es verdadera es el error tipo I y la probabilidad de cometer este tipo de error
se le denota por la letra α. En cambio, no rechazar la hipótesis nula cuando
ésta es falsa es el error tipo II y a la probabilidad de cometer este segundo
tipo de error se le denota por la letra β. Estas dos formas de cometer errores
al efectuar una toma de decisión en una prueba de hipótesis se formalizan
160 4. Pruebas de hipótesis
en la siguiente definición.
Definición 4.4
a) El error tipo I se obtiene cuando se rechaza la hipótesis H0 siendo
ésta verdadera. A la probabilidad de cometer el error tipo I se le
denota por la letra α, esto es,
α “ P p“Error tipo I”q
“ P p“Rechazar H0 ” | “H0 es verdadera”q.
b) El error tipo II se obtiene cuando no se rechaza la hipótesis H0
siendo ésta falsa. A la probabilidad de cometer el error tipo II se
le denota por la letra β, esto es,
β “ P p“Error tipo II”q
“ P p“No rechazar H0 ” | “H0 es falsa”q.
H0 cierta H0 falsa
Rechazar H0 Error Decisión
tipo I correcta
No rechazar H0 Decisión Error
correcta tipo II
La información para obtener una regla de decisión que nos lleve a rechazar o
no rechazar un hipótesis estadı́stica provendrá de una muestra aleatoria de
la distribución de que se trate. Observe además que al aceptar una hipótesis
no se afirma que ésta sea absolutamente cierta, sino simplemente que es
consistente con los datos de la muestra aleatoria y la regla de decisión. Si la
información de la muestra cambia, posiblemente la decisión de rechazar o no
rechazar también cambie. Antes de presentar algunas pruebas de hipótesis
4.2 Definiciones 161
particulares mencionaremos algunos términos adicionales que se usan en
estos procedimientos.
Definición 4.5 Se le llama región crı́tica a la región de rechazo de H0
y a la probabilidad de cometer el error tipo I, esto es α, se le llama
tamaño de la región crı́tica. A esta probabilidad se le conoce también
con el nombre de nivel de significancia.
Sinónimos Sinónimos
Nivel de significancia
Región crı́tica
Tamaño de la región crı́tica
Región de rechazo de H0
Prob. del error tipo I
Figura 4.2
Notación:
C “ “Región crı́tica”
“ “Región de rechazo de H0 ”
Notación:
α “ P p“Error tipo I”q
“ “Nivel de significancia”
“ “Tamaño de la región crı́tica”
162 4. Pruebas de hipótesis
Notación:
1 ´ β “ 1 ´ P p“Error tipo II”q
“ “Potencia de la prueba”
Utilizaremos el siguiente ejemplo para ilustrar nuevamente las ideas gene-
rales y el procedimiento de llevar a cabo una prueba de hipótesis.
Ejemplo 4.1 ¿Moneda equilibrada? Suponga que tenemos una moneda
y que deseamos saber si está equilibrada o no lo está. Para ello lanzamos la
moneda 100 veces y con base en esta información habremos de tomar una
decisión respecto a si la moneda tiene la misma probabilidad de caer cara o
cruz.
Figura 4.3
Por ejemplo, si de los cien lanzamientos se obtienen cincuenta cruces, en-
tonces podemos decir que tenemos evidencias para creer que la moneda está
equilibrada, aunque tal resultado puede también obtenerse con una moneda
no equilibrada (error tipo II). Pero, ¿qué decisión tomar si únicamente se
obtienen 45 cruces? ¿y si se obtienen 60 cruces? Es claro que en estos últi-
mos casos la decisión no es tan inmediata. Denotemos por X1 , X2 , . . . , X100
los resultados de estos lanzamientos, en donde para el i-ésimo lanzamiento
#
1 si la moneda cae cruz,
Xi “
0 si la moneda cae cara.
Es decir, cada variable Xi tiene distribución Bernoulli de parámetro θ, en
donde θ es la probabilidad desconocida de obtener cruz en cada lanzamiento.
Deseamos llevar a cabo la prueba de hipótesis
H0 : θ “ 1{2 vs H1 : θ ‰ 1{2.
4.2 Definiciones 163
Denotemos por θ̂ a la media muestral pX1 `¨ ¨ ¨`X100 q{100. Por la ley de los
grandes números, este estimador se acerca al verdadero valor de θ cuando
el número de lanzamientos es cada vez más grande, y por lo tanto es una
aproximación de θ. Cuando θ̂ diste mucho de 1{2 es natural pensar que la
moneda no está equilibrada. Es por ello que se propone como criterio de
decisión rechazar la hipótesis H0 cuando
| θ̂ ´ 1{2 | ě c,
para algún valor numérico de c que encontraremos a continuación estable-
ciendo un valor particular para la probabilidad del error tipo I. En el caso
cuando H0 es cierta, pero se toma la decisión de rechazar H0 , se está en la
situación de cometer el error tipo I, y establecemos que la probabilidad de
que ello ocurra es α, igual 0.01 por ejemplo, es decir,
P p| θ̂ ´ 1{2 | ě cq “ 0.01 .
A partir de esta ecuación encontraremos el valor de d haciendo uso del
hecho de que, cuando H0 es verdadera, es decir, θ “ 1{2, el estimador θ̂ tiene
? de media 1{2, varianza p1{2qp1´1{2q{100 “
distribución aproximada normal
0.025, y desviación estándar 0.025 “ 0.05 . Por lo tanto, pθ̂´1{2q{0.05 tiene
distribución aproximada normal estándar. Con esta información podemos
ahora encontrar un valor aproximado para c.
0.01 “ P p| θ̂ ´ 1{2 | ě c | θ “ 1{2q
“ 1 ´ P p| θ̂ ´ 1{2 | ă c | θ “ 1{2q
“ 1 ´ P p´d ă θ̂ ´ 1{2 ă c | θ “ 1{2q
´c θ̂ ´ 1{2 c
“ 1 ´ Pp ă ă | θ “ 1{2q
0.05 0.05 0.05
c
« 2p1 ´ Φp qq.
0.05
Es decir, Φpc{0.05q “ 0.995. De la tabla de probabilidades de la distribución
normal se encuentra que c{0.05 “ 2.57 y por lo tanto c “ 0.128 . De esta
forma la estadı́stica de la prueba es la variable aleatoria θ̂, y cuando el
valor de esta variable cumpla la condición | θ̂ ´ 1{2 | ě 0.128, se rechaza la
hipótesis H0 . Esta región de rechazo se puede escribir como la unión de los
intervalos
r0, 1{2 ´ 0.128s Y r1{2 ` 0.128, 1s,
164 4. Pruebas de hipótesis
Región de rechazo
0 0.372 0.5 0.628 1
Figura 4.4
o bien r0, 0.372s Y r0.628, 1s, y se muestra gráficamente en la Figura 4.4.
Ası́, si θ̂ es menor o igual a 0.372 o mayor o igual 0.628, decidimos que
la diferencia entre θ̂ y 1{2 no es debido a fluctuaciones azarosas, sino que
es debido a que la moneda no está equilibrada y por lo tanto rechazamos
H0 . La probabilidad de un error al tomar tal decisión es 0.01, de modo
que se está tomando un riesgo del 1 % de clasificar una moneda equilibrada
como no equilibrada. Por otro lado, podemos calcular la probabilidad del
error tipo II de la siguiente forma: sea θ0 una probabilidad distinta de 1{2,
calcularemos la probabilidad del error tipo II dado que el verdadero valor
de θ es θ0 , y escribimos esto como βpθ0 q. Tenemos entonces que
βpθ0 q “ P p |θ̂ ´ 1{2| ă c | θ “ θ0 q
“ P p ´c ă θ̂ ´ 1{2 ă c | θ “ θ0 q
“ P p 1{2 ´ c ă θ̂ ă 1{2 ` c | θ “ θ0 q
1{2 ´ c ´ θ0 1{2 ` c ´ θ0
« Pp a ăZă a q
θ0 p1 ´ θ0 q{100 θ0 p1 ´ θ0 q{100
1{2 ` c ´ θ0 1{2 ´ c ´ θ0
“ Φp a q ´ Φp a q.
θ0 p1 ´ θ0 q{100 θ0 p1 ´ θ0 q{100
Observe que hemos aplicado nuevamente el teorema central del lı́mite al
hacer la aproximación. De esta forma el error tipo II queda expresado como
una función del valor de θ0 distinto de 1{2. ‚
Habiendo establecido las ideas principales y la notación que usaremos, po-
demos ahora mostrar la forma en la que se pueden encontrar algunas reglas
de decisión para ciertas pruebas de hipótesis en estadı́stica.
4.3 Pruebas sobre la distribución normal 165
4.3. Pruebas sobre la distribución normal
4.3.1. Prueba para la media con varianza conocida
Sea X1 , . . . , Xn una muestra aleatoria de una población normal con media
desconocida µ y varianza conocida σ 2 . Sabemos que X̄ tiene distribución
Npµ, σ 2 {nq. Por lo tanto,
X̄ ´ µ
? „ N p0, 1q.
σ{ n
Sea µ0 un número real particular. Deseamos contrastar las hipótesis
H0 : µ “ µ0 vs H1 : µ ‰ µ0 .
El problema es encontrar una regla para decidir cuándo rechazar H0 en favor
de H1 con base en los datos de la muestra aleatoria. Cuando H0 es cierta,
esto es, cuando µ es efectivamente µ0 , tenemos que X̄ „ N pµ0 , σ 2 {nq y por
lo tanto
X̄ ´ µ0
? „ N p0, 1q.
σ{ n
La estadı́stica Z “ X̄´µ
? 0 es una medida natural de la distancia entre X̄ (un
σ{ n
estimador de µ), y su valor esperado µ0 cuando H0 es cierta. Es entonces
razonable rechazar H0 cuando la variable Z sea grande. Es por ello que
tomamos como criterio de decisión rechazar H0 cuando |Z| ě k, para cierta
constante k. ¿Cómo encontramos el número k? En una tabla de la distri-
bución normal podemos encontrar un valor zα{2 tal que P p|Z| ě zα{2 q “ α,
en donde α lo determina la persona que lleva a cabo la prueba de hipótesis,
tı́picamente α “ 0.1 . Véase la Figura 4.5. Este valor zα{2 es precisamente
la constante k buscada pues con ello se logra que la región de rechazo sea
de tamaño α.
A la variable aleatoria Z se le llama la estadı́stica de la prueba, y la prueba
se denomina prueba de dos colas pues la región de rechazo consta de las dos
colas de la distribución normal que se muestran en la Figura 4.5. Llevar a
cabo esta prueba de hipótesis consiste simplemente en usar los datos de la
muestra para encontrar el valor de Z, si resulta que |Z| ě zα{2 , entonces
se rechaza H0 , en caso contrario no se rechaza H0 . En la siguiente tabla se
muestra resumida la información de esta prueba.
166 4. Pruebas de hipótesis
f pxq
α{2 α{2
x
´zα{2 zα{2
Región de rechazo
Figura 4.5
Prueba: H0 : µ “ µ0 vs H1 : µ ‰ µ0
Estadı́stica de prueba: Z “ X̄´µ
?0
σ{ n
Región de rechazo: |Z| ě zα{2 , (prueba de dos colas)
Error tipo I: α
? 1 q ´ Φp´zα{2 ` µ0 ´µ
0 ´µ
Error tipo II: Φpzα{2 ` µσ{ n
? 1 q, µ1 ‰ µ0 .
σ{ n
Vamos a comprobar la fórmula que aparece en la tabla anterior acerca del
error tipo II. Sea µ1 cualquier número tal que µ1 ‰ µ0 . Calcularemos la
probabilidad del error tipo II dado que el verdadero valor de µ es µ1 .
βpµ1 q “ P p “No rechazar H0 cuando µ “ µ1 ” q
“ P p |Z| ă zα{2 | µ “ µ1 q
X̄ ´ µ0
“ Pp| ? | ă zα{2 | µ “ µ1 q
σ{ n
σ σ
“ P p µ0 ´ zα{2 ? ă X̄ ă µ0 ` zα{2 ? | µ “ µ1 q
n n
µ0 ´ µ1 X̄ ´ µ1 µ ´µ
“ P p ´zα{2 ` ? ă ? ă zα{2 ` 0 ? 1 q
σ{ n σ{ n σ{ n
µ0 ´ µ1 µ ´µ
“ Φpzα{2 ` ? q ´ Φp´zα{2 ` 0 ? 1 q.
σ{ n σ{ n
4.3 Pruebas sobre la distribución normal 167
Ejemplo 4.2 En ciertas zonas de la ciudad y durante varios años se ha cal-
culado el pago por el consumo de agua suponiendo un consumo promedio
de 20,000 litros mensuales en cada casa. Para determinar si tal cantidad ha
cambiado, se han medido los consumos mensuales de 15 casas obteniéndose
los siguientes resultados: 23456, 18325, 21982, 22371, 13292, 25073, 22601,
20930, 18788, 19162, 21442, 23935, 20320, 19095, 17421. ¿Debe cambiar el
consumo promedio mensual estimado para el cálculo de los pagos o perma-
necer igual? Suponga σ “ 2000.
Solución. Supondremos un modelo normal para el consumo de agua con
media desconocida µ y varianza conocida σ 2 “ p2000q2 . Llevaremos a cabo
la prueba de hipótesis
H0 : µ “ 20, 000 vs H1 : µ ‰ 20, 000.
Los datos proporcionados corresponden a los valores de una muestra alea-
toria de tamaño 15, y haciendo el promedio de estos valores se obtiene una
media muestral X̄ “ 20546.2. La estadı́stica de prueba toma entonces el
valor
X̄ ´ µ0 20546.2 ´ 20000
Z“ ? “ ? “ 1.0577.
σ{ n 2000{ 15
Por otro lado, tomando α “ 0.1, de la tabla de probabilidades de la distribu-
ción normal se encuentra que zα{2 “ 1.65. Como no se cumple la condición
|Z| ě zα{2 , la estadı́stica de prueba Z cae fuera de la región de rechazo y
por lo tanto no se rechaza la hipótesis H0 , es decir, no existen evidencias
para afirmar que el consumo de agua por casa en la zona de estudio haya
cambiado. ‚
Puede también considerarse la prueba H0 : µ “ µ0 contra H1 : µ ă µ0
llamada prueba de cola inferior pues la región de rechazo consta de la cola
izquierda de la distribución normal como se muestra en la Figura 4.6. Se
rechaza la hipótesis H0 sólo cuando los datos de la muestra son tales que X̄
se encuentra muy a la izquierda de µ0 .
168 4. Pruebas de hipótesis
Prueba: H0 : µ “ µ0 vs H1 : µ ă µ0
Estadı́stica de prueba: Z “ X̄´µ
?0
σ{ n
Región de rechazo: Z ď ´zα , (prueba de cola inferior)
Error tipo I: α ´ ¯
µ0 ´µ
Error tipo II: 1 ´ Φ ´zα ` ?1
σ{ n
, µ1 ă µ0
f pxq
x
´zα
Región de rechazo
Figura 4.6
Las caracterı́sticas de la prueba H0 : µ “ µ0 contra H1 : µ ą µ0 llamada
prueba de cola superior se muestran en la siguiente tabla, y la región de
rechazo se presenta en la Figura 4.7. Se rechaza la hipótesis H0 sólo cuando
la muestra provee evidencia de que X̄ se encuentra muy a la derecha de µ0 .
Prueba: H0 : µ “ µ0 vs H1 : µ ą µ0
Estadı́stica de prueba: Z “ X̄´µ
?0
σ{ n
Región de rechazo: Z ě zα , (prueba de cola superior)
Error tipo I: α´ ¯
µ0 ´µ
Error tipo II: Φ zα ` ?1
σ{ n
, µ1 ą µ0 .
4.3 Pruebas sobre la distribución normal 169
f pxq
x
zα
Región de rechazo
Figura 4.7
4.3.2. Prueba para la media con varianza desconocida
Sea nuevamente X1 , . . . , Xn una muestra aleatoria de una distribución nor-
mal con media desconocida µ, pero ahora con varianza desconocida σ 2 . Dado
un valor numérico para la constante µ0 , nos interesa nuevamente encontrar
una regla de decisión para llevar a cabo los siguientes tipos de pruebas de
hipótesis
H0 : µ “ µ0 vs H1 : µ ‰ µ0 ,
¨¨¨ vs H1 : µ ă µ0 ,
¨¨¨ vs H1 : µ ą µ0 .
El resultado teórico que hemos usado antes es que la variable aleatoria
X̄ ´ µ
T “ ? ,
S{ n
tiene una distribución t con n ´ 1 grados de libertad, en donde, recordemos,
S 2 es la varianza muestral
n
1 ÿ
S2 “ pXi ´ X̄q2 .
n ´ 1 i“1
El razonamiento para resolver este problema es completamente análogo al
realizado en la sección anterior, sólo que ahora en lugar de usar la distri-
bución normal se usa la distribución t. Por ejemplo, la prueba H0 : µ “
170 4. Pruebas de hipótesis
µ0 vs H1 : µ ‰ µ0 , se denomina prueba de dos colas y nuevamente es ra-
zonable rechazar la hipótesis nula H0 cuando la diferencia entre µ y µ0 es
grande. Los detalles de la prueba se encuentran en el recuadro siguiente y
la región de rechazo se muestra gráficamente en la Figura 4.8.
Prueba: H0 : µ “ µ0 vs H1 : µ ‰ µ0
Estadı́stica de prueba: t “ X̄´µ
?0
S{ n
Región de rechazo: |t| ě tα{2,n´1 , (prueba de dos colas)
Error tipo I: α
0 ´µ
? 1 q ´ F p´tα{2,n´1 ` µ0 ´µ
Error tipo II: F ptα{2,n´1 ` µS{ n
? 1 q,
S{ n
para µ1 ‰ µ0 .
El número tα{2,n´1 corresponde a aquel valor real tal que el área bajo la
función de densidad de la distribución t con n ´ 1 grados de libertad a la
derecha de ese valor es α{2, véase la Figura 4.8.
f pxq
α{2 α{2
x
´tα{2,n´1 tα{2,n´1
Región de rechazo
Figura 4.8
El error tipo I lo establece la persona que lleva a cabo la prueba y el error
tipo II puede calcularse de manera análoga al caso cuando la varianza es
conocida. Comprobaremos ahora la fórmula del error tipo II para la prueba
de dos colas. Sea µ1 cualquier número real distinto de µ0 . Calcularemos la
4.3 Pruebas sobre la distribución normal 171
probabilidad del error tipo II dado que el verdadero valor de la media es µ1 .
βpµ1 q “ P p “No rechazar H0 cuando µ “ µ1 ” q
“ P p |t| ă tα{2,n´1 | µ “ µ1 q
X̄ ´ µ0
“ Pp| ? | ă tα{2,n´1 | µ “ µ1 q
S{ n
S S
“ P p µ0 ´ tα{2,n´1 ? ă X̄ ă µ0 ` tα{2,n´1 ? | µ “ µ1 q
n n
µ0 ´ µ1 X̄ ´ µ1 µ ´µ
“ P p ´tα{2,n´1 ` ? ă ? ă tα{2,n´1 ` 0 ? 1 q
S{ n S{ n S{ n
µ0 ´ µ1 µ0 ´ µ1
“ F ptα{2,n´1 ` ? q ´ F p´tα{2,n´1 ` ? q,
S{ n S{ n
en donde F es la función de distribución t con n ´ 1 grados de libertad. La
prueba H0 : µ “ µ0 vs H1 : µ ă µ0 se llama nuevamente prueba de cola
inferior y tiene las siguientes caracterı́sticas:
Prueba: H0 : µ “ µ0 vs H1 : µ ă µ0
Estadı́stica de prueba: t “ X̄´µ
?0
S{ n
Región de rechazo: t ď ´tα,n´1 , (prueba de cola inferior)
Error tipo I: α
0 ´µ
Error tipo II: 1 ´ F p´tα,n´1 ` µS{ ? 1 q, µ1 ă µ0
n
Y finalmente para la prueba de cola superior H0 : µ “ µ0 vs H1 : µ ą µ0 se
conocen los siguientes resultados.
Prueba: H0 : µ “ µ0 vs H1 : µ ą µ0
Estadı́stica de prueba: t “ X̄´µ
?0
S{ n
Región de rechazo: t ě tα,n´1 , (prueba de cola superior)
Error tipo I: α
0 ´µ
Error tipo II: F ptα,n´1 ` µS{ ? 1 q, µ1 ą µ0 .
n
172 4. Pruebas de hipótesis
Ejemplo 4.3 Se desea determinar si la aplicación de un cierto medicamen-
to afecta la presión arterial sistólica en el ser humano. Para ello se escogen
al azar diez personas, se les mide la presión aterial, después se les aplica
el medicamento y una vez que éste ha tenido efecto se mide muevamente
la presión de las personas. Se calcula entonces la diferencia entre la prime-
ra medición de la presión y la segunda. Los número obtenidos fueron los
siguientes:
2, ´1, 0, ´5, 3, 2, 5, ´3, 0, 4.
Supondremos que la diferencia calculada puede modelarse mediante una
variable aleatoria con distribución normal con media µ y varianza σ 2 des-
conocidas. Deseamos llevar a cabo la prueba de hipótesis
H0 : µ “ 0 vs H1 : µ ‰ 0.
La primera hipótesis establece que el medicamento no influye significativa-
mente en la presión arterial de las personas. La segunda hipótesis indica
que el medicamento sı́ afecta la presión arterial. Con los datos obtenidos
podemos calcular la media y la varianza muestral
x̄ “ 0.7,
s2 “ 9.7888,
y entonces el valor de la estadı́stica de la prueba es
x̄ ´ µ0
t“ ? “ 0.6712.
s{ n
Para llevar a cabo la prueba tenemos que comparar este valor con tα{2,n´1 .
Tomaremos α “ 0.1, y de la tabla de la distribución t encontramos que
tα{2,n´1 “ 1.833. La regla de decisión es rechazar H0 cuando |t| ą tα{2,n´1 ,
pero ello no sucede, por lo tanto concluimos que con base en la muestra
obtenida y la prueba estadı́stica aplicada, no existen evidencias para afirmar
que el medicamento afecte la presión arterial de las personas. ‚
4.3.3. Prueba para la diferencia entre dos medias con va-
rianza conocida
Sean X11 , . . . , Xn11 y X12 , . . . , Xn22 dos muestras aleatorias independientes de
dos poblaciones, ambas con distribución normal, pero con distintos pará-
metros, la primera con media desconocida µ1 y varianza conocida σ12 , y la
4.3 Pruebas sobre la distribución normal 173
segunda con media desconocida µ2 y varianza conocida σ22 . Observe que el
tamaño de las muestras puede ser distinto. En esta sección encontraremos
un criterio para llevar a cabo las siguientes pruebas de hipótesis
H0 : µ1 ´ µ2 “ δ vs H1 : µ1 ´ µ2 ‰ δ,
¨¨¨ vs H1 : µ1 ´ µ2 ă δ,
¨¨¨ vs H1 : µ1 ´ µ2 ą δ,
en donde δ es una constante. Mediante estas pruebas se puede decidir si las
medias de las dos poblaciones normales difieren en la constante δ o en una
cantidad diferente. Consideraremos primero el caso
H0 : µ1 ´ µ2 “ δ vs H1 : µ1 ´ µ2 ‰ δ.
Denotaremos por X̄1 a la media muestral de la primera muestra, y por
X̄2 a la media de la segunda muestra. Sabemos que X̄1 tiene distribución
Npµ1 , σ12 {n1 q y X̄2 tiene distribución Npµ2 , σ22 {n2 q. Entonces
σ12 σ22
X̄1 ´ X̄2 „ Npµ1 ´ µ2 , ` q.
n1 n2
Este es el resultado que nos llevará a encontrar una regla para decidir cuándo
rechazar H0 en favor de H1 , con base en los datos de la muestra aleatoria.
Cuando H0 es cierta, esto es, cuando µ1 ´ µ2 “ δ, tenemos que X̄1 ´ X̄2
tiene distribución Npδ, σ12 {n1 ` σ22 {n2 q, y por lo tanto
X̄1 ´ X̄2 ´ δ
Z“ b 2 „ N p0, 1q.
σ1 σ22
n1 ` n2
La estadı́stica Z es nuevamente una medida natural de la distancia entre
X̄1 ´ X̄2 y δ. Es entonces razonable rechazar H0 : µ1 ´ µ2 “ δ cuando la
variable Z sea grande. Es por ello que tomamos como criterio de decisión
rechazar H0 cuando |Z| ě k, para cierta constante k. En una tabla de
la distribución normal estándar podemos encontrar un valor zα{2 tal que
P p|Z| ě zα{2 q “ α, en donde α es el error tipo I. Este valor zα{2 es la
constante k buscada y con ello se logra que la región de rechazo sea de
tamaño α. Los detalles de esta prueba se resumen en la siguiente tabla.
174 4. Pruebas de hipótesis
Prueba: H0 : µ1 ´ µ2 “ δ vsb H1 : µ1 ´ µ2 ‰ δ
σ2 σ2
Estadı́stica de prueba: Z “ pX̄1 ´ X̄2 ´ δq{ n11 ` n22
Región de rechazo: |Z| ě zα{2 , (prueba de dos colas)
Error tipo I: α b
σ12 σ2
Error tipo II: Φpzα{2 ` pδ ´ δ1 q{ nb1
` n22 q
σ2 σ2
´Φp´zα{2 ` pδ ´ δ1 q{ n11 ` n22 q, δ1 ‰ δ.
Comprobaremos la fórmula que aparece en la tabla anterior acerca del error
tipo II. Sea δ1 cualquier número distinto de δ. Calcularemos la probabilidad
del error tipo II dado que el verdadero valor de la diferencia µ1 ´ µ2 es δ1 .
βpδ1 q “ P p “No rechazar H0 cuando µ1 ´ µ2 “ δ1 ” q
“ P p |Z| ă zα{2 | µ1 ´ µ2 “ δ1 q
X̄1 ´ X̄2 ´ δ
“ Pp| b 2 | ă zα{2 | µ1 ´ µ2 “ δ1 q
σ1 σ22
n1 ` n2
d d
σ1 2 σ 2 σ12 σ22
“ P p δ ´ zα{2 ` 2 ă X̄1 ´ X̄2 ă δ ` zα{2 `
n1 n2 n1 n2
| µ1 ´ µ 2 “ δ 1 q
δ ´ δ1 X̄1 ´ X̄2 ´ δ1 δ ´ δ1
“ P p ´zα{2 ` b 2 ă b 2 ă zα{2 ` b 2 q
σ1 σ22 σ1 2
σ2 σ1 σ22
n1 ` n2 n1 ` n2 n1 ` n2
δ ´ δ1 δ ´ δ1
“ Φpzα{2 ` b 2 q ´ Φp´zα{2 ` b 2 q.
σ1 σ22 σ1 σ22
n1 ` n2 n1 ` n2
Para la prueba
H0 : µ1 ´ µ2 “ δ vs H1 : µ1 ´ µ2 ă δ,
los detalles se muestran en el siguiente cuadro.
4.3 Pruebas sobre la distribución normal 175
Prueba: H0 : µ1 ´ µ2 “ δ vsb H1 : µ1 ´ µ2 ă δ
σ2 σ2
Estadı́stica de prueba: Z “ pX̄1 ´ X̄2 ´ δq{ n11 ` n22
Región de rechazo: Z ď ´zα , (prueba de cola inferior)
Error tipo I: α b
σ12 σ22
Error tipo II: 1 ´ Φpzα ` pδ ´ δ1 q{ n1 ` n2 q, δ1 ă δ.
Y para la prueba
H0 : µ1 ´ µ2 “ δ vs H1 : µ1 ´ µ2 ą δ,
los detalles se muestran a continuación.
Prueba: H0 : µ1 ´ µ2 “ δ vsb H1 : µ1 ´ µ2 ą δ
σ2 σ2
Estadı́stica de prueba: Z “ pX̄1 ´ X̄2 ´ δq{ n11 ` n22
Región de rechazo: Z ě zα , (prueba de cola superior)
Error tipo I: α b
σ12 σ22
Error tipo II: Φpzα ` pδ ´ δ1 q{ n1 ` n2 q, δ1 ą δ.
Ejemplo 4.4 En una muestra aleatoria, el tiempo promedio en el que 50
mujeres terminaron una prueba escrita fue de 30 minutos, mientras que 45
hombres terminaron la prueba en un promedio de 35 minutos. Para fines
ilustrativos supondremos una varianza de 9 unidades en ambas poblaciones.
¿Hay alguna diferencia entre hombres y mujeres en el tiempo promedio real
para concluir la prueba? Para contestar a esta pregunta podemos llevar a
cabo la prueba de hipótesis
H0 : µ1 ´ µ2 “ 0 vs H1 : µ1 ´ µ2 ‰ 0,
en donde µ1 corresponde a la media de la población de mujeres, y µ2 a la
media de la población de hombres. Con lo datos recabados la estadı́stica de
la prueba toma el valor
x̄1 ´ x̄2 ´ δ
z“ b 2 “ ´8.11 .
σ1 σ22
n1 ` n2
176 4. Pruebas de hipótesis
Con α “ 0.10 se tiene que zα{2 “ 1.65. Entonces |z| ě zα{2 y por lo tanto
se rechaza la hipótesis nula, es decir, las poblaciones de hombres y mujeres
muestran tiempos promedios diferentes para terminar la prueba escrita. ‚
4.3.4. Prueba para la varianza
Consideremos nuevamente una muestra aleatoria X1 , . . . , Xn proveniente de
n observaciones de una variable aleatoria con distribución normal con media
y varianza desconocidas. Nos interesa ahora encontrar un mecanismo para
probar la hipótesis de que la varianza σ 2 es igual a un valor especificado σ02
o no lo es. Es decir, las hipótesis que nos interesa contrastar son
H0 : σ 2 “ σ02 vs H1 : σ 2 ‰ σ02 ,
¨¨¨ vs H1 : σ 2 ă σ02 ,
¨¨¨ vs H1 : σ 2 ą σ02 .
Un mecanismo para encontrar una regla de decisión para estas pruebas hace
uso del resultado teórico que establece que la variable aleatoria
pn ´ 1qS 2
χ20 :“
σ02
tiene distribución χ2 pn ´ 1q cuando la varianza desconocida σ 2 es efectiva-
mente σ02 . Como antes, el término S 2 denota la varianza muestral, es decir,
n
2 1 ÿ
S “ pXi ´ X̄q2 .
n ´ 1 i“1
Para la prueba con hipótesis alternativa H1 : σ 2 ‰ σ02 , se rechaza la hipótesis
nula H0 cuando χ20 ą χ2α{2,n´1 o bien χ20 ă χ21´α{2,n´1 , en donde χ2α{2,n´1 es
el número real tal que la distribución ji-cuadrada con n´1 grados de libertad
acumula a la derecha probabilidad α{2. Análogamente, la probabilidad a
la derecha del número χ21´α{2,n´1 es 1 ´ α{2. Véase la Figura 4.9 para
una representación gráfica de estas cantidades, ası́ como de la región de
rechazo de esta prueba. En la página 208 aparece una tabla que muestra las
cantidades χ2α,n para algunos valores de los parámetros α y n. Los detalles
de esta prueba se encuentran en el recuadro siguiente:
4.3 Pruebas sobre la distribución normal 177
Prueba: H0 : σ 2 “ σ02 vs H1 : σ 2 ‰ σ02
Estadı́stica de prueba: χ20 “ pn ´ 1qS 2 {σ02
Región de rechazo: χ20 ą χ2α{2,n´1 o χ20 ă χ21´α{2,n´1
Error tipo I: α
Error tipo II: F pχ2α{2,n´1 ¨ σ02 {σ12 q ´ F pχ21´α{2,n´1 ¨ σ02 {σ12 q
para σ12 ‰ σ02 , en donde F es la función de
distribución de una v.a. χ2 pn ´ 1q.
f pxq
α{2 α{2
x
χ21´α{2,n´1 χ2α{2,n´1
Región de rechazo
Figura 4.9
Como antes, el error tipo I lo establece la persona que lleva a cabo la prueba
y es de magnitud α en las fórmulas anteriores. Comprobaremos ahora la
fórmula del error tipo II. Sea σ12 cualquier número positivo distinto de σ02 .
Calcularemos la probabilidad del error tipo II dado que el verdadero valor
de la varianza es σ12 .
βpσ12 q “ P p “No rechazar H0 ” | σ 2 “ σ12 q
pn ´ 1qS 2
“ P pχ21´α{2,n´1 ă ă χ2α{2,n´1 | σ 2 “ σ12 q
σ02
σ2 pn ´ 1qS 2 σ02 2
“ P pχ21´α{2,n´1 ¨ 02 ă ă χ 2
α{2,n´1 ¨ | σ “ σ12 q
σ1 σ12 σ12
“ F pχ2α{2,n´1 ¨ σ02 {σ12 q ´ F pχ21´α{2,n´1 ¨ σ02 {σ12 q,
178 4. Pruebas de hipótesis
en donde F es la función de distribución χ2 con n ´ 1 grados de libertad. La
prueba que tiene como hipótesis alternativa H1 : σ 2 ă σ02 tiene las siguientes
caracterı́sticas.
Prueba: H0 : σ 2 “ σ02 vs H1 : σ 2 ă σ02
Estadı́stica de prueba: χ20 “ pn ´ 1qS 2 {σ02
Región de rechazo: χ20 ă χ21´α,n´1
Error tipo I: α
Error tipo II: 1 ´ F pχ21´α,n´1 ¨ σ02 {σ12 q
para σ12 ă σ02 , en donde F es la función de
distribución de una v.a. χ2 pn ´ 1q.
Y finalmente para la prueba con hipótesis alternativa H1 : σ 2 ą σ02 se tienen
los siguientes resultados análogos.
Prueba: H0 : σ 2 “ σ02 vs H1 : σ 2 ą σ02
Estadı́stica de prueba: χ20 “ pn ´ 1qS 2 {σ02
Región de rechazo: χ20 ą χ2α,n´1
Error tipo I: α
Error tipo II: F pχ2α,n´1 ¨ σ02 {σ12 q
para σ12 ą σ02 , en donde F es la función de
distribución de una v.a. χ2 pn ´ 1q.
Con esto concluimos nuestra breve exposición sobre pruebas de hipótesis.
Existen muchas otras pruebas para rechazar o no rechazar muy diversas
hipótesis estadı́sticas que el lector interesado puede localizar en textos co-
mo [?] y [?] o en la literatura especializada en el área de interés.
Ejercicios
164. Se quiere estimar la estatura promedio de un grupo de personas supo-
niendo una distribución Npθ, σ 2 q, en donde θ es desconocido y σ 2 ą 0
es conocido. Se requieré un intervalo al 0.95 de confianza pero con una
longitud de 2 cm. ¿De qué tamaño debe ser la muestra para hacer esto
posible?
4.4 Lema de Neyman-Pearson 179
4.4. Lema de Neyman-Pearson
Sea X una variable aleatoria de interés para la cual se supone conocida su
función de densidad o de probabilidad f px; θq, pero ésta es dependiente de
un parámetro no conocido θ. Sea X1 , . . . , Xn una muestra aleatoria de esta
distribución. Nos interesa llevar a cabo la prueba
H0 : θ “ θ0 vs H1 : θ “ θ1 ,
en donde θ0 y θ1 son dos posibles valores del parámetro θ, y los cuales
suponemos fijos y conocidos. El siguiente resultado nos provee de la región
de rechazo óptima para esta prueba. La optimalidad se refiere a que, del
conjunto de todas las posibles regiones de rechazo de tamaño α, la que
establece el lemma de Neyman-Pearson es la que tiene probabilidad de error
tipo II más pequeña.
Proposición 4.1 (Lema de Neyman-Pearson1 ) Sea 0 ă α ă 1. La
región de rechazo de tamaño α más potente para el contraste de dos
hipótesis simples
H0 : θ “ θ0 vs H1 : θ “ θ1 ,
está dada por
Lpx1 , . . . , xn ; θ1 q
R “ tpx1 , . . . , xn q : ě cu, (4.1)
Lpx1 , . . . , xn ; θ0 q
en donde c es una constante que hace que esta región de rechazo sea de
tamaño α.
Demostración. Por brevedad en la escritura consideraremos únicamente
el caso continuo y escribiremos x en lugar del vector px1 , . . . , xn q. Conside-
rando la región de rechazo R definida en el enunciado, la probabilidad de
1
Jerzy Neyman (1894-1981), matemático y estadı́stico polaco.
1
Egon Sharpe Pearson (1895–1980), estadı́stico inglés. Hijo de Karl Pearson.
180 4. Pruebas de hipótesis
cometer el error tipo I es
ż
α “ P ppX1 , . . . , Xn q P R | θ “ θ0 q “ Lpx, θ0 q dx.
R
La probabilidad de cometer el error tipo II es
ż
β “ P ppX1 , . . . , Xn q P Rc | θ “ θ1 q “ Lpx, θ1 q dx.
Rc
Sea S cualquier otra región de rechazo de tamaño α y sea β 1 la corres-
R S
Rn
Figura 4.10
pondiente probabilidad de cometer el error tipo II. Véase la Figura 4.10.
Demostraremos que β 1 ě β. Por definición tenemos que
β 1 “ P ppX1 , . . . , Xn q P S c | θ “ θ1 q
ż
“ Lpx, θ1 q dx
Sc
ż
“ 1 ´ Lpx, θ1 q dx
„ż S ż ż
“ Lpx, θ1 q dx ` Lpx, θ1 q dx ´ Lpx, θ1 q dx
R Rc
„ż ż ż S
“ Lpx, θ1 q dx ´ Lpx, θ1 q dx ` Lpx, θ1 q dx
Rc
«żR S
ż ff ż
“ Lpx, θ1 q dx ´ Lpx, θ1 q dx ` Lpx, θ1 q dx.
R´pRXSq S´pRXSq Rc
4.4 Lema de Neyman-Pearson 181
Como la primera integral se calcula para valores x dentro de la región de
rechazo R y la segunda se calcula fuera de esta región de rechazo, tenemos
que
«ż ż ff ż
β1 ě c Lpx, θ0 q dx ´ Lpx, θ0 q dx ` Lpx, θ1 q dx
R´pRXSq S´pRXSq Rc
„ż ż ż
“ c Lpx, θ0 q dx ´ Lpx, θ0 q dx ` Lpx, θ1 q dx.
R S Rc
Ahora observamos que las dos primeras integrales coinciden, con valor común
α, pues ésta es la probabilidad de cometer el error tipo I usando las regiones
de rechazo R y S. Por lo tanto,
ż
1
β ě Lpx, θ1 q dx “ β.
Rc
Observaciones:
a) El lema de Neyman-Pearsson se aplica tanto para distribuciones discretas
como continuas. Sin embargo, en el caso discreto podrı́a presentarse la
situación de no existencia de regiones de rechazo de tamaño exactamente
un valor particular de α.
b) El parámetro θ en el enunciado del lema de Neyman-Pearson puede ser
un vector de parámetros.
Ejemplo 4.5 Sea X una variable aleatoria con distribución Npµ, σ 2 q, en
donde µ es desconocido pero σ 2 es conocida. Supongamos que deseamos
tomar una decisión respecto del parámetro desconocido µ de acuerdo al
siguiente contraste de hipótesis simples
H0 : µ “ µ0 vs H1 : µ “ µ1 .
Supondremos que los valores µ0 y µ1 son fijos, conocidos y, sin pérdida de
generalidad, consideraremos que guardan la relación µ0 ă µ1 . Con base en
una muestra aleatoria X1 , . . . , Xn de esta distribución y usando el lema de
182 4. Pruebas de hipótesis
Neyman-Pearson, encontraremos la región de rechazo óptima de tamaño α.
Tenemos que
ˆ ˙n{2 n
1 1 ÿ
Lpx, µ0 q “ exp p´ pxi ´ µ0 q2 q,
2πσ 2 2σ 2 i“1
ˆ ˙n{2 n
1 1 ÿ
Lpx, µ1 q “ exp p´ 2 pxi ´ µ1 q2 q.
2πσ 2 2σ i“1
Por lo tanto, el cociente de verosimilitudes (4.1) es
˜ ˜ ¸¸
n
Lpx, µ1 q 1 ÿ
“ exp ´ 2 pxi ´ µ1 q2 ´ pxi ´ µ0 q2
Lpx, µ0 q 2σ i“1
ˆ ˙
1 ` 2 2
˘
“ exp ´ 2 npµ1 ´ µ0 q ´ 2nx̄pµ1 ´ µ0 q .
2σ
Después de algunos cálculos sencillos puede comprobarse que la condición
de que la expresión anterior sea mayor o igual a una constante es equivalente
a la condición x̄ ě c, para alguna constante c. La región de rechazo óptima
es entonces
R “ tpx1 , . . . , xn q : x̄ ě c u.
Ahora resta encontrar el valor de la constante c que hace que esta región de
rechazo sea de tamaño α, es decir, c debe ser tal que
α “ P pX̄ ě c | µ “ µ0 q
X̄ ´ µ0 c ´ µ0
“ Pp ? ě ? q
σ{ n σ{ n
c ´ µ0
“ P pZ ě ? q
σ{ n
c ´ µ0
“ 1 ´ Φp ? q.
σ{ n
Si z1´α denota el cuantil al 100p1 ´ αq % en la distribución normal estándar,
?
entonces tenemos que pc ´ µ0 q n{σ “ z1´α , es decir,
σ
c “ µ0 ` ? z1´α .
n
4.4 Lema de Neyman-Pearson 183
Por otro lado, la probabilidad de cometer el error tipo II es
c ´ µ1
β “ P pX̄ ă c | µ “ µ1 q “ Φp ? q.
σ{ n
En resumen, para llevar a cabo la prueba
H0 : µ “ µ0 vs H1 : µ “ µ1 ,
para una población Npµ, σ 2 q en donde σ 2 es conocida y µ0 ă µ1 , la región
de rechazo más potente al nivel α está dada por
R “ tpx1 , . . . , xn q : x̄ ě cu,
?σ c´µ
en donde c “ µ0 ` n
z1´α , con β “ Φp σ{ ? 1 q. Véase el Ejercicio 168 para
n
esta misma prueba pero cuando σ 2 es desconocida.
apθq bpxq cpθq
Hipótesis Región de rechazo α β
c´µ
`n˘
Npµ, σ 2 q R “ tpx1 , . . . , xn q : x̄ ě c u. x β “ Φp σ{ ? 1 q.
n
Ejemplo 4.6 (Distribución Poisson) Sea X una variable aleatoria con
distribución Poissonpθq, en donde el parámetro θ ą 0 es desconocido. Nos
interesa estimar el valor de θ mediante el contraste de hipótesis simples
H0 : θ “ θ0 vs H1 : θ “ θ1 ,
en donde 0 ă θ0 ă θ1 son dos valores fijos y conocidos. Usaremos el lema
de Neyman-Pearson para encontrar la región de rechazo de tamaño α más
potente. Tenemos que el cociente de verosimilitudes (4.1) es
Lpx, θ1 q e´θ1 θ1x1 {x1 ! ¨ ¨ ¨ e´θ1 θ1xn {xn !
“
Lpx, θ0 q e´θ0 θ0x1 {x1 ! ¨ ¨ ¨ e´θ0 θ0xn {xn !
“ e´npθ1 ´θ0 q pθ1 {θ0 qnx̄ .
184 4. Pruebas de hipótesis
Después de algunos cálculos sencillos puede comprobarse que la condición
de que la expresión anterior sea mayor o igual a una constante es equivalente
a la condición nx̄ ě c, para alguna constante c. La región de rechazo óptima
es entonces
R “ tpx1 , . . . , xn q : nx̄ ě c u,
en donde la constante c es tal que la probabilidad de cometer el error tipo
I es α, es decir, c es tal que
α “ P pnX̄ ě c | θ “ θ0 q
“ P pZ0 ě cq,
en donde Z0 tiene distribución Poissonpnθ0 q. Observe que, como Z0 es una
variable aleatoria discreta, es posible que la identidad anterior no se cumpla
de manera exacta, de modo que se toma el valor entero c más pequeño tal
que P pZ0 ě cq ď α. La probabilidad de cometer el error tipo II es
β “ P pnX̄ ă c | θ “ θ1 q
“ P pZ1 ă cq,
en donde, ahora, Z1 tiene distribución Poissonpnθ1 q. ‚
Ejercicios
165. Cambio de orden en las hipótesis. Suponiendo θ0 ă θ1 y un valor de
α P p0, 1q dado, el lemma de Neyman-Pearson establece la región de
rechazo R con probabilidad β mı́nima para el contraste de las hipótesis
simples
H0 : θ “ θ0 vs H1 : θ “ θ1 .
Suponga ahora el caso θ0 ą θ1 . Encuentre la región de rechazo óptima
para esta prueba y las probabilidades de error tipo I y II en términos
de α y β.
166. Distribución Bernoulli. Sea X1 , . . . , Xn una muestra aleatoria de la
distribución Berpθq, en donde θ P p0, 1q es desconocido. Sea α P p0, 1q.
4.4 Lema de Neyman-Pearson 185
Encuentre la región de rechazo óptima de tamaño α para el contraste
de hipótesis simples
H0 : θ “ θ 0 vs H1 : θ “ θ 1 ,
en donde θ0 y θ1 son dos valores parametrales fijos, conocidos y tales
que 0 ă θ0 ă θ1 ă 1. Calcule además la probabilidad de cometer el
error tipo II.
167. Distribución exponencial. Sea X1 , . . . , Xn una muestra aleatoria de la
distribución exppθq, en donde θ ą 0 es desconocido. Sea α P p0, 1q.
Encuentre la región de rechazo óptima de tamaño α para el contraste
de hipótesis simples
H0 : θ “ θ 0 vs H1 : θ “ θ 1 ,
en donde θ0 y θ1 son dos valores parametrales fijos, conocidos y tales
que 0 ă θ0 ă θ1 . Calcule además la probabilidad de cometer el error
tipo II.
168. Distribución normal. Sea X1 , . . . , Xn una muestra aleatoria de la
distribución Npµ, σ 2 q en donde µ es desconocido y supongamos que σ 2
es conocida. Sea α P p0, 1q. Encuentre la región de rechazo óptima de
tamaño α para el contraste de hipótesis simples
H0 : µ “ µ0 vs H1 : µ “ µ1 ,
en donde µ0 y µ1 son dos valores fijos, conocidos y tales que µ0 ă µ1 .
Calcule además la probabilidad de cometer el error tipo II.
Sugerencia: use el hecho de que
X̄ ´ µ
? „ tpn ´ 1q.
S{ n
186 4. Pruebas de hipótesis
4.5. Función potencia
Definición 4.6 La función potencia de una prueba de hipótesis sobre
un parámetro desconocido θ es la función
πpθq “ P pRechazar H0 | θq.
Es decir, la función potencia es la probabilidad de rechazar la hipótesis
nula H0 para cada posible valor del parámetro θ. Esta función sirve para
comparar dos pruebas o para ... Cuando se contrastan dos hipótesis simples
H0 : θ “ θ0 vs H1 : θ “ θ1 , las dos probabilidades de error se pueden
expresar en términos de la función potencia como sigue
α “ πpθ0 q,
β “ 1 ´ πpθ1 q.
Ejemplo 4.7 Para la distribución Berpθq con θ P p0, 1q consideremos nue-
vamente el contraste de hipótesis simples
H0 : θ “ 1{2 vs H1 : θ “ 7{12,
junto con la región de rechazo R “ tpx1 , . . . , xn q : x̄ ě 13{24u. La función
potencia de esta región de rechazo se puede aproximar usando el teorema
central del lı́mite de la siguiente manera
πpθq “ P pX̄ ě 13{24 | θq
13{24 ´ θ
« 1 ´ Φp a q.
θp1 ´ θq{n
La gráfica de esta función se muestra en la Figura 4.11.
‚
Ejercicios
169. —
4.5 Función potencia 187
πpθq
1 b
b
b
b
θ
1{2 1
Figura 4.11
188 4. Pruebas de hipótesis
Apéndice A
Distribuciones tipo
exponencial
En esta sección se define una colección amplia de distribuciones de pro-
babilidad llamada familia exponencial. Esta familia agrupa a varias de las
distribuciones de probabilidad discretas y continuas más conocidas, todas
ellas compartiendo una misma forma para la función de densidad o de pro-
babilidad. Se considera primero el caso cuando sólo hay un parámetro in-
volucrado θ y después cuando la distribución depende de varios parámetros
pθ1 , . . . , θk q. En la Proposición A.1 se muestra un resultado general e impor-
tante que establece la completez y suficiencia minimal para cierta estadı́stica
construida a partir de la expresión de una distribución en la familia expo-
nencial.
Definición A.1 Una variable aleatoria X tiene distribución tipo expo-
nencial si su función de probabilidad o de densidad, dependiente de un
parámetro θ, es de la forma
f px; θq “ apθq bpxq ecpθq dpxq , ´8 ă x ă 8, (A.1)
en donde apθq ě 0, bpxq ě 0, cpθq y dpxq son funciones reales que depen-
den únicamente de los argumentos indicados.
189
190 A. Distribuciones tipo exponencial
Como hemos señalado antes, la familia de distribuciones tipo exponencial
incluye distribuciones tipo discreto y continuo, y debido a que las funciones
apθq, bpxq, cpθq y dpxq dependen sólamente de los argumentos indicados, el
soporte de la distribución no depende del parámetro θ. Es claro que este
soporte está determinado únicamente por la función bpxq. La expresión de la
fórmula (A.1) justifica el término exponencial en el nombre de esta familia
de distribuciones En la siguiente tabla se muestran algunos ejemplos de
distribuciones particulares que pertenecen a la familia exponencial.
apθq bpxq cpθq dpxq
θ
Berpθq 1´θ 1 ln 1´θ x
`n˘ θ
binpn, θq p1 ´ θqn x ln 1´θ x
1
Poissonpθq e´θ x! ln θ x
geopθq θ 1 ln p1 ´ θq x
θ k
`k`x´1˘
bin negpk, θq p 1´θ q k´1 ln p1 ´ θq k`x
2 {2σ 2 2 {2σ 2
Npθ, σ 2 q ?1 e´θ 1
e´x θ
x
2π σ σ2
1 2 {2θ 2
Npµ, θq θ e´µ ?1
2π
1
θ2
´ 21 px ´ µq2
λθ 1
gammapθ, λq Γpθq x e´λx θ ln x
θγ
gammapγ, θq Γpγq xγ´1 ´θ x
Por simplicidad en las expresiones no hemos escrito la forma completa de
la función bpxq en cada caso. Por ejemplo, para la distribución Bernoulli se
˘ “ 1 ¨ 1t0,1u pxq, mientras que para la distribución bino-
debe escribir `bpxq
mial bpxq “ nx ¨ 1t0,1,...,nu pxq, indicando ası́ el soporte de la distribución.
Observemos que en la tabla anterior aparecen distribuciones que dependen
de dos parámetros. En estos casos se considera que la distribución depende
del parámetro θ, entendiendo que el segundo parámetro, indicado con otra
letra, es constante y conocido. Substituyendo las expresiones mostradas en
la tabla para las funciones apθq, bpxq, cpθq y dpxq puede comprobarse en
191
cada caso que se obtiene la función de probabilidad o de densidad f px; θq
correspondiente, de acuerdo a la notación usada en este texto.
Ejemplo A.1 (No unicidad en la representación.) Es interesante ob-
servar que la representación (A.1) no es única. Por ejemplo, para cada valor
k “ 0, 1, . . . las expresiones que aparecen abajo producen la función de pro-
babilidad geopθq.
apθq “ θ{p1 ´ θqk ,
bpxq “ 1,
cpθq “ ln p1 ´ θq,
dpxq “ k ` x.
Ejemplo A.2 Toda distribución dependiente de un parámetro θ cuyo so-
porte dependa de este parámetro no es de tipo exponencial. ‚
Ahora consideraremos el caso cuando la distribución tipo exponencial de-
pende de varios parámetros.
Definición A.2 Una variable aleatoria X tiene distribución tipo expo-
nencial si su función de probabilidad o de densidad, dependiente de un
vector de k parámetros θ “ pθ1 , . . . , θk q, es de la forma
f px; θq “ apθq bpxq ecpθq¨dpxq , ´8 ă x ă 8,
en donde apθq “ apθ1 , . . . , θk q ě 0 y bpxq ě 0 son funciones reales
que dependen únicamente de los argumentos indicados, y cpθq “
pc1 pθq, . . . , ck pθqq y dpxq “ pd1 pxq, . . . , dk pxqq son funciones vectoriales.
La expresión cpθq ¨ dpxq indica el producto punto de estos vectores y
f px; θq adquiere entonces la forma
řk
f px; θ1 , . . . , θk q “ apθ1 , . . . , θk q bpxq e j“1 cj pθ1 ,...,θk q dj pxq .
192 A. Distribuciones tipo exponencial
En la siguiente tabla se muestran algunos ejemplos de distribuciones tipo
exponencial dependientes de dos parámetros.
apθ1 , θ2 q bpxq c1 pθ1 , θ2 q c2 pθ1 , θ2 q d1 pxq d2 pxq
θ
θ2 1 1
gammapθ1 , θ2 q Γpθ1 q x θ1 ln x ´θ2 x
2 2 θ1
Npθ1 , θ2 q ?1 e´θ1 {2θ2 1 ´ 2θ12 x x2
2πθ22 θ22 2
Es inmediato comprobar que substituyendo las expresiones de las funciones
a, b, c1 , c2 , d1 y d2 indicadas en la tabla se obtiene la correspondiente función
de densidad, según la notación usada en este texto para estas distribuciones.
En particular, las distribuciones gamma y normal pertenecen a la familia
exponencial considerando un parámetro a la vez, o ambos parámetros al
mismo tiempo. Nuevamente, por simplicidad, hemos omitido la expresión
completa para bpxq. Tal función debe especificar el soporte de la distribución.
Ejemplo A.3 La distribución bin negpk, pq no pertenece a la familia expo-
nencial biparamétrica. ‚
El siguiente resultado muestra explı́citamente la existencia de una estadı́sti-
ca suficiente minimal y completa para el vector de parámetros de toda dis-
tribución dentro de la familia exponencial.
Proposición A.1 Sea X1 , . . . , Xn una muestra aleatoria de una distri-
bución tipo exponencial dependiente de k parámetros pθ1 , . . . , θk q. El
vector de estadı́sticas T especificado abajo es una estadı́stica suficiente
minimal y completa para pθ1 , . . . , θk q.
n
ÿ n
ÿ
T “p d1 pXi q, . . . , dk pXi qq
i“1 i“1
193
Demostración.
Suficiencia minimal. Observemos primero que se puede demostrar la su-
ficiencia (sin la propiedad de minimalidad) directamente de la definición,
o bien mediante el teorema de factorización. Conjuntamente, la suficiencia
y la minimalidad se obtienen del siguiente argumento: sean x1 , . . . , xn y
y1 , . . . , yn dos posibles valores de la muestra aleatoria, no necesariamente
distintos, y sea θ “ pθ1 , . . . , θk q. Es inmediato comprobar que
˜ ¸
n
f px1 , . . . , xn ; θq ź bpxi q řn řn
“ ecpθq r i“1 dpxi q´ i“1 dpyi qs
f py1 , . . . , yn ; θq bpyi q
˜ i“1 ¸
n
ź bpxi q
“ ecpθq rT px1 ,...,xn q´T py1 ,...,yn qs .
i“1
bpy i q
Esta cantidad no depende θ si y sólo si el exponente es nulo para cualquier
posible valor de θ. Esto lleva a la condición T px1 , . . . , xn q “ T py1 , . . . , yn q.
Por el Teorema 2.6 concluimos que T es suficiente minimal conjunta para θ.
Completez. Sea h una función tal que ErhpT qs “ 0. Siendo T un vector de k
entradas, la función h debe estar definida en aquella región de Rk en donde
T toma sus valores. Más explı́citamente,
ż
hptq
Rn
Ejemplo A.4
a) En el caso de Berpθq tenemos que dpxq “ x. Por lo tanto, la estadı́stica
T “ X1 ` ¨ ¨ ¨ ` Xn es suficiente minimal y completa para θ.
b) En el caso Npθ1 , θ2 q tenemos que d1 pxq “ x y d2 pxq “ x2 . Por lo tanto,
la estadı́stica T “ pX1 ` ¨ ¨ ¨ ` Xn , X12 ` ¨ ¨ ¨ ` Xn2 q es suficiente minimal
y completa para pθ1 , θ2 q.
‚
194 A. Distribuciones tipo exponencial
Ejercicios
170. Demuestre la propiedad de suficiencia de la estadı́stica que aparece en
la Proposición A.1 usando
a) la definición.
b) el teorema de factorización de Neyman.
195
-
196 A. Distribuciones tipo exponencial
Apéndice B
Fórmulas varias
Notación
N Conjunto de números naturales 1, 2, 3, . . .
Z Conjunto de números enteros 0, ˘1, ˘2, ˘3, . . .
Q Conjunto de números racionales a{b en donde a, b P Z con b ‰ 0.
R Conjunto de números reales.
x` máxtx, 0u.
x´ mı́ntx, 0u.
f px`q Lı́mite por la derecha de la función f en el punto x.
f px´q Lı́mite por la izquierda de la función f en el punto x.
x ÞÑ f pxq Función f pxq.
:“ Se define como.
197
198 B. Fórmulas varias
El alfabeto griego
Aα alfa Iι iota P ρ, ̺ ro
Bβ beta Kκ kapa Σ σ, ς sigma
Γγ gamma Λλ lambda T τ tau
∆δ delta M µ mu Υυ upsilon
E ǫ, ε epsilon Nν nu Φ φ, ϕ fi
Zζ zeta Ξξ xi X χ ji
H η eta Oo omicron Ψψ psi
Θ θ, ϑ teta Ππ pi Ωω omega
Exponentes
a) x1 “ x.
b) x0 “ 1, x ‰ 0.
1
c) x´1 “ , x ‰ 0.
x
d) xn xm “ xn`m .
xn
e) “ xn´m .
xm
f) pxn qm “ xnm .
g) pxyqn “ xn y n .
ˆ ˙n
x xn
h) “ n.
y y
1
i) x´n “ , x ‰ 0.
xn
?
j) xm{n “ n xm .
199
Logaritmos
a) log ab “ log a ` log b.
a
b) log “ log a ´ log b.
b
c) log an “ n log a.
? 1
d) log n
a“ log a.
n
e) log 1 “ 0.
f) loga a “ 1.
Identidades trigonométricas
a) sen2 x ` cos2 x “ 1.
b) senpx ˘ yq “ sen x cos y ˘ cos x sen y.
c) cospx ˘ yq “ cos x cos y ¯ sen x sen y.
?
d) cosparc sen xq “ senparc cos xq “ 1 ´ x2 si ´1 ď x ď 1.
Fórmulas para sumas
n
ÿ
a) xk “ xm ` xm`1 ` ¨ ¨ ¨ ` xn , m ď n.
k“m
n
ÿ
b) c “ nc, c constante.
k“1
n
ÿ npn ` 1q
c) k“ .
k“1
2
n
ÿ npn ` 1qp2n ` 1q
d) k2 “ .
k“1
6
200 B. Fórmulas varias
n „ 2
ÿ npn ` 1qp2n ` 1q
e) k3 “ .
k“1
2
n
ÿ am ´ an`1
f) ak “ , a ‰ 1.
k“m
1´a
8
ÿ xk
g) “ ex , x P R.
k“0
k!
n ˆ ˙
ÿ n k n´k
h) a b “ pa ` bqn , a, b P R, n P N.
k“0
k
8
ÿ 1
i) es divergente.
k“1
k
8
ÿ p´1qk`1
j) “ ln 2.
k“1
k
8
ÿ 1 π2
k) “ (Fórmula de Euler).
k“1
k2 6
8 ˆ ˙
ÿ a x
l) t “ p1 ` tqa , |t| ă 1, a P R.
x“0
x
Fórmulas de derivación
d
a) c “ 0, c constante.
dx
d
b) x “ 1.
dx
d n
c) x “ nxn´1 .
dx
d x
d) e “ ex .
dx
201
d 1
e) ln x “ .
dx x
d
f) sen x “ cos x.
dx
d
g) cos x “ ´ sen x.
dx
d
h) tan x “ ´ sec2 x.
dx
d 1
i) arc sen x “ ? .
dx 1 ´ x2
d 1
j) arc cos x “ ´ ? .
dx 1 ´ x2
d
k) rf pxq ˘ gpxqs “ f 1 pxq ˘ g 1 pxq.
dx
d
l) rf pxq gpxqs “ f pxq g 1 pxq ` f 1 pxq gpxq.
dx
d f pxq gpxqf 1 pxq ´ f pxqg 1 pxq
m) “ .
dx gpxq g 2 pxq
d
n) f pgpxqq “ f 1 pgpxqq g 1 pxq (Regla de la cadena).
dx
Fórmulas de integración
ż ż
a) df pxq “ f 1 pxq dx “ f pxq ` c.
ż ż
b) c dx “ c dx, c constante.
xn`1
ż
c) xn dx “ ` c, n ‰ ´1.
n`1
ż
dx
d) “ ln x ` c.
x
202 B. Fórmulas varias
1 ax
ż
e) eax dx “ e ` c.
a
ż
f) ln x dx “ x ln x ´ x ` c.
ż
g) sen x dx “ ´ cos x ` c.
ż
h) cos x dx “ sen x ` c.
ż ż
i) u dv “ uv ´ v du (Integración por partes).
El lema de Abel
ř8
Sea a0 , a1 , . . . una sucesión de números reales o complejos
ř8 tal que n“0 an
n
es convergente. Entonces la función real Gptq “ n“0 an t es continua por
la izquierda en t “ 1, es decir,
8
ÿ
lı́m Gptq “ an .
tÕ1
n“0
Fórmula de Stirling
Para n grande,
?
n! « 2π nn`1{2 e´n .
203
n n! Stirling
1 1 0.92
2 2 1.91
3 6 5.83
4 24 23.50
5 120 118.01
6 720 710.07
7 5040 4980.39
8 40320 39902.39
¨¨¨ ¨¨¨ ¨¨¨
Notación o-pequeña
Se dice que una función f pxq, definida en un intervalo no trivial alrededor
del cero, es o-pequeña de x cuando x Ñ 0 si
f pxq
lı́m “ 0.
xÑ0 x
Esto siginifca que la función f pxq tiende a cero cuando x Ñ 0 más rápi-
damente de lo que lo hace x Ñ 0. Las funciones f pxq “ xk con k ě 2 son
ejemplos de funciones opxq cuando x Ñ 0, y se escribe f pxq “ opxq cuando
x Ñ 0.
Puntos crı́ticos para funciones de varias variables
Sea f px, yq una función real definida sobre un rectángulo pa, bq ˆ pc, dq de
R2 y cuyas derivadas de segundo orden son continuas en pa, bq ˆ pc, dq. Se
dice que f px, yq tiene un punto crı́tico en px0 , y0 q si
Bf
px0 , y0 q “ 0,
Bx
Bf
px0 , y0 q “ 0.
By
Antes de explicar la manera en la que se determina si un punto crı́tico es
un máximo o un mı́nimo, vamos a definir primero los menores principales
204 B. Fórmulas varias
de una matriz cuadrada. Sea A “ paij q una matriz de n ˆ n y sea k un
entero tal que 1 ď k ď n. El menor principal de orden k se define como el
determinante de la submatriz cuadrada paij q, i, j “ 1, . . . , k, esto es
a11 “ Primer menor principal pk “ 1q
ˇ ˇ
ˇ a11 a12 ˇ
ˇ a21 a22 ˇ “ Segundo menor principal pk “ 2q
ˇ ˇ
..
.
|A| “ n-ésimo menor principal pk “ nq.
Para la función f px, yq considerada antes, se define la matriz hessiana como
la matriz simétrica
¨ 2
B2 f
˛
B f
˚ Bx2 px, yq BxBy px, yq ‹
Hpx, yq “ ˚ 2 ‹. (B.1)
˚ ‹
˝ B f 2
B f ‚
px, yq px, yq
ByBx By 2
Condiciones para un máximo. La función f px, yq tiene un máximo en px0 , y0 q
si la matriz Hpx0 , y0 q es tal que todos sus menores principales de orden impar
son negativos y todos sus menores principales de orden par son positivos.
Para la matriz (B.1) esto se reduce a las desigualdades
B2 f
px0 , y0 q ă 0 y |Hpx0 , y0 q| ą 0.
Bx2
Estas condiciones son equivalentes a solicitar que la matriz Hpx0 , y0 q sea
negativa definida. Ello significa que se debe cumplir lo siguiente:
a) px, yqHpx0 , y0 q p xy q ď 0 para todo px, yq P R2 .
b) px, yqHpx0 , y0 q p xy q “ 0 ô px, yq “ p0, 0q.
Condiciones para un mı́nimo. La función f px, yq tiene un mı́nimo en px0 , y0 q
si la matriz Hpx0 , y0 q es tal que todos sus menores principales son positivos.
En el caso de la matriz (B.1) esto se reduce a las desigualdades
B2 f
px0 , y0 q ą 0 y |Hpx0 , y0 q| ą 0.
Bx2
Estas condiciones son equivalentes a solicitar que la matriz Hpx0 , y0 q sea
positiva definida. Esto significa que se debe cumplir lo siguiente:
205
a) px, yqHpx0 , y0 q p xy q ě 0 para todo px, yq P R2 .
b) px, yqHpx0 , y0 q p xy q “ 0 ô px, yq “ p0, 0q.
206 B. Fórmulas varias
Tabla de la distribución normal estándar
x
żx
1 2 {2
Φpxq “ P pX ď xq “ ? e´t dt
2π ´8
x 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.0 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359
0.1 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753
0.2 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.6141
0.3 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.6517
0.4 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.6879
0.5 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.7224
0.6 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.7549
0.7 0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 0.7852
0.8 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.8133
0.9 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 0.8399
1.0 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.8621
1.1 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 0.8830
1.2 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997 0.9015
1.3 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.9177
1.4 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319
1.5 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.9441
1.6 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545
1.7 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633
1.8 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706
1.9 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767
2.0 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.9817
2.1 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.9857
2.2 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.9890
2.3 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.9916
2.4 0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.9936
2.5 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.9952
2.6 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 0.9964
2.7 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.9974
2.8 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.9981
2.9 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.9986
3.0 0.9987 0.9987 0.9987 0.9988 0.9988 0.9989 0.9989 0.9989 0.9990 0.9990
3.1 0.9990 0.9991 0.9991 0.9991 0.9992 0.9992 0.9992 0.9992 0.9993 0.9993
3.2 0.9993 0.9993 0.9994 0.9994 0.9994 0.9994 0.9994 0.9995 0.9995 0.9995
3.3 0.9995 0.9995 0.9995 0.9996 0.9996 0.9996 0.9996 0.9996 0.9996 0.9997
3.4 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9998
207
Tabla de la distribución tpnq
tα,n
P pX ě tα,n q “ α
n z α 0.005 0.01 0.025 0.05 0.1
1 63.657 31.821 12.706 6.314 3.078
2 9.925 6.965 4.303 2.920 1.886
3 5.841 4.541 3.182 2.353 1.638
4 4.604 3.474 2.776 2.132 1.533
5 4.032 3.365 2.571 2.015 1.476
6 3.707 3.143 2.447 1.943 1.440
7 3.499 2.998 2.365 1.895 1.415
8 3.355 2.896 2.306 1.860 1.397
9 3.250 2.821 2.262 1.833 1.383
10 3.169 2.764 2.228 1.812 1.372
11 3.106 2.718 2.201 1.796 1.363
12 3.055 2.681 2.179 1.782 1.356
13 3.012 2.650 2.160 1.771 1.350
14 2.977 2.624 2.145 1.761 1.345
15 2.947 2.602 2.131 1.753 1.341
16 2.291 2.583 2.120 1.746 1.337
17 2.898 2.567 2.110 1.740 1.333
18 2.878 2.552 2.101 1.734 1.330
19 2.861 2.539 2.093 1.729 1.328
20 2.845 2.528 2.086 1.725 1.325
21 2.831 2.518 2.080 1.721 1.323
22 2.819 2.508 2.074 1.717 1.321
23 2.807 2.500 2.069 1.714 1.319
24 2.797 2.492 2.064 1.711 1.318
25 2.787 2.485 2.060 1.708 1.316
26 2.779 2.479 2.056 1.706 1.315
27 2.771 2.473 2.052 1.703 1.314
28 2.763 2.467 2.048 1.701 1.313
29 2.756 2.462 2.045 1.699 1.311
8 2.576 2.326 1.960 1.645 1.282
208 B. Fórmulas varias
Tabla de la distribución χ2 pnq
χ2α,n
P pX ě χ2α,n q “ α
n z α 0.995 0.990 0.975 0.950 0.900 0.100 0.050 0.025 0.010 0.005
1 0.0 0.0 0.0 0.0 0.02 2.71 3.84 5.02 6.63 7.88
2 0.01 0.02 0.05 0.10 0.21 4.61 5.99 7.38 9.21 10.60
3 0.07 0.11 0.22 0.35 0.58 6.25 7.81 9.35 11.34 12.84
4 0.21 0.30 0.48 0.71 1.06 7.78 9.49 11.14 13.28 14.86
5 0.41 0.55 0.83 1.15 1.61 9.24 11.07 12.83 15.09 16.75
6 0.68 0.87 1.24 1.64 2.20 10.65 12.59 14.45 16.81 18.55
7 0.99 1.24 1.69 2.17 2.83 12.02 14.07 16.01 18.48 20.28
8 1.34 1.65 2.18 2.73 3.49 13.36 15.51 17.53 20.09 21.96
9 1.73 2.09 2.70 3.33 4.17 14.68 16.92 19.02 21.67 23.59
10 2.16 2.56 3.25 3.94 4.87 15.99 18.31 20.48 23.21 25.19
11 2.60 3.05 3.82 4.57 5.58 17.28 19.68 21.92 24.72 26.76
12 3.07 3.57 4.40 5.23 6.30 18.55 21.03 23.34 26.22 28.30
13 3.57 4.11 5.01 5.89 7.04 19.81 22.36 24.74 27.69 29.82
14 4.07 4.66 5.63 6.57 7.79 21.06 23.68 26.12 29.14 31.32
15 4.60 5.23 6.27 7.26 8.55 22.31 25.00 27.49 30.58 32.80
16 5.14 5.81 6.91 7.96 9.31 23.54 26.30 28.85 32.00 34.27
17 5.70 6.41 7.56 8.67 10.09 24.77 27.59 30.19 33.41 35.72
18 6.26 7.01 8.23 9.39 10.87 25.99 28.87 31.53 34.81 37.16
19 6.84 7.63 8.91 10.12 11.65 27.20 30.14 32.85 36.19 38.58
20 7.43 8.26 9.59 10.85 12.44 28.41 31.41 34.17 37.57 40.00
21 8.03 8.90 10.28 11.59 13.24 29.62 32.67 35.48 38.93 41.40
22 8.64 9.54 10.98 12.34 14.04 30.81 33.92 36.78 40.29 42.80
23 9.26 10.20 11.69 13.09 14.85 32.01 35.17 38.08 41.64 44.18
24 9.89 10.86 12.40 13.85 15.66 33.20 36.42 39.36 42.98 45.56
25 10.52 11.52 13.12 14.61 16.47 34.28 37.65 40.65 44.31 46.93
26 11.16 12.20 13.84 15.38 17.29 35.56 38.89 41.92 45.64 48.29
27 11.81 12.88 14.57 16.15 18.11 36.74 40.11 43.19 46.96 46.95
28 12.46 13.57 15.31 16.93 18.94 37.92 41.34 44.46 48.28 50.99
29 13.12 14.26 16.05 17.71 19.77 39.09 42.56 45.72 49.59 52.34
30 13.79 14.95 16.79 18.49 20.60 40.26 43.77 46.98 50.89 53.67
40 20.71 22.16 24.43 26.51 29.05 51.81 55.76 59.34 63.69 66.77
50 27.99 29.71 32.36 34.76 37.69 63.17 67.50 71.42 76.15 79.49
60 35.53 37.48 40.48 43.19 46.46 74.40 79.08 83.30 88.38 91.95
70 43.28 45.44 48.76 51.74 55.33 85.53 90.53 95.02 100.42 104.22
80 51.17 53.54 57.15 60.39 64.28 96.58 101.88 106.63 112.33 116.32
90 59.20 61.75 65.65 69.13 73.29 107.57 113.14 118.14 124.12 128.30
100 67.33 70.06 74.22 77.93 82.36 118.50 124.34 129.56 135.81 140.17
209
Tabla de distribuciones discretas
Función de
Distribución probabilidad Parámetros Esperanza
1
řn
Uniforme f pxq “ 1{n x1 , . . . , xn P R n i“1 xi
discreta para x “ x1 , . . . , xn n “ 1, 2 . . .
Bernoulli f pxq “ px p1 ´ pq1´x 0ăpă1 p
para x “ 0, 1
f pxq “ nx px p1 ´ pq1´x
` ˘
Binomial n “ 1, 2, . . . np
para x “ 0, 1, . . . , n 0ăpă1
1´p
Geométrica f pxq “ pp1 ´ pqx 0ăpă1 p
para x “ 0, 1, . . .
rp1´pq
f pxq “ r`x´1
` ˘ r
Binomial x p p1 ´ pqx r “ 1, 2, . . . p
negativa para x “ 0, 1, . . . 0ăpă1
´K
pKx qpNn´x q nK
Hipergeométrica f pxq “ K “ 1, 2, . . .
pnq
N N
para x “ 0, 1, . . . , n N ´ K “ 1, 2, . . .
n ď mı́ntK, N ´ Ku
x
Poisson f pxq “ e´λ λx! λą0 λ
para x “ 0, 1, . . .
210 B. Fórmulas varias
Momentos Función generadora Función generadora
Varianza EpX k q de probabilidad EptX q de momentos EpetX q
1
řn 1
řn 1
řn 1
řn
n i“1 pxi ´ µq2 n i“1 xki n i“1 tx i n i“1 etxi
pp1 ´ pq p 1 ´ p ` pt 1 ´ p ` pet
npp1 ´ pq [1] p1 ´ p ` ptqn p1 ´ p ` pet qn
1´p p p
p2 [1] 1´p1´pqt 1´p1´pqet
si |t| ă 1{p1 ´ pq si |t| ă ´ lnp1 ´ pq
rp1´pq p p
p2 [1] p 1´p1´pqt qr p 1´p1´pqetq
r
si |t| ă 1{p1 ´ pq si |t| ă ´ lnp1 ´ pq
N ´K N ´n
nK
N N N ´1 [1] [2] [2]
t
´1q
λ [3] eλpt´1q eλpe
[1] No existe una fórmula compacta.
[2] La definición de esta función no produce una fórmula reducida.
[3] Vea una fórmula recursiva en la página —
211
Tabla de distribuciones continuas
Distribución Función de densidad Parámetros Esperanza
1 a`b
Uniforme f pxq “ b´a aăb 2
continua para x P pa, bq
1
Exponencial f pxq “ λe´λx λą0 λ
para x ą 0
pλxqα´1 ´λx α
Gamma f pxq “ Γpαq λe αą0 λ
para x ą 0 λą0
1 a´1 a
Beta f pxq “ Bpa,bq x p1 ´ xqb´1 aą0 a`b
para 0 ă x ă 1 bą0
α Γp1`1{αq
Weibull f pxq “ λαpλxqα´1 e´pλxq αą0 λ
para x ą 0 λą0
2 2
Normal f pxq “ ? 1 e´px´µq {2σ ´8 ă µ ă 8 µ
2πσ 2
2
para ´8 ă x ă 8 σ ą0
1
Ji-cuadrada f pxq “ 2n{2 Γpn{2q
xn{2´1 e´x{2 ną0 n
para x ą 0
Γppn`1q{2q x2 ´pn`1q{2
t f pxq “ ?
nπΓpn{2q
p1 ` n q ną0 0
para ´8 ă x ă 8 si n ą 1
Γppa`bq{2q a{2 b
F f pxq “ Γpa{2qΓpb{2q pa{bq ¨ aą0 b´2
a{2´1 a ´pa`bq{2
x p1 ` b xq bą0 si b ą 2
para x ą 0
212 B. Fórmulas varias
Momentos Función generadora
Varianza EpX k q de momentos EpetX q
pb´aq2 bk`1 ´ak`1 ebt ´eat
12 pk`1qpb´aq tpb´aq
si t ‰ 0
1 k! λ
λ2 λk λ´t
si t ă λ
α αpα`1q¨¨¨pα`k´1q λ α
λ2 λk
p λ´t q
si t ă λ
ab Bpa`k,bq
pa`b`1qpa`bq2 Bpa,bq [1]
Γp1`2{αq´Γ2 p1`1{αq Γp1`k{αq
λ2 λk
[1]
σ2 [2] exp pµt ` σ 2 t2 {2q
2k Γpn{2`kq 1
2n Γpn{2q p 1´2t qn{2
si t ă 1{2
n
n´2 [3] No existe
si n ą 2
2b2 pa`b´2q
apb´2q2 pb´4q p ab qk Γpa{2`kq
Γpa{2q
Γpb{2´kq
Γpb{2q No existe
si b ą 4 si 2k ă b
[1] No hay fórmula reducida. [2] Vea los momentos de la distribución normal
213
centrada en la página — [3] Vea resultados en la página —
Bibliografı́a
[1] Casella G., Berger R. L. Statistical inference. Thomson Press, 2008.
[2] Hoel P. G., Port S. C., Stone C. J. Introduction to statistical theory.
Houghton Mifflin, 1971.
[3] Hogg R. V., McKean J., Craig A. T. Introduction to mathematical sta-
tistics. Seventh Edition. Pearson, 2013.
[4] Mood A. M., Graybill F. A., Boes D. C. Introduction to the theory of
statistics. McGraw Hill, 1983.
[5] Mukhopadhyay N. Introductory statistical inference. Chapman &
Hall/CRC, 2006.
[6] Miller I., Miller M. John E. Freund’s mathematical statistics. Prentice
Hall, 1999.
[7] [Link]
[8] Williams D. (1991) Probability with Martingales. Cambridge University
Press.
[9] [Link]
215
Índice analı́tico
Cantidad pivotal, 135 puntual, 9
CICR, 63 sesgado, 48
Consistencia, 52 sesgo de un, 48
Cota inferior
de Cramér-Rao, 63 Fórmula
Cramér-Rao -s de derivación, 200
cota inferior, 63 -s de integración, 200
-s para exponentes, 198
Distribuciones -s para logaritmos, 199
tipo exponencial, 189 -s para sumas, 199
de Stirling, 202
ECM, 59 Familia exponencial, 189
Eficiencia, 73 Función
Error cuadrático medio, 59 de verosimilitud, 22
Espacio parametral, 3 parametral, 28
Estadı́stica, 6
de orden, 7 Grado de confianza, 134
Estimación
por intervalos, 133 Identidades trigonométricas, 199
puntual, 3 Insesgamiento, 38
Estimador asintótico, 48
asintóticamente eficiente, 73 Intervalo
asintóticamente insesgado, 48 de confianza, 134
de máxima verosimilitud, 23 grado de confianza, 134
eficiencia de un, 73 lim inferior, 134
eficiente, 73 lim superior, 134
insesgado, 38
máximo verosı́mil , 23 Lema de Abel, 202
216
Índice analı́tico 217
Método
de máxima verosimilitud, 22
de momentos, 10
Media
muestral, 6
Momentos
método de, 10
muestrales, 8, 11
poblacionales, 11
Movimiento Browniano, 37, 48
Muestra aleatoria
tamaño de una, 5
Nivel de significancia, 161
Notación o pequeña, 203
Poisson
proceso de, 37, 48
Proceso de Poisson, 37, 48
Prueba de hipótesis, 153, 159
nivel de significancia, 161
para la varianza, 176
región crı́tica, 161
Puntos crı́ticos, 203
Región crı́tica, 161
tamaño de la, 161
Región de rechazo, 154
Sesgo, 48, 59
Stirling, 202
Varianza
muestral, 7
prueba de hipótesis, 176