0% encontró este documento útil (0 votos)

424 vistas221 páginas

Introducción a la Estadística Inferencial

Cargado por

Fernando Colín

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

424 vistas221 páginas

Introducción a la Estadística Inferencial

Cargado por

Fernando Colín

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

Estadı́stica Inferencial

Notas preliminares

Luis Rincón
Departamento de Matemáticas
Facultad de Ciencias UNAM
Circuito Exterior de CU
04510 México CDMX

Febrero 2017

Estas son notas preliminares de un curso sobre estadı́stica inferencial.

Se espera que una versión extendida de este trabajo pueda publicarse
y adquirirse próximamente a través de la tienda Plaza Prometeo.
Prólogo

Este documento es una versión preliminar de un texto dirigido a cubrir los

temas de un curso semestral sobre estadı́stica matemática a nivel universi-
tario. Está dirigido a estudiantes de las carreras de actuarı́a, matemáticas,
matemáticas aplicadas y otras carreras cientı́ficas similares cuyos programas
de estudio contemplan cursos sobre esta disciplina. En tales programas de
estudio aparecen previamente uno o dos cursos de probabilidad. Siguiendo
ese orden y para una mejor comprensión de los temas expuestos en este
texto, se presupone conocido el material de por lo menos un curso de pro-
babilidad.

Se estudian tres temas clásicos de la estadı́stica inferencial relativos al pro-

blema de la estimación de parámetros: la estimación puntual, la estimación
por intervalos y las pruebas de hipótesis. En todos los casos el énfasis prin-
cipal ha sido puesto en la estimación de parámetros de las distribuciones de
probabilidad, sin embargo los métodos y las ideas aquı́ expuestas también
son aplicables para tratar otros problemas matemáticos.

El enfoque con el que se tratan los temas es principalmente matemático

buscando proveer las demostraciones completas de todos los resultados que
se estudian.

Luis Rincón
Febrero 2017
Ciudad Universitaria UNAM
Contenido

1. Introducción 1

2. Estimación puntual 3
2.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.2. Método de momentos . . . . . . . . . . . . . . . . . . . . . . 10
2.3. Método de máxima verosimilitud . . . . . . . . . . . . . . . . 22
2.4. Insesgamiento . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.5. Insesgamiento asintótico . . . . . . . . . . . . . . . . . . . . . 48
2.6. Consistencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
2.7. Sesgo y error cuadrático medio . . . . . . . . . . . . . . . . . 59
2.8. Cota inferior de Cramér-Rao . . . . . . . . . . . . . . . . . . 63
2.9. Eficiencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
2.10. Suficiencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
2.11. Suficiencia e información . . . . . . . . . . . . . . . . . . . . . 87
2.12. Suficiencia conjunta . . . . . . . . . . . . . . . . . . . . . . . 96
2.13. Suficiencia minimal . . . . . . . . . . . . . . . . . . . . . . . . 99
2.14. Esperanza condicional . . . . . . . . . . . . . . . . . . . . . . 109
2.15. Teorema de Rao-Blackwell . . . . . . . . . . . . . . . . . . . . 113
2.16. Completez . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
2.17. Teorema de Lehmann-Scheffé . . . . . . . . . . . . . . . . . . 124

3. Estimación por intervalos 133

3.1. Definiciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
3.2. Distribución Bernoulli . . . . . . . . . . . . . . . . . . . . . . 135
3.3. Distribución uniforme continua . . . . . . . . . . . . . . . . . 138
3.4. Distribución exponencial . . . . . . . . . . . . . . . . . . . . . 141

iii
iv Contenido

3.5. Distribución normal . . . . . . . . . . . . . . . . . . . . . . . 142

3.6. Intervalo para la media de una distribución cualquiera . . . . 150

4. Pruebas de hipótesis 153

4.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
4.2. Definiciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158
4.3. Pruebas sobre la distribución normal . . . . . . . . . . . . . . 165
4.4. Lema de Neyman-Pearson . . . . . . . . . . . . . . . . . . . . 179
4.5. Función potencia . . . . . . . . . . . . . . . . . . . . . . . . . 186

A. Distribuciones tipo exponencial 189

B. Fórmulas varias 197

Bibliografı́a 215

Índice analı́tico 216

Capı́tulo 1

Introducción

La estadı́stica es la ciencia que se encarga de recolectar, organizar, resumir

y analizar datos para obtener conclusiones a partir de ellos.

Para ampliar la definición anterior y clasificar a la estadı́stica en dos grandes

ramas, definiremos una población como un conjunto de personas, objetos o
mediciones, y sobre el cual nos interesa estudiar alguna caracterı́stica. La
especificación de una población para un análisis estadı́stico está determinada
por el estudio que se desea hacer y lo que interesa medir. Por ejemplo, una
población puede estar constituida por los siguientes elementos:

a) Personas mayores a 18 años que son fumadoras. Nos podrı́a interesar co-
nocer algunas caracterı́sticas sociales, económicas, educativas o de salud
de estas personas.

b) Artı́culos producidos por una maquinaria. Nos podrı́a interesar conocer

la calidad de estos productos.

c) La totalidad de naranjas recolectadas en un cierto huerto. Nos podrı́a

interesar estudiar el tamaño y número de semillas en las naranjas.

Por otro lado, una muestra es cualquier subconjunto de una población.

En su perspectiva clásica, la estadı́stica se clasifica en descriptiva e inferen-

cial.

1
2 1. Introducción

La estadı́stica descriptiva es la parte de la estadı́stica en la que se estu-

dian técnicas que ayudan a describir, mostrar o resumir la información de
un conjunto de datos. Las técnicas y procedimientos de la estadı́stica des-
criptiva ayudan a visualizar la información de una manera significativa y
concreta, especialmente cuando la cantidad de información es grande. Esta
descripción de la información se lleva a cabo a través de números, tablas o
elementos gráficos. Las conclusiones que se obtienen se refieren únicamente
a la muestra observada.

En la estadı́stica inferencial, en cambio, se utilizan algunas técnicas para que

la información de una muestra se generalice a la población completa. Las
conclusiones que se obtienen poseen un cierto de grado de imprecisión dado
que la información a partir de la cual se obtienen es únicamente parcial. El
presente trabajo está enfocado principalmente a esta parte de la estadı́stica.
Capı́tulo 2

Estimación puntual

Sea X una variable aleatoria de interés en un experimento aleatorio y su-

pongamos que hemos aceptado que X tiene una función de densidad o de
probabilidad conocida f px; θq, dependiente de un parámetro θ. Considerare-
mos que θ es desconocido y deseamos estimarlo, teniendo como información
una serie de observaciones de la variable aleatoria. El problema de estima-
ción puntual consiste en encontrar una función de las observaciones, que
sirva para estimar el parámetro θ. En este capı́tulo estudiaremos algunos
métodos para encontrar estimadores para el parámetro desconocido θ, ası́
como algunas de las propiedades generales de estos estimadores

2.1. Introducción
Consideremos que X es una variable aleatoria con función de densidad o
de probabilidad conocida f px; θq, pero dependiente de un parámetro des-
conocido θ. De esta manera se tiene toda una familia de distribuciones de
probabilidad: una distribución para cada valor del parámetro θ. Al conjunto
de todos los posibles valores del parámetro θ se le llama espacio parametral
y se le denota por la letra Θ. Tenemos ası́ la colección

tf px; θq : θ P Θu.
El parámetro θ puede en realidad ser un vector de parámetros de cualquier
dimensión finita. Por ejemplo, en el caso de la distribución normal θ es el
vector de parámetros pµ, σ 2 q, según la notación usual, en donde el espacio

3
4 2. Estimación puntual

parametral es el conjunto Θ “ p´8, 8q ˆ p0, 8q, correspondiente a una

mitad del plano cartesiano.

Supongamos entonces que x1 , . . . , xn son observaciones independientes que

se han obtenido de la variable aleatoria de interés X. El problema es el si-
guiente: ¿cómo podemos usar estas observaciones para estimar el parámetro
θ y que de esta manera la función de densidad f px; θq quede completamente
especificada? Ilustraremos la situación con algunos ejemplos.

Ejemplo 2.1 Se desea conocer la calidad de un lote de 1, 000 artı́culos.

Dada la imposibilidad o no conveniencia de someter a prueba a todos ellos,
se escogen 20 artı́culos al azar obteniéndose los siguientes resultados:

x1 “ 0 x5 “ 1 x9 “ 0 x13 “ 0 x17 “ 1
x2 “ 1 x6 “ 1 x10 “ 1 x14 “ 1 x18 “ 1
x3 “ 1 x7 “ 0 x11 “ 1 x15 “ 1 x19 “ 1
x4 “ 0 x8 “ 1 x12 “ 1 x16 “ 1 x20 “ 0

en donde el valor 0 indica que el artı́culo no pasó el control de calidad y el

valor 1 indica que el artı́culo pasó el control de calidad. Supongamos que
X es la variable que indica si un artı́culo escogido al azar de la población
completa pasa o no pasa el control de calidad. Entonces es natural suponer
que X tiene una distribución Berpθq, en donde no conocemos el valor del
parámetro θ. ¿Cómo podemos estimar el valor de θ con base en los datos
de la muestra? Al especificar por completo a la distribución Bernoulli en
este problema, podemos tener una mejor idea de la cantidad de artı́culos
defectuosos en el lote completo. ‚

Ejemplo 2.2 El tiempo en minutos que un conjunto de 10 personas, esco-

gidas al azar, invierte en trasladarse de la casa al lugar de trabajo o escuela
se muestra en la colección de números que aparece abajo.
2.1 Introducción 5

x1 “ 30 x3 “ 65 x5 “ 25 x7 “ 30 x9 “ 35
x2 “ 70 x4 “ 10 x6 “ 120 x8 “ 50 x10 “ 20

Suponga que tal variable puede modelarse mediante la distribución exppθq,

pero no conocemos el valor de θ. ¿Cómo podemos estimar el valor de θ
con base en las observaciones obtenidas? Al especificar completamente a
la distribución exponencial en este caso, podemos estimar la cantidad de
personas que, para su traslado, ocupan un tiempo dentro de cualquier rango
de valores. ‚

De esta manera, habiendo supuesto una distribución de probabilidad para

una variable aleatoria de interés, en donde la distribución depende de un
parámetro no especificado en su valor, el problema consiste en encontrar un
mecanismo para estimar el parámetro desconocido tomando como informa-
ción una serie de observaciones de la variable aleatoria.

En el tratamiento que seguiremos no consideraremos observaciones parti-

culares x1 , . . . , xn , sino observaciones aleatorias, esto es, una colección de
variables aleatorias independientes e idénticamente distribuidas a la cual
se le llama muestra aleatoria. En particular, la observación x1 puede ser
un valor de X1 , la observación x2 puede ser un valor de X2 , etcétera. Las
variables aleatorias X1 , . . . , Xn representan n observaciones de la variable
aleatoria X, y al número entero n ě 1 se le llama tamaño de la muestra
aleatoria. Los estimadores que buscamos serán entonces funciones de esta
muestra aleatoria. Esto es a lo que se le llama una estadı́stica. Formalizamos
estas ideas en la siguiente serie de definiciones.

Definición 2.1 Una muestra aleatoria es una colección de variables

aleatorias X1 , . . . , Xn que son independientes e idénticamente distribui-
das.

Supondremos entonces que todas las variables de una muestra aleatoria

tienen la misma función de densidad o de probabilidad f px; θq. Por brevedad,
a veces se escribe m.a. en lugar del término muestra aleatoria. A menos que
se especifique los contrario, supondremos que el tamaño n de la muestra
6 2. Estimación puntual

aleatoria es conocido.

Definición 2.2 Una estadı́stica es una función de una muestra aleatoria

que no depende de parámetros desconocidos.

De manera general, denotaremos por T pX1 , . . . , Xn q a una de estas funciones

de la muestra aleatoria. Observemos que una estadı́stica T , vista como una
función de un subconjunto de Rn y con valores en R, se puede escribir como

px1 , . . . , xn q ÞÑ T px1 , . . . , xn q,

y tal función, en su manera de definirla, no debe depender de ningún paráme-

tro desconocido, únicamente de los valores x1 , . . . , xn y del tamaño de la
muestra n. Observe, sin embargo, que la distribución de la variable aleato-
ria T pX1 , . . . , Xn q, dependerá, en general, del parámetro desconocido θ. En
nuestro estudio, consideraremos que T pX1 , . . . , Xn q es una variable aleato-
ria y para conocer sus propiedades nos interesará conocer su distribución
de probabilidad, aunque sólo en algunos pocos casos podremos determinar
la distribución de una estadı́stica.

Veremos a continuación algunos ejemplos de estadı́sticas. Algunas de ellas

tienen nombre y notación particular por su aparición frecuente.

Ejemplo 2.3 (Media muestral) A la estadı́stica denotada por X̄ y que se

define a continuación se le llama media muestral. Esta variable aleatoria es
simplemente el promedio aritmético de los elementos de la muestra aleatoria.
n
1 ÿ
X̄ “ Xi .
n i“1

Si x1 , . . . , xn son valores particulares de las variables de la muestra aleatoria,

entonces el valor de la media muestral es
n
1 ÿ
x̄ “ xi .
n i“1
2.1 Introducción 7

Observe el uso de mayúsculas y minúsculas. La estadı́stica X̄ es una variable

aleatoria y x̄ es un número real. ‚

Ejemplo 2.4 (Varianza muestral) La siguiente función de una mues-

tra aleatoria es una estadı́stica y se le conoce con el nombre de varianza
muestral. Observe que en este promedio aparece el término n ´ 1 en el
denominador y no n.
n
2 1 ÿ
S “ pXi ´ X̄q2 .
n ´ 1 i“1
Si x1 , . . . , xn son valores particulares de las variables de la muestra aleatoria,
entonces el valor de la varianza muestral es el número
n
2 1 ÿ
s “ pxi ´ x̄q2 .
n ´ 1 i“1
‚

Ejemplo 2.5 (Estadı́sticas de orden) Sea k un entero tal que 1 ď k ď n.

La k-ésima estadı́stica de orden de una muestra aleatoria de tamaño n es
una variable aleatoria definida de la siguiente forma
Xp1q “ mı́n tX1 , . . . , Xn u,
..
.
Xpkq “ k-ésimo máx tX1 , . . . , Xn u,
..
.
Xpnq “ máx tX1 , . . . , Xn u.
Se debe observar que las variables aleatorias Xp1q , . . . , Xpnq no son necesaria-
mente alguna de las variables X1 , . . . , Xn y que, en general, las estadı́sticas
de orden no son independientes pues guardan siempre el orden ascendente
Xp1q ď ¨ ¨ ¨ ď Xpnq .
Para denotar a la k-ésima estadı́stica de orden también se usa el sı́mbolo
Xk:n . La ventaja de esta expresión alternativa es que se especifica el tamaño
n de la muestra aleatoria. ‚
8 2. Estimación puntual

Ejemplo 2.6 (Momentos muestrales) Sea k ě 1 un entero. A la siguien-

te estadı́stica se le conoce con el nombre de k-ésimo momento muestral. Se
trata del promedio aritmético de las variables aleatorias de la muestra ele-
vadas a la potencia k. Cuando k “ 1, esta estadı́stica se reduce a la media
muestral.
n
1 ÿ k
T “ X .
n i“1 i
‚

Con el fin de que la definición de estadı́stica sea más clara, veremos ahora
algunos ejemplos de funciones de una muestra aleatoria que no son estadı́sti-
cas.

Ejemplo 2.7 (No estadı́stica) Sea X1 , . . . , Xn una m.a. de la distribu-

ción Poissonpθq, en donde θ ą 0 es desconocido. La siguiente función de la
muestra aleatoria no es una estadı́stica puesto que en su definición aparece
el parámetro desconocido θ.

T “ θX1 `¨¨¨`Xn .

Ejemplo 2.8 (No estadı́stica) Sea X1 , . . . , Xn una m.a. de la distribución

Npµ, σ 2 q, en donde los parámetros µ y σ 2 son desconocidos. La función T de
la muestra aleatoria que se especifica a continuación no es una estadı́stica
puesto que en su definición aparecen los parámetros desconocidos µ y σ 2 .
Sin embargo, puede demostrarse que la distribución de T no depende de
ningún parámetro desconocido, se trata de la distribución normal estándar.
n
1 ÿ Xi ´ µ
T “? .
n i“1 σ

Algunas estadı́sticas serán de nuestro particular interés: cuando alguna es-

tadı́stica se proponga o se construya con el objetivo de servir como estimador
2.1 Introducción 9

para un parámetro desconocido θ se le denotará, de manera sugerente, por

θ̂, y se le llamará un estimador. El sı́mbolo θ̂ se lee “teta circunflejo”. Aquı́
tenemos la definición.

Definición 2.3 Un estimador puntual para un parámetro desconocido

θ es una estadı́stica denotada por θ̂ que puede ser usada para estimar θ.

Por ejemplo, la media muestral X̄ puede ser usada para estimar el paráme-
tro desconocido θ en la distribución Berpθq, por ejemplo, y por lo tanto es
un estimador.

Observemos que si x1 , . . . , xn son valores particulares de las variables de la

muestra aleatoria, entonces θ̂px1 , . . . , xn q es una estimación numérica de θ,
mientras que la variable aleatoria θ̂pX1 , . . . , Xn q es un estimador para θ. Si
se omiten los argumentos, ambos son objetos que se escriben simplemente
como θ̂, y puede representar, confusamente, una estimación (número) o un
estimador (variable aleatoria).

De lo antes expuesto surge el problema de encontrar mecanismos para ge-

nerar estadı́sticas que puedan servir como estimadores para los parámetros
de las distintas distribuciones de probabilidad. En las siguientes secciones
veremos algunos métodos para encontrar explı́citamente estimadores pun-
tuales.

Ejercicios
1. ¿Cuál es la diferencia entre un estimador y una estadı́stica?

2. Diga falso o verdadero.

a) Toda estadı́stica es un estimador.

b) Todo estimador es una estadı́stica.

3. Sea X1 , . . . , Xn una muestra aleatoria. Demuestre las siguientes iden-

10 2. Estimación puntual

tidades.
ÿn
a) pXi ´ X̄q “ 0.
i“1
ÿn n
ÿ
b) pXi ´ X̄q2 “ p Xi2 q ´ nX̄ 2 .
i“1 i“1
n n
2 1 ÿ 1 ÿ
c) S “ r Xi2 ´ p Xi q2 s.
n´1 i“1
n i“1

4. Sea X1 , . . . , Xn una muestra aleatoria de una distribución f px; θq, de-

pendiente de un parámetro desconocido θ. Determine si las siguientes
funciones son estadı́sticas.

a) T “ X1 . d ) T “ 1pθ,8q pX1 q.
b) T “ pX1 ` Xn q{2. e) T “ pX1 ` ¨ ¨ ¨ ` Xn q ´ θ.
c) T “ X1 ` 2X2 ` ¨ ¨ ¨ ` nXn . f ) T “ θ ¨ pXpnq ´ Xp1q q.

5. Sea X1 , . . . , Xn una muestra aleatoria de la distribución uniforme en

el conjunto discreto ta1 , . . . , am u, en donde los valores a1 , . . . , am y m
son desconocidos. Proponga un estimador para el parámetro

a) a1 . b) am . c) m.

6. Sean X1 , . . . , Xn una muestra aleatoria. Demuestre que para cualquier

estadı́stica T,
ÿn ÿn
pXi ´ X̄q2 ď pXi ´ T q2 .
i“1 i“1

2.2. Método de momentos

Este método fue introducido por Karl Pearson1 a principios del siglo XX.
Consideremos nuevamente que f px; θq es la función de densidad o de proba-
bilidad de una variable aleatoria X que depende de un parámetro descono-
cido θ. El método de momentos nos provee de un mecanismo general para
estimar θ. Para explicarlo necesitamos recordar antes dos conceptos.
1
Karl Pearson (né Carl Pearson, 1857-1936), estadı́stico inglés.
2.2 Método de momentos 11

Definición 2.4 Sea k ě 1 un entero. El k-ésimo momento de una va-

riable aleatoria X, si existe, es el número

EpX k q.

A estos números EpXq, EpX 2 q, EpX 3 q, . . . se les llama también momentos

poblacionales. En general, en las expresiones de estas cantidades aparece el
parámetro o vector de parámetros θ. Supongamos ahora que X1 , . . . , Xn es
una muestra aleatoria de la distribución en estudio. Tenemos la siguiente
definición de los momentos muestrales.

Definición 2.5 Sea k ě 1 un entero. El k-ésimo momento de una mues-

tra aleatoria X1 , . . . , Xn es la variable aleatoria
n
1 ÿ k
X .
n i“1 i

A estas variables aleatorias se les llama momentos muestrales. En particu-

lar, el primer momento muestral es la media muestral X̄.

El método de momentos para estimar el parámetro desconocido θ consiste en

igualar los momentos muestrales con los correspondientes momentos pobla-
cionales y resolver esta ecuación, o sistema de ecuaciones, para el parámetro
o vector de parámetros θ, cuando ello sea posible. Se igualan tantos mo-
mentos como parámetros haya en el vector θ, suponiendo que suficientes
momentos poblacionales existen para la distribución en cuestión y que son
distintos de cero. El método de momentos es muy sencillo de aplicar y lo
ilutraremos a continuación con algunos ejemplos.

Ejemplo 2.9 (Un parámetro) Sea X1 , . . . , Xn una muestra aleatoria de

la distribución Berpθq, en donde θ es desconocido. La estimación del paráme-
tro θ por el método de momentos consiste en igualar el primer momento de
12 2. Estimación puntual

la distribución, que es θ, con el primer momento muestral, que es X̄. Esta

igualación produce directamente la identidad

θ̂ “ X̄.

Observe que cuando se ha hecho la igualación ya no se escribe θ sino θ̂,

pues resolver la ecuación para este término produce el estimador por el
método de momentos. De esta manera, si x1 , . . . , xn son los valores de las
observaciones, entonces el promedio x̄ “ px1 ` ¨ ¨ ¨ ` xn q{n es una estimación
para el valor de θ. ‚

Ejemplo 2.10 (Un parámetro) Sea X una variable aleatoria continua

con función de densidad
#
θ xθ´1 si 0 ă x ă 1,
f px; θq “
0 en otro caso,

en donde θ ą 0 es un parámetro desconocido. Supongamos que contamos con

una muestra aleatoria X1 , . . . , Xn de esta distribución. Usaremos el método
de momentos para encontrar un estimador para θ. Puede comprobarse, sin
mucha dificultad, que EpXq “ θ{p1`θq. La igualación de esta esperanza con
la media muestral X̄ produce la ecuación θ̂{p1`θ̂q “ X̄. Observe nuevamente
que al escribir la igualdad hemos puesto θ̂ en lugar θ. Resolviendo para θ̂ se
obtiene el estimador
X̄
θ̂ “ .
1 ´ X̄
Si x1 , . . . , xn son los valores numéricos observados, entonces θ̂ “ x̄{p1 ` x̄q
es el valor estimado para θ. ‚

Ejemplo 2.11 (Dos parámetros) Encontraremos estimadores para los

parámetros µ y σ 2 de una distribución normal mediante el método de mo-
mentos. Como se necesitan estimar dos parámetros, se usan los dos primeros
momentos. El primer y segundo momentos poblacionales son EpXq “ µ y
2.2 Método de momentos 13

EpX 2 q “ σ 2 ` µ2 . La igualación respectiva de estas cantidades con los dos

primeros momentos muestrales produce el sistema de ecuaciones
µ̂ “ X̄,
n
1 ÿ 2
σ̂ 2 ` µ̂2 “ X .
n i“1 i
Al hacer la igualación entre los momentos hemos escrito µ̂ en lugar de µ y
σ̂ 2 en lugar de σ 2 . Se trata ahora de resolver este sistema de ecuaciones para
µ̂ y σ̂ 2 . La primera ecuación es explı́cita mientras que la segunda ecuación
se puede reescribir como sigue
n
1 ÿ 2
σ̂ 2 “ p X q ´ X̄ 2
n i“1 i
n
1 ÿ
“ pXi ´ X̄q2
n i“1
n´1 2
“ S .
n
La penúltima igualdad no es inmediata, pero sólo se requieren llevar a cabo
algunas operaciones algebraicas sencillas para obtenerla. ‚

Ejemplo 2.12 (Primer momento nulo) Sea X una variable aleatoria

continua con función de densidad unifp´θ, θq, en donde θ ą 0 es un paráme-
tro desconocido. Aplicar el método de momentos para encontrar un esti-
mador para θ requiere conocer el primer momento de esta distribución.
Siendo este momento nulo, la igualación del primer momento poblacional y
el primer momento muestral no produce una ecuación útil de la cual puede
obtenerse un estimador para θ, a saber, 0 “ X̄. Se propone entonces igualar
los segundos momentos. Como EpX 2 q “ θ2 {3, se obtiene la ecuación
n
1 2 1 ÿ 2
θ̂ “ X ,
3 n i“1 i
de donde se obtiene el estimador
g
f
f3 ÿ n
θ̂ “ e X2 .
n i“1 i
14 2. Estimación puntual

Habiendo mostrado algunos ejemplos del método de momentos para estimar

parámetros, haremos ahora algunas observaciones generales que es bueno
recordar cuando se haga uso de este método.

a) Momentos poblacionales. La idea fundamental del método hace uso del

hecho de que, bajo ciertas condiciones, la sucesión de momentos pobla-
cionales EpXq, EpX 2 q, . . . determina de manera única a la distribución
de probabilidad. En el método sólo se usan los primeros pocos momentos,
los necesarios para estimar θ y de esta manera determinar completamen-
te a la distribución, pues estamos suponiendo que se conoce su forma.
El método presupone que se pueden encontrar expresiones sencillas para
los momentos poblacionales y que éstos dependen del parámetro o vector
de parámetros a estimar.

b) Momentos muestrales. El método está basado también en la ley de los

grandes números pues mediante este resultado se garantiza que, cuando el
tamaño de muestra n es grande, el k-ésimo momento muestral es cercano,
en algún sentido, al k-ésimo momento poblacional. Por ejemplo, para los
dos primeros momentos tenemos que, cuando n Ñ 8,
n
1 ÿ
Xi Ñ EpXq,
n i“1
n
1 ÿ 2
X Ñ EpX 2 q.
n i“1 i

c) Solución al sistema de ecuaciones. El método presupone que la ecua-

ción o sistema de ecuaciones resultante de la igualación de los momentos
muestrales y poblacionales tiene un única solución y que ésta es sencilla
de encontrar. En general, esto no es ası́. Cuando se tienen dos o más
parámetros el sistema de ecuaciones puede no ser sencillo de resolver
puesto que las ecuaciones no son necesariamente lineales. Y suponiendo
que es posible resolver el sistema de ecuaciones, las expresiones que se en-
cuentran pueden no tener una forma compacta o sencilla. A este respecto
considere como ejemplo el caso de la distribución hipergeopN, K, nq.
2.2 Método de momentos 15

d) Valores del parámetro. El método no garantiza que el estimador encon-

trado tome valores en el espacio parametral correspondiente. Por ejem-
plo, si un parámetro toma valores enteros, el método de momentos no
necesariamente produce un estimador con valores enteros.

e) El método puede aplicarse tanto para distribuciones discretas como con-

tinuas.

En la siguiente sección veremos un método alternativo para obtener estima-

dores para los parámetros desconocidos de una distribución dada.

Ejercicios
7. Sea X1 , . . . , Xn una muestra aleatoria de una distribución discreta
f px; θq como se indica abajo, en donde θ es un parámetro no conocido.
Encuentre el estimador para θ por el método de momentos en cada
caso.

a) Para 0 ă θ ă 4,

x 1 2
f px; θq θ{4 1 ´ θ{4

b) Para 0 ă θ ă 6{5,

x ´1 0 1
f px; θq θ{2 θ{3 1 ´ 5θ{6

c) Para 0 ă θ ă 3{2,

x 0 1 2
f px; θq θ{3 1 ´ 2θ{3 θ{3

8. Sea X1 , . . . , Xn una muestra aleatoria de una distribución con función

de probabilidad o de densidad f px; θq, dependiente de un parámetro
desconocido θ como se indica en cada caso. Encuentre el estimador
para θ mediante el método de momentos.
16 2. Estimación puntual

& 1 si x “ 1, 2, . . . , θ; θ P N,
$

a) f px; θq “ θ
% 0 en otro caso.

& 1 si 0 ă x ă θ; θ ą 0,
$

b) f px; θq “ θ
% 0 en otro caso.

2x
$
& si x “ 1, 2, . . . , θ; θ P N,
c) f px; θq “ θpθ ` 1q
0 en otro caso.
%

& 2x si 0 ď x ď θ; θ ą 0,
$

d) f px; θq “ θ2
% 0 en otro caso.
#
θp1 ´ θqx´1 si x “ 1, 2, . . . ; 0 ă θ ă 1,
e) f px; θq “
0 en otro caso.
#
e´px´θq si θ ď x ă 8; θ P R,
f ) f px; θq “
0 en otro caso.
#
θxθ´1 si 0 ă x ă 1; θ ą 0,
g) f px; θq “
0 en otro caso.

9. Sea X1 , . . . , Xn una muestra aleatoria de la distribución f px; θq como

aparece especificada abajo, en donde ´1 ă θ ă 1 es un parámetro
desconocido. Obtenga el estimador para θ por el método de momentos.
& 1 ` θx si ´ 1 ă x ă 1,
$

f px; θq “ 2
0 en otro caso.
%

10. Sea X1 , . . . , Xn una muestra aleatoria de la distribución f px; θq como

aparece especificada abajo, en donde θ ą 0 es un parámetro descono-
cido. Obtenga el estimador para θ por el método de momentos.
$
& 2pθ ´ xq
si 0 ă x ă θ,
f px; θq “ θ2
0 en otro caso.
%
2.2 Método de momentos 17

11. Distribución uniforme. Use el método de momentos para estimar el

parámetro θ ą 0 de la distribución unifp´θ, θq.

12. Distribución doble exponencial. Sea X1 , . . . , Xn una muestra aleatoria

de la distribución f px; θq como aparece especificada abajo, en donde
θ ą 0 es un parámetro desconocido. Obtenga el estimador para θ por
el método de momentos.
1 ´θ|x|
f px; θq “ θe ´ 8 ă x ă 8.
2

13. Las siguientes distribuciones dependen de dos parámetros: uno des-

conocido denotado por la letra θ y otro que supondremos conocido y
que se denota por una letra distinta. Encuentre el estimador por el
método de momentos para el parámetro desconocido θ, suponiendo
un tamaño de muestra n.

a) binpk, θq. i ) Npθ, σ 2 q.

b) binpθ, pq. j ) Npµ, θq.
c) bin negpr, θq. k ) betapa, θq.
d ) bin negpθ, pq. l ) betapθ, bq.
e) unifpa, θq. m) Weibullpθ, λq.
f ) unifpθ, bq. n) Weibullpα, θq.
g) gammapθ, λq. ñ) Fpa, θq.
h) gammapγ, θq. o) Fpθ, bq, b ą 4.

14. Algunas distribuciones discretas. Compruebe que los estimadores por

el método de momentos para los parámetros de las distribuciones dis-
cretas que aparecen en la tabla de la Figura 2.1 son los indicados.
Suponga que X1 , . . . , Xn es una muestra aleatoria de tamaño n de la
distribución en estudio. En caso necesario consulte en un apéndice al
final del texto la expresión y notación de los parámetros para estas
distribuciones. Observe, sin embargo, que el parámetro n se reserva
para el tamaño de la muestra aleatoria. Para hacer las fórmulas cortas
se utiliza la siguiente notación cuando ambos momentos aparecen en
18 2. Estimación puntual

la fórmula.
n
1ÿ
m1 “ Xi ,
n i“1
n
1ÿ 2
m2 “ X .
n i“1 i
Nota: se indica únicamente el resultado producido por el método de
momentos, sin garantizar que el estimador tome valores en el espacio
parametral correspondiente. Por su complejidad, se ha omitido de esta
tabla la distribución hipergeopN, K, nq.
15. Valores al azar. Los siguientes diez números son valores al azar genera-
dos en R de la distribución geopθq, mediante el comando rgeomp10, θq.

x1 “ 0 x3 “ 0 x5 “ 3 x7 “ 1 x9 “ 3
x2 “ 0 x4 “ 2 x6 “ 3 x8 “ 0 x10 “ 6

Para el parámetro θ se usó uno de dos valores:

θ “ 0.2 ó θ “ 0.4 .
¿Puede usted determinar el valor de θ que se usó? Observe que nunca
existirá una confianza absoluta en la respuesta.
16. Algunas distribuciones continuas. Compruebe que los estimadores por
el método de momentos para los parámetros de las distribuciones con-
tinuas que aparecen en la tabla de la Figura 2.2. son los indicados.
Suponga que X1 , . . . , Xn es una muestra aleatoria de tamaño n de la
distribución en estudio. En caso necesario consulte en un apéndice al
final del texto la expresión y notación de los parámetros para estas
distribuciones. Observe, sin embargo, que el parámetro n se reserva
para el tamaño de la muestra aleatoria. Para hacer las fórmulas cortas
se utiliza la siguiente notación cuando ambos momentos aparecen en
la fórmula.
n
1ÿ
m1 “ Xi ,
n i“1
n
1ÿ 2
m2 “ X .
n i“1 i
2.2 Método de momentos 19

Distribución Parámetro(s) Estimador(es) por el

método de momentos

unift1, . . . , ku k P t1, 2, . . .u k̂ “ 2X̄ ´ 1

Berppq p P p0, 1q p̂ “ X̄

m21
binpk, pq k P t1, 2, . . .u k̂ “
m1 ´ pm2 ´ m21 q
m2 ´ m21
p P p0, 1q p̂ “ 1 ´
m1

1
geoppq p P p0, 1q p̂ “
1 ` X̄

m21
bin negpr, pq r P t1, 2, . . .u r̂ “
m2 ´ m21 ´ m1
m1
p P p0, 1q p̂ “
m2 ´ m21

Poissonpλq λ P p0, 8q λ̂ “ X̄

Figura 2.1
20 2. Estimación puntual

Nota: se indica únicamente el resultado producido por el método de

momentos, sin garantizar que el estimador tome valores en el espa-
cio parametral correspondiente. Se incluye el caso de la distribución
normal desarrollado antes como ejemplo.
17. Valores al azar. Los siguientes diez números son valores al azar gene-
rados en R de la distribución exppθq, mediante el comando rexpp10, θq.

x1 “ 0.026 x5 “ 0.235 x9 “ 0.723

x2 “ 0.370 x6 “ 0.015 x10 “ 0.364
x3 “ 0.655 x7 “ 1.069
x4 “ 1.567 x8 “ 0.352

Para el parámetro θ se usó uno de dos valores:

θ “ 2 ó θ “ 5 .
¿Puede usted determinar el valor de θ que se usó? Observe que nunca
existirá una confianza absoluta en la respuesta.
18. Cuatro focos se ponen a prueba permanente hasta que dejan de fun-
cionar. Los tiempos registrados de vida útil en horas fueron

x1 “ 950 x3 “ 1020
x2 “ 1050 x4 “ 985

Suponga que se acepta la distribución gammapγ, λq como modelo para

el tiempo de vida útil de los focos.
pλxqγ´1
f px; γ, λq “ λ e´λx x ą 0; γ ą 0, λ ą 0.
Γpγq
a) Estime γ y λ por el método de momentos.
b) Calcule la probabilidad de que un foco nuevo de las mismas ca-
racterı́sticas tenga un tiempo de vida de más de 1000 horas.
19. Suponga que las cinco cantidades que aparecen abajo son observacio-
nes de una variable aleatoria X con distribución uniforme en el in-
tervalo pa, bq. Encuentre una estimación por el método de momentos
para a y b.
2.2 Método de momentos 21

Distribución Parámetro(s) Estimador(es) por el

método de momentos

4m21 ´ 3m2
unifpa, bq aăb â “
2m1 ´ 1
3m2 ´ 2m1
b̂ “
2m1 ´ 1
1
exppλq λ P p0, 8q λ̂ “
X̄

m21
gammapγ, λq γ P p0, 8q γ̂ “
m2 ´ m21
m1
λ P p0, 8q λ̂ “
m2 ´ m21

Npµ, σ 2 q µ P p´8, 8q µ̂ “ m1 “ X̄
2 n´1 2
σ P p0, 8q σ̂ 2 “ m2 ´ m21 “ S
n
m1 pm1 ´ m2 q
betapa, bq a P p0, 8q â “
m2 ´ m21
p1 ´ m1 qpm1 ´ m2 q
b P p0, 8q b̂ “
m2 ´ m21

Weibullpα, λq α P p0, 8q α̂ “ ¨ ¨ ¨
λ P p0, 8q λ̂ “ ¨ ¨ ¨

χ2 pkq k P p0, 8q k̂ “ X̄

2m2
tpkq k P p0, 8q k̂ “
m2 ´ 1

2m21
Fpa, bq a P p0, 8q â “
m21
´ m2 p2 ´ m1 q
2m1
b P p0, 8q b̂ “
m1 ´ 1

Figura 2.2
22 2. Estimación puntual

x1 “ 4 x3 “ 0.3 x5 “ 7.2
x2 “ 3.2 x4 “ 1.5

20. Al final de cada hora de un dı́a de trabajo en una fábrica se escogen

al azar 10 artı́culos de una lı́nea de producción para detectar artı́culos
defectuosos. Durante un dı́a particular se obtuvieron los siguientes
resultados

Hora 1 2 3 4 5 6 7 8
Artı́culos defectuosos 1 2 1 0 1 2 0 1

Usando el método de momentos estime la proporción de artı́culos de-

fectuosos en esta lı́nea de producción.

2.3. Método de máxima verosimilitud

Este método fue popularizado por Ronald Fisher2 a través de sus trabajos
publicados durante la segunda década del siglo XX, aunque la idea funda-
mental del método habı́a sido usada con anterioridad por varios matemáti-
cos importantes como Gauss y Laplace. Explicaremos a continuación este
interesante método. Supongamos que X1 , . . . , Xn es una muestra aleatoria
de una distribución con función de densidad o de probabilidad conocida
f px; θq, pero en donde el parámetro θ no está determinado.

Definición 2.6 La función de verosimilitud de una muestra aleatoria

X1 , . . . , Xn de una distribución f px; θq se denota por Lpθq y se define
como la función de densidad o de probabilidad conjunta

Lpθq “ fX1 ,...,Xn px1 , . . . , xn ; θq. (2.1)

Observemos que, como la notación lo sugiere, por ahora nos interesa estudiar
esta función como función del parámetro θ. Ası́, el parámetro θ se considera
2
Ronald Aylmer Fisher (1890-1962), estadı́stico y genetista inglés.
2.3 Método de máxima verosimilitud 23

como una variable que toma valores en el espacio parametral correspondiente

Θ. Los valores de la muestra aleatoria x1 , . . . , xn son considerados como
constantes. Observemos que, usando la hipótesis de independencia entre las
variables de la muestra aleatoria, la función de verosimilitud adquiere la
forma del siguiente producto

Lpθq “ fX1 px1 ; θq ¨ ¨ ¨ fXn pxn ; θq. (2.2)

Por la hipótesis de idéntica distribución omitiremos los subı́ndices de estas

funciones y escribiremos Lpθq “ f px1 ; θq ¨ ¨ ¨ f pxn ; θq. La letra L proviene
del término en inglés likelihood, que tradicionalmente se ha traducido como
verosimilitud. El método de máxima verosimilitud consiste en obtener el
valor de θ que maximiza la función de verosimilitud Lpθq. La idea intuitiva
es muy natural: se debe encontrar el valor de θ de tal forma que los datos
observados x1 , . . . , xn tengan máxima probabilidad de ser obtenidos. La pro-
babilidad de observar los valores x1 , . . . , xn está directamente relacionada
con la función de verosimilitud y por ello es que se pide maximizarla. En el
caso de una distribución discreta, la función de verosimilitud es la probabi-
lidad de observar los valores x1 , . . . , xn . El valor de θ en donde Lpθq alcanza
su máximo, en caso de existir tal valor, se llama estimación de máxima ve-
rosimilitud o estimación máximo verosı́mil . Ilustraremos este método con
algunos ejemplos.

Ejemplo 2.13 (Un parámetro) Encontraremos el estimador máximo ve-

rosı́mil para el parámetro θ de una distribución exppθq. La función de vero-
similitud es, para θ ą 0,

Lpθq “ f px1 ; θq ¨ ¨ ¨ f pxn ; θq

“ rθ e´θx1 ¨ 1p0,8q px1 qs ¨ ¨ ¨ rθ e´θxn ¨ 1p0,8q pxn qs
“ θn e´θnx̄ ¨ 1p0,8q px1 q ¨ ¨ ¨ 1p0,8q pxn q.

Maximizar la función Lpθq es equivalente a maximizar la función ln Lpθq,

pues la función logaritmo es continua y monótona creciente en su dominio de
definición. Hacemos la operación anterior debido a que la función resultante
es más fácil de maximizar como veremos a continuación. Tenemos que

ln Lpθq “ n ln θ ´ θnx̄ ` lnr1p0,8q px1 q ¨ ¨ ¨ 1p0,8q pxn qs.

24 2. Estimación puntual

Derivando respecto a θ e igualando a cero se llega a la ecuación

n
´ nx̄ “ 0,
θ
de donde se obtiene θ̂ “ 1{x̄. Calculando la segunda derivada se puede
comprobar que en este valor la función de verosimilitud tiene, efectivamente,
un máximo. Si x1 , . . . , xn son los valores numéricos observados de la muestra,
entonces el número θ̂px1 , . . . , xn q “ 1{x̄ es la estimación (máxima verosı́mil
) para θ. El estimador (máximo verosı́mil ) es la variable aleatoria
1
θ̂ “ .
X̄
‚

Ejemplo 2.14 (Un parámetro) Sea X1 , . . . , Xn una muestra aleatoria de

una distribución geopθq. Encontraremos el estimador por máxima verosimi-
litud para el parámetro θ. La función de verosimilitud es
Lpθq “ f px1 ; θq ¨ ¨ ¨ f pxn ; θq
“ rθ p1 ´ θqx1 ¨ 1t0,1,...u px1 qs ¨ ¨ ¨ rθ p1 ´ θqx1 ¨ 1t0,1,...u pxn qs
“ θn p1 ´ θqnx̄ ¨ 1t0,1,...u px1 q ¨ ¨ ¨ 1t0,1,...u pxn q
Tomando logaritmo se obtiene
ln Lpθq “ n ln θ ` nx̄ ln p1 ´ θq ` ln r1t0,1,...u px1 q ¨ ¨ ¨ 1t0,1,...u pxn qs.
Derivando respecto a θ e igualando a cero se llega a la ecuación
n nx̄
´ “ 0.
θ 1´θ
De donde se obtiene que la estimación es el número θ̂ “ 1{p1 ` x̄q. El
estimador (máximo verosı́mil) es la variable aleatoria
1
θ̂ “ .
1 ` X̄
Nuevamente, mediante el cálculo de la segunda derivada se puede comprobar
que el valor encontrado es un punto crı́tico en donde la función de verosimi-
litud Lpθq tiene efectivamente un máximo global en el espacio parametral
el intervalo p0, 1q. ‚
2.3 Método de máxima verosimilitud 25

El método de máxima verosimilitud puede aplicarse también en el caso

cuando la distribución depende de dos o mas parámetros. En el siguiente
ejemplo encontraremos los estimadores de máxima verosimilitud para los
parámetros µ y σ 2 de una distribución normal.

Ejemplo 2.15 (Dos parámetros) Dada una muestra aleatoria de la dis-

tribución Npµ, σ 2 q, la función de verosimilitud es, para valores µ P R y
σ 2 ą 0,

Lpµ, σ 2 q “ f px1 ; µ, σ 2 q ¨ ¨ ¨ f pxn ; µ, σ 2 q

1 2 2 1 2 2
“ ? e´px1 ´µq {2σ ¨ ¨ ¨ ? e´pxn ´µq {2σ
2πσ 2 2πσ 2
ˆ ˙n n
1 1 ÿ
“ ? exp p´ 2 pxi ´ µq2 q.
2πσ 2 2σ i“1

Nuevamente, el logaritmo de esta función es más sencillo de maximizar. Ası́,

tenemos que
n
2 n 2 1 ÿ
ln Lpµ, σ q “ ´ ln p2πσ q ´ 2 pxi ´ µq2 .
2 2σ i“1

Por lo tanto,
n
B 1 ÿ
ln Lpµ, σ 2 q “ pxi ´ µq,
Bµ σ 2 i“1
n
B 2 n 1 ÿ
ln Lpµ, σ q “ ´ ` pxi ´ µq2 .
Bσ 2 2σ 2 2σ 4 i“1

Igualando a cero ambas derivadas encontramos un sistema de dos ecuaciones

con dos variables,
n
1 ÿ
pxi ´ µq “ 0,
σ 2 i“1
n
n 1 ÿ
´ ` pxi ´ µq2 “ 0.
2σ 2 2σ 4 i“1
26 2. Estimación puntual

De estas ecuaciones se obtiene µ “ n1 ni“1 xi y σ 2 “ n1 ni“1 pxi ´ µ̂q2 . Por

ř ř
lo tanto, los estimadores por el método de máxima verosimilitud son
n
1ÿ
µ̂ “ Xi “ X̄,
n i“1
n
1ÿ n´1 2
σ̂ 2 “ pXi ´ X̄q2 “ S .
n i“1 n

Para verificar que la función de verosimilitud tiene efectivamente un máximo

en este punto, es necesario calcular la matriz hessiana
ˇ
ˇ B2 2
ˇ
2 B 2
ˇ
ˇ ln Lpµ, σ q 2
ln Lpµ, σ q ˇ
2
Hpµ, σ q “ ˇ
ˇ BµBµ BµBσ ˇ
ˇ.
2 2
ˇ
ˇ B B
2 2 ˇ
ˇ
ˇ Bσ 2 Bµ ln Lpµ, σ q ln Lpµ, σ q
Bσ 2 Bσ 2 ˇ

Se evalúa H en el punto pµ̂, σ̂ 2 q y se comprueba que la matriz Hpµ̂, σ̂ 2 q es

negativa definida. Véase la página 203 del Apéndice en donde se hace una
revisión de este procedimiento. Observemos que, para esta distribución, los
estimadores por máxima verosimilitud coinciden con los encontrados por el
método de momentos. Esto no siempre es ası́. ‚

El siguiente ejemplo muestra algunas cuestiones técnicas que pueden surgir

al buscar el máximo de una función de verosimilitud.

Ejemplo 2.16 Consideremos una muestra aleatoria X1 , . . . , Xn de una dis-

tribución unifp0, θq, cuya función de densidad se puede escribir como sigue

1
f px; θq “ ¨1 pxq,
θ p0,θq
en donde θ ą 0 es un parámetro desconocido que deseamos estimar. La
función de verosimilitud es
1
Lpθq “ ¨1 px1 q ¨ ¨ ¨ ¨ 1p0,θq pxn q
θn p0,θq
1
“ ¨1 xi , 8q pθq ¨ 1p0,8q pmı́n xi q.
θn pmáx
i
i
2.3 Método de máxima verosimilitud 27

Lpθq

1
θn

ˆ ˆ ˆ θ
xp1q xp2q ¨¨¨ xpnq

Figura 2.3

Se puede comprobar que la función Lpθq es constante cero hasta el valor

xpnq “ máxi xi y toma la expresión 1{θn después de ese valor. Véase la
Figura 2.3 en donde xpiq es el i-ésimo valor ordenado de la muestra.
Ası́, la función de verosimilitud nunca alcanza su máximo y el estimador
máximo versimil no existe en este caso. Esta situación puede subsanarse
si se considera que la distribución uniforme se tiene sobre el intervalo con
extremo derecho cerrado p0, θs, en cuyo caso el estimador máximo verosı́mil
existe y es θ̂ “ Xpnq .
‚

Habiendo mostrado algunos ejemplos del método de máxima verosimilitud,

haremos ahora algunas observaciones generales sobre este método para es-
timar parámetros.

a) Aplicación general. En los ejemplos mostrados se aplicó el método de

máxima verosimilitud cuando la función de verosimilitud toma la forma
del producto en la ecuación (2.2). Esto es consecuencia de la hipótesis de
independencia de las variables de la muestra aleatoria. Sin embargo, el
método es más general y se puede aplicar también cuando no se tenga esta
hipótesis de independencia y la función a maximizar es la que aparece
en la ecuación (2.1).

b) Diferenciabilidad. El procedimiento usual de maximización de la función

de verosimilitud a través del cálculo de derivadas puede llevarse a cabo
únicamente cuando el parámetro θ puede tomar un continuo de valores,
28 2. Estimación puntual

cuando la función de verosimilitud sea diferenciable y cuando ésta alcance

un máximo global en un único punto θ̂ dentro de su rango de valores.
El método de máxima verosimilitud no presupone necesariamente el uso
de las derivadas para su aplicación. Por ejemplo, si un parámetro toma
valores enteros, otra técnica de maximización debe utilizarse.

c) Solubilidad. El método de máxima verosimilitud presupone que encontrar

el punto en donde la función de verosimilitud es máxima no es difı́cil de
encontrar.

d) Transformación. Como se ha ilustrado en los ejemplos, en algunas oca-

siones resulta más conveniente maximizar el logaritmo de la función de
verosimilitud que la función de verosimilitud misma. Cualquier otra fun-
ción monótona y diferenciable puede ser usada convenientemente.

e) Existencia y unicidad. El estimador máximo verosı́mil puede no existir

como en el caso de la distribución unifp0, θq, y puede no ser único como
en el caso de la distribución ...

En ocasiones nos interesará estudiar funciones de un parámetro o conjunto

de parámetros de una distribución. Tal concepto se formaliza en la siguiente
definición.

Definición 2.7 Sea θ un parámetro o vector de parámetros de una fun-

ción de probabilidad o de densidad f px; θq. A cualquier función θ ÞÑ τ pθq,
con dominio adecuadamente definido, se le llama función parametral.

Ahora, supongamos que θ̂ es el estimador máximo verosı́mil para θ. Si con-

sideramos a una función parametral τ pθq como un nuevo parámetro que
necesita ser estimado por el método de máxima verosimilitud, ¿será cierto
que su estimador máximo verosı́mil es τ pθ̂q? Para responder a esta pregun-
ta, observemos, primeramente, que no está claro cuál serı́a la función de
verosimilitud asociada al nuevo parámetro τ pθq. Vamos a definir primero a
esta función y después contestaremos la pregunta planteada.
2.3 Método de máxima verosimilitud 29

Definición 2.8 La función de verosimilitud asociada a una función pa-

rametral τ pθq se define de la forma siguiente: si η es un posible valor de
τ pθq, entonces
L˚ pηq “ sup tLpθq : θ P τ ´1 pηqu. (2.3)
Al posible valor η̂ que maximiza L˚ pηq se le llama el estimador máximo
verosı́mil para τ pθq.

Observemos que el conjunto que aparece en (2.3) corresponde al conjunto no

vacı́o de todas las evaluaciones Lpθq en donde θ es una preimagen del valor
η y se puede escribir como Lpτ ´1 pηqq, esto es la aplicación de la función
L en cada elemento del conjunto τ ´1 pηq. Al tomar el supremo sobre este
conjunto se obtiene la función numérica L˚ pηq, a la cual consideraremos
como la función de verosimilitud de la función parametral τ pθq.

Ejemplo 2.17 Sea θ el parámetro de la distribución Berpθq, con 0 ă θ ă 1,

y sea Lpθq la función de verosimilitud de una muestra aleatoria de esta distri-
bución. En este ejemplo consideraremos dos ejemplos de funciones parame-
trales τ pθq y encontraremos las funciones de verosimilitud correspondientes.

a) Consideremos la función parametral τ pθq “ θ2 . En este caso la función

parametral también toma valores en el intervalo p0, 1q como lo hace θ
y es una función uno a uno. Véase la Figura 2.4 (a). La función de
verosimilitud para τ pθq se puede escribir como
?
L˚ pηq “ Lpτ ´1 pηqq “ Lp ηq para 0 ă η ă 1.

b) Consideremos ahora la función parametral τ pθq “ θp1 ´ θq. Esta función

también toma valores en p0, 1q pero, para cada uno de sus valores η, hay
dos preimágenes θ1 y θ2 como se muestra en la Figura 2.4 (b). Ası́, la
función de verosimilitud para τ pθq está dada de la siguiente manera:

L˚ pηq “ máx tLpθ1 q, Lpθ2 qu para η P p0, 1q.

‚
30 2. Estimación puntual

τ pθq “ θ2 τ pθq “ θp1 ´ θq

1 1
η
η

? θ θ
η 1 θ1 θ2 1

(a) (b)
Figura 2.4

El siguiente resultado da respuesta afirmativa a la pregunta planteada lı́neas

arriba.

Teorema 2.1 (Principio de invarianza) Sea θ̂ el estimador máximo

verosı́mil para un parámetro θ y sea τ pθq cualquier función parametral.
El estimador máximo verosı́mil para τ pθq es τ pθ̂q.

Demostración.

a) Consideremos primero el caso cuando la función θ ÞÑ τ pθq es uno a uno.

Entonces la función inversa de τ existe y la función de verosimilitud para
τ pθq se puede expresar de la siguiente forma: si η “ τ pθq,

L˚ pηq “ Lpτ ´1 pηqq “ Lpθq.

De esta manera, el máximo de L˚ pηq coincide con el máximo de Lpθq

y este último se alcanza en θ̂. Entonces L˚ pηq alcanza su máximo en
η “ τ pθ̂q.

b) Veamos ahora el caso cuando θ ÞÑ τ pθq no necesariamente es una función

uno a uno. Por la identidad (2.3), el valor máximo del conjunto de valores
2.3 Método de máxima verosimilitud 31

L˚ pηq coincide con el valor máximo de Lpθq. Este último se alcanza en

θ̂. Por lo tanto, si η̂ es el valor τ pθ̂q, entonces

L˚ pη̂q “ L˚ pτ pθ̂qq “ Lpτ ´1 pτ pθ̂qqq Ě Lpθ̂q.

Por lo tanto, L˚ pηq alcanza su máximo en η “ τ pθ̂q.

Observemos que el principio de invarianza es también válido cuando el

parámetro θ es un vector de parámetros. En efecto, en la demostración que
hemos presentado no se presupone que θ sea un parámetro unidimensional.
Veamos algunos ejemplos.

Ejemplo 2.18 El estimador máximo verosı́mil para el parámetro θ en la

distribución Berpθq es θ̂ “ X̄. Entonces el estimador máximo verosı́mil para
la función parametral τ pθq “ θ2 es τ pθ̂q “ X̄ 2 . Si ahora consideramos la
función parametral τ pθq “ θp1 ´ θq, entonces el estimador máximo verosı́mil
para τ pθq es τ pθ̂q “ X̄p1 ´ X̄q. ‚

Ejemplo 2.19 Los estimadores máximo verosı́miles para µ y σ 2 en la dis-

tribución Npµ, σ 2 q son µ̂ “ X̄ y σ̂ 2 “ ppn ´ 1q{nq S 2 . Por el principio de
invarianza, el estimador máximo verosı́mil para

a) τ pµ, σ 2 q “ µ ` 5 es τ pµ̂, σ̂ 2 q “ X̄ ` 5.
c
2 n´1
b) τ pµ, σ 2 q “µ`σ es τ pµ̂, σ̂ q “ X̄ ` S.
n

µ n X̄
c) τ pµ, σ 2 q “ es τ pµ̂, σ̂ 2 q “ .
σ2 n ´ 1 S2
‚
32 2. Estimación puntual

Ejercicios
21. Sea X1 , . . . , Xn una muestra aleatoria de una distribución con función
de probabilidad o de densidad f px; θq, dependiente de un parámetro
desconocido θ como se indica en cada caso. Encuentre el estimador
para θ mediante el método de máxima verosimilitud.

& 1 si x “ 1, 2, . . . , θ; θ P N,
$

a) f px; θq “ θ
% 0 en otro caso.

2x
$
& si x “ 1, 2, . . . , θ; θ P N,
b) f px; θq “ θpθ ` 1q
0 en otro caso.
%

& 2x
$
si 0 ď x ď θ; θ ą 0,
c) f px; θq “ θ2
% 0 en otro caso.
#
θp1 ´ θqx´1 si x “ 1, 2, . . . ; 0 ă θ ă 1,
d ) f px; θq “
0 en otro caso.
#
e´px´θq si θ ď x ă 8; θ P R,
e) f px; θq “
0 en otro caso.
#
θxθ´1 si 0 ă x ă 1; θ ą 0,
f ) f px; θq “
0 en otro caso.

22. Algunas distribuciones discretas. Compruebe que los estimadores por

el método de máxima verosimilitud para los parámetros de las distri-
buciones discretas que aparecen en la tabla de la Figura 2.5 son los
indicados. Suponga que X1 , . . . , Xn es una muestra aleatoria de ta-
maño n de la distribución en estudio. En caso necesario consulte en
un apéndice al final del texto la expresión y notación de los paráme-
tros para estas distribuciones. Observe, sin embargo, que el parámetro
n se reserva para el tamaño de la muestra aleatoria. Para hacer las
2.3 Método de máxima verosimilitud 33

Distribución Parámetro(s) Estimador(es) por

máxima verosimilitud

unift1, . . . , ku k P t1, 2, . . .u k̂ “ Xpnq

Berppq p P p0, 1q p̂ “ X̄

binpk, pq k P t1, 2, . . .u k̂ “ ¨ ¨ ¨
p P p0, 1q p̂ “ ¨ ¨ ¨

1
geoppq p P p0, 1q p̂ “
1 ` X̄

bin negpr, pq r P t1, 2, . . .u r̂ “ ¨ ¨ ¨

p P p0, 1q p̂ “ ¨ ¨ ¨

Poissonpλq λ P p0, 8q λ̂ “ X̄

Figura 2.5

fórmulas cortas se utiliza nuevamente la notación

n
1ÿ
m1 “ Xi ,
n i“1
n
1ÿ 2
m2 “ X .
n i“1 i
Nota: *** se indica únicamente el resultado producido por el método
de máxima verosimilitud, sin garantizar que el estimador tome valores
en el espacio parametral correspondiente. Por su complejidad, se omite
el caso de la distribución hipergeopN, K, nq.
23. Algunas distribuciones continuas. Compruebe que los estimadores por
el método de máxima verosimilitud para los parámetros de las dis-
tribuciones continuas que aparecen en la tabla de la Figura 2.6 son
34 2. Estimación puntual

los indicados. Suponga que X1 , . . . , Xn es una muestra aleatoria de

tamaño n de la distribución en estudio. En caso necesario consulte en
un apéndice al final del texto la expresión y notación de los paráme-
tros para estas distribuciones. Observe, sin embargo, que el parámetro
n se reserva para el tamaño de la muestra aleatoria.
Nota: se indica únicamente el resultado producido por el método de
máxima verosimilitud, sin garantizar que el estimador tome valores en
el espacio parametral correspondiente. Se incluye el caso de la distri-
bución normal desarrollado antes como ejemplo.

24. Suponga que los datos que se muestran en la tabla que aparece abajo
corresponden a 50 observaciones de una variable aleatoria con distri-
bución binpk, pq, en donde k “ 5 y p es desconocido. Encuentre el
estimador máximo verosı́mil para la probabilidad P pX ě 2q.

x 0 1 2 3 4 5
Frecuencia 6 10 14 13 6 1

25. Sea X1 , . . . , Xn una muestra aleatoria de la distribución exppθq, en

donde θ ą 0 es desconocido. Suponga que en lugar de observar esta
muestra aleatoria se observan las primeras k estadı́sticas de orden
Xp1q ď Xp2q ď ¨ ¨ ¨ ď Xpkq , en donde k ď n. Encuentre el estimador
máximo verosı́mil para θ usando Xp1q , . . . , Xpkq .

26. Sea X1 , . . . , Xn una muestra aleatoria de la distribución Berpθq, con

0 ă θ ă 1 desconocido. Encuentre el estimador por el método de
máxima verosimilitud para la función parametral τ pθq indicada.

a) τ pθq “ θ2 .
b) τ pθq “ θ{p1 ´ θq.
c) τ pθq “ θp1 ´ θq.

27. Distribución uniforme. Considere la distribución unifr´θ, 2θs, en don-

de θ ą 0 es desconocido y se desea estimar a través de una muestra
aleatoria X1 , . . . , Xn . Encuentre el estimador para θ por el método de
máxima verosimilitud.
2.3 Método de máxima verosimilitud 35

Distribución Parámetro(s) Estimador(es) por

máxima verosimilitud

4m21 ´ 3m2
unifpa, bq aăb â “ (Revisar)
2m1 ´ 1
3m2 ´ 2m1
b̂ “ (Revisar)
2m1 ´ 1
1
exppλq λ P p0, 8q λ̂ “ (Revisar)
m1

m21
gammapγ, λq γ P p0, 8q γ̂ “ (Revisar)
m2 ´ m21
m1
λ P p0, 8q λ̂ “ (Revisar)
m2 ´ m21

Npµ, σ 2 q µ P p´8, 8q µ̂ “ m1 “ X̄ (Revisar)

n´1 2
σ 2 P p0, 8q σ̂ 2 “ m2 ´ m21 “ S (Revisar)
n
m1 pm1 ´ m2 q
betapa, bq a P p0, 8q â “
m2 ´ m21
p1 ´ m1 qpm1 ´ m2 q
b P p0, 8q b̂ “ (Revisar)
m2 ´ m21

Weibullpα, λq α P p0, 8q α̂ “ ¨ ¨ ¨
λ P p0, 8q λ̂ “ ¨ ¨ ¨

χ2 pkq k P p0, 8q k̂ “ m1 (Revisar)

2m2
tpkq k P p0, 8q k̂ “ (Revisar)
m2 ´ 1

2m21
Fpa, bq a P p0, 8q â “ (Revisar)
m21
´ m2 p2 ´ m1 q
2m1
b P p0, 8q b̂ “ (Revisar)
m1 ´ 1

Figura 2.6
36 2. Estimación puntual

28. Distribución doble exponencial. Sea X1 , . . . , Xn una muestra aleatoria

de la distribución f px; θq como aparece especificada abajo, en donde
θ ą 0 es un parámetro desconocido. Obtenga el estimador para θ por
el método de máxima verosmilitud.
1 ´θ|x|
f px; θq “ θe ´ 8 ă x ă 8.
2

29. Distribución Rayleigh. Sea X1 , . . . , Xn una muestra aleatoria de la

distribución Rayleigh f px; θq, como aparece abajo, en donde θ ą 0 es
un parámetro no conocido. Encuentre el estimador para θ por máxima
verosimilitud.

& 2x e´x2 {θ si x ą 0,
$

f px; θq “ θ
0 en otro caso.
%

30. Sea X1 , . . . , Xn una muestra aleatoria de la distribución f px; θq que

se especifica abajo, en donde θ ą 0 es un parámetro desconocido.
Encuentre el estimador por el método de máxima verosimilitud para

a) el parámetro θ.
b) la probabilidad P pX ą 1q.

& 1 e´x{θ si x ą 0,
$

f px : θq “ θ
0 en otro caso.
%

31. Las siguientes distribuciones dependen de dos parámetros: uno des-

conocido denotado por la letra θ y otro que supondremos conocido
y que se denota por una letra distinta. Encuentre el estimador por
el método de máxima verosimilitud para el parámetro desconocido θ,
suponiendo un tamaño de muestra n.

a) binpk, θq. e) unifpa, θq.

b) binpθ, pq. f) unifpθ, bq.
c) bin negpr, θq. g) gammapθ, λq.
d) bin negpθ, pq. h) gammapγ, θq.
2.3 Método de máxima verosimilitud 37

i ) Npθ, σ 2 q. m) Weibullpθ, λq.

j ) Npµ, θq. n) Weibullpα, θq.
k ) betapa, θq. ñ) Fpa, θq.
l ) betapθ, bq. o) Fpθ, bq, b ą 4.

32. Tres parámetros. Sean X1 , . . . , Xn y Y1 , . . . , Ym dos muestras aleato-

rias independientes, la primera de la distribución Npµ1 , σ 2 q y la se-
gunda de la distribución Npµ2 , σ 2 q, en donde todos los parámetros
son desconocidos. Observe que la varianza es la misma para ambas
distribuciones. Encuentre el estimador por el método de máxima ve-
rosimilitud para el vector de parámetros pµ1 , µ2 , σ 2 q.

33. Proceso de Poisson. Un proceso de Poisson de parámetro θ ą 0 es un

proceso estocástico a tiempo continuo tXt : t ě 0u que satisface las
siguientes propiedades.

a) X0 “ 0 c.s.
b) Tiene incrementos independientes.
c) Xt ´ Xs „ Poissonpθpt ´ sqq, para 0 ď s ă t.

Suponga que el parámetro θ es desconocido y que deseamos estimar-

lo a través de n observaciones del proceso Xt1 , . . . , Xtn , en donde
0 ă t1 ă ¨ ¨ ¨ ă tn son tiempos fijos. Observe que las variables alea-
torias Xt1 , . . . , Xtn no son independientes. Use el método de máxima
verosimilitud para estimar θ.

34. Movimiento Browniano. Un movimiento Browniano unidimensional

de parámetro θ ą 0 es un proceso estocástico a tiempo continuo tBt :
t ě 0u que satisface las siguientes propiedades.

a) B0 “ 0 c.s.
b) Las trayectorias son continuas.
c) Tiene incrementos independientes.
d ) Bt ´ Bs „ Np0, θpt ´ sqq, para 0 ď s ă t.
38 2. Estimación puntual

Suponga que el parámetro θ es desconocido y que deseamos estimar-

lo a través de n observaciones del proceso Bt1 , . . . , Btn , en donde
0 ă t1 ă ¨ ¨ ¨ ă tn son tiempos fijos. Observe que las variables alea-
torias Bt1 , . . . , Btn no son independientes. Use el método de máxima
verosimilitud para estimar θ.

2.4. Insesgamiento
Puesto que un estimador es una variable aleatoria que se utiliza para estimar
un parámetro desconocido, es interesante comprobar si el valor promedio de
esta variable aleatoria coincide con el valor del parámetro. Esta serı́a una
buena propiedad para un estimador y es lo que motiva la siguiente definición.

Definición 2.9 Una estadı́stica θ̂ es un estimador insesgado para el

parámetro θ si cumple la condición

Epθ̂q “ θ. (2.4)

De esta forma, un estimador es insesgado para un parámetro si, en promedio,

el valor del estimador es idéntico al valor desconocido del parámetro. En los
siguientes ejemplos veremos que es posible verificar esta condición a pesar
de no conocer el valor del parámetro.

Ejemplo 2.20 Sea X1 , . . . , Xn una muestra aleatoria de la distribución

Poissonpθq, con θ ą 0 desconocido. Comprobaremos que la media mues-
tral X̄ es un estimador insesgado para θ. Por la propiedad de linealidad de
la esperanza tenemos que
n n n
1ÿ 1 ÿ 1 ÿ
EpX̄q “ Ep Xi q “ EpXi q “ θ “ θ.
n i“1 n i“1 n i“1

De esta manera, sin conocer el valor de θ hemos comprobado que el estima-

dor X̄ coincide, en promedio, con θ. ‚
2.4 Insesgamiento 39

Es interesante observar que el cálculo desarrollado en el ejemplo anterior no

depende de la distribución en estudio, de modo que podemos afirmar que la
media muestral es siempre un estimador insesgado del posible parámetro o
función parametral que pudiera aparecer en la esperanza de la distribución
de interés. Por ejemplo, si la distribución en cuestión es binpk, pq, entonces
X̄ es un estimador insesgado para la función parametral τ pk, pq “ kp.

En general, los estimadores insesgados no son únicos, pueden proponerse

varias estadı́sticas que resulten ser estimadores insesgados para un mismo
parámetro. Esto se muestra en el siguiente ejemplo.

Ejemplo 2.21 Sea X1 , X2 , X3 una muestra aleatoria de tamaño n “ 3 de

la distribución Berpθq, con θ ą 0 desconocido. Usando la propiedad de li-
nealidad de la esperanza, se puede comprobar que los siguientes estimadores
para θ son insesgados.

a) θ̂1 “ X1 . c) θ̂3 “ pX1 ` 2X2 ` 3X3 q{6.

b) θ̂2 “ pX1 ` 2X2 q{3. d) θ̂4 “ pXp1q ` Xp2q q{2.

El siguiente es un ejemplo menos evidente e importante de insesgamiento.

Ejemplo 2.22 Sea X1 , . . . , Xn una muestra aleatoria de la distribución

N pµ, θq, en donde la varianza θ ą 0 es desconocida y es el parámetro que
nos interesa estimar. Podemos suponer que el parámetro µ es conocido aun-
que tal hipótesis no es relevante en el siguiente análisis. Recordemos que la
varianza muestral es una estadı́stica definida como sigue
n
1 ÿ
S2 “ pXi ´ X̄q2 .
n ´ 1 i“1

Comprobaremos que S 2 es un estimador insesgado para la varianza desco-

nocida θ. Esta es la razón por la que aparece el término n ´ 1 como denomi-
nador en la definición de varianza muestral, y no n, como uno inicialmente
40 2. Estimación puntual

supondrı́a. Tenemos que

n
1 ÿ
EpS 2 q “ Ep pXi ´ X̄q2 q
n ´ 1 i“1
n
1 ÿ
“ EpXi ´ X̄q2
n ´ 1 i“1
n
1 ÿ
“ EpXi2 q ´ 2EpXi X̄q ` EpX̄ 2 q. (2.5)
n ´ 1 i“1

Se puede comprobar que

#
µ2 si i ‰ j,
EpXi Xj q “
θ ` µ2 si i “ j.

Substituyendo estas expresiones en (2.5) y simplificando se comprueba que

EpS 2 q “ θ. Es decir, S 2 es un estimador insesgado para θ. ‚

Nuevamente observamos que los cálculos anteriores son válidos para cual-
quier distribución con segundo momento finito, no únicamente para la dis-
tribución normal. Hemos usado únicamente la propiedad de la linealidad
de la esperanza y las hipótesis de independencia e idéntica distribución de
las variables de la muestra aleatoria. De este modo, la varianza muestral es
siempre un estimador insesgado del posible parámetro o función parametral
que pudiera aparecer en la varianza de la distribución de interés. Por ejem-
plo, si la distribución en cuestión es binpk, pq, entonces S 2 es un estimador
insesgado para la función parametral τ pk, pq “ kpp1 ´ pq.

Insesgamiento para funciones parametrales

Como hemos mostrado antes, el concepto de insesgamiento se aplica no sólo
para un parámetro de una distribución de probabilidad, sino también para
funciones parametrales. Aquı́ tenemos entonces una extensión natural de la
definición de insesgamiento dada anteriormente.
2.4 Insesgamiento 41

Definición 2.10 Sea θ un parámetro o un vector de parámetros

pθ1 , . . . , θk q de una distribución y sea τ pθq una función parametral . Una
estadı́stica T es un estimador insesgado para τ pθq si

EpT q “ τ pθq.

Por ejemplo, consideremos el caso de la distribución binpk, pq. Después del

Ejemplo 2.20 se ha observado que la estadı́stica media muestral X̄ es un
estimador insesgado para la función parametral (media) τ pk, pq “ kp de
esta distribución. Por otro lado, recién hemos comentado al final del Ejem-
plo 2.22 que la varianza muestral S 2 es un estimador insesgado para la
función parametral (varianza) τ pk, pq “ kpp1 ´ pq de esta distribución.

Funciones de estimadores insesgados

Sea θ̂ un estimador insesgado para un parámetro θ y sea ϕ una función dada,
con dominio de definición adecuado. Nos interesa considerar la estadı́stica
ϕpθ̂q y el problema es el siguiente:

¿Se preserva el insesgamiento bajo transformaciones?

Es decir, nos preguntamos si ϕpθ̂q es un estimador insesgado para ϕpθq. La

respuesta es, en general, negativa. Por ejemplo, sea ϕpxq “ x2 . Aplicare-
mos esta función al estimador insesgado θ̂ “ X̄ para el parámetro de la
distribución Poissonpθq. Puede comprobarse que

θ
Epθ̂2 q “ ` θ2 ‰ θ2 ,
n

es decir, θ̂2 no es insesgado para θ2 . Este hecho es consecuencia de que,

en general, Epϕp¨qq ‰ ϕpEp¨qq. Sin embargo, es interesante observar que en
este ejemplo en particular se cumple que Epθ̂2 q Ñ θ2 cuando n Ñ 8. A esta
propiedad lı́mite de los estimadores le llamaremos insesgamiento asintótico
42 2. Estimación puntual

y ese es el tema de la siguiente sección. Regresando al tema en estudio,

dado que la respuesta a la pregunta arriba planteada fue negativa, surge de
manera natural otra pregunta:

¿Bajo qué condiciones sobre una transformación

se preserva el insesgamiento?

Tal transformación debe satisfacer Epϕpθ̂qq “ ϕpθq “ ϕpEpθ̂qq. Es decir,

la transformación ϕ debe satisfacer la identidad Epϕp¨qq “ ϕpEp¨qq. Esta
identidad se cumple en muy pocos casos. En efecto, si consideramos que el
estimador en cuestión no es constante, entonces se puede comprobar que ϕ
debe ser una función lineal necesariamente. Ası́, omitiendo los casos triviales,
únicamente para transformaciones lineales se preserva el insesgamiento de
manera general.

Ejercicios
35. Distribución Bernoulli. Sabemos que θ̂ “ X̄ es un estimador insesga-
do para el parámetro θ de la distribución Bernoulli. Demuestre que
el estimador θ̂p1 ´ θ̂q no es insesgado para la varianza de esta dis-
tribución. Este es otro ejemplo que muestra que el insesgamiento no
se preserva bajo transformaciones. Proponga un estimador insesgado
para la varianza.

36. Distribución binomial. Sea X1 , . . . , Xn una muestra aleatoria de la dis-

tribución binpk, θq, en donde el número de ensayos k es conocido y la
probabilidad θ es desconocida. Demuestre que los siguientes estima-
dores son insesgados para el parámetro θ.
1
a) θ̂ “ X1
k
1
b) θ̂ “ pX1 ` ¨ ¨ ¨ ` Xn q.
kn
37. Distribución binomial. Sean X1 , . . . , Xm variables aleatorias indepen-
dientes tal que la k-ésima variable aleatoria tiene distribución binpnk , θq,
2.4 Insesgamiento 43

para k “ 1, . . . , m. Suponga que los parámetros n1 , . . . , nm son cono-

cidos y θ es desconocido. Determine si los siguientes estimadores son
insesgados para θ.
X1 ` ¨ ¨ ¨ ` Xm
a) θ̂ “ .
n1 ` ¨ ¨ ¨ ` nm
X1 ` 2X2 ` ¨ ¨ ¨ ` mXm
b) θ̂ “ .
n1 ` 2n2 ` ¨ ¨ ¨ ` m nm
38. Distribución geométrica. Sea X1 , . . . , Xn una muestra aleatoria de la
distribución geopθq, en donde θ es desconocido.

a) El estimador máximo verosı́mil para θ aparece abajo. Demuestre

que este estimador no es insesgado.
1
θ̂ “ .
1 ` X̄

b) Demuestre que el siguiente estimador es insesgado para θ. Su-

ponga n ě 2.
1
θ̂ “ n .
1 ` n´1 X̄

39. Distribución binomial negativa. Sea X1 , . . . , Xn una muestra aleatoria

de la distribución bin negpr, θq, en donde la probabilidad θ es desco-
nocida y r ě 1 es un entero conocido.

a) El estimador máximo verosı́mil para θ aparece abajo. Demuestre

que este estimador no es insesgado.
r
θ̂ “ .
r ` X̄

b) Demuestre que el siguiente estimador es insesgado para θ. Su-

ponga nr ě 2.
1
θ̂ “ n .
1 ` nr´1 X̄

40. Distribución exponencial. Sea X1 , . . . , Xn una muestra aleatoria de la

distribución exppθq, en donde θ es desconocido. Demuestre que el esti-
mador por máxima verosimilitud θ̂, que aparece abajo, no es insesgado.
44 2. Estimación puntual

Proponga un estimador insesgado.

1
θ̂ “ .
X̄

41. Distribución doble exponencial. Sea X1 , . . . , Xn una muestra aleatoria

de la distribución doble exponencial de parámetro desconocido θ ą 0.

θ ´θ|x|
f px; θq “ e , ´8 ă x ă 8.
2

Demuestre que el estimador por máxima verosimilitud θ̂, que aparece

abajo, no es insesgado. Proponga un estimador insesgado.

1
θ̂ “ 1 řn .
n i“1 |Xi |

42. Distribución normal. Sea X1 , . . . , X4 una muestra aleatoria de tamaño

n “ 4 de la distribución Npθ, σ 2 q, en donde la media θ es desconocida y
la varianza σ 2 es conocida. Se proponen los siguientes estimadores para
θ. Determine cual de ellos es el mejor en el sentido de ser insesgado y
tener varianza menor.

a) θ̂1 “ X1 . f ) θ̂6 “ X1 ` θ̂2 ´ X4 .

b) θ̂2 “ X1 ` X4 . 1
g) θ̂7 “ p3X1 ` 2X2 ` X3 q.
c) θ̂3 “ pX1 ` X4 q{2. 6
4
d ) θ̂4 “ pX1 ` X4 q{3. 1 ÿ
h) θ̂8 “ iXi .
e) θ̂5 “ X̄. 10 i“1

43. Distribución normal. Sea X1 , . . . , Xn una muestra aleatoria de la dis-

tribución Npθ, σ 2 q con θ y σ 2 desconocidos. Demuestre que la estadı́sti-
ca que se define a continuación es un estimador insesgado para el
parámetro θ.
2X1 ` 4X2 ` ¨ ¨ ¨ ` 2nXn
θ̂ “ .
npn ` 1q
2.4 Insesgamiento 45

44. Distribución Rayleigh. El estimador por máxima verosimilitud para el

parámetrořθ de la distribución Rayleigh, que se especifica abajo, es
θ̂ “ p1{nq ni“1 Xi2 . Demuestre que este estimador es insesgado.

& 2x e´x2 {θ si x ą 0,
$

f px; θq “ θ
% 0 en otro caso.

45. Sea X1 , . . . , Xn una muestra aleatoria de la distribución f px; θq que se

especifica abajo, en donde θ es un parámetro desconocido.

a) Demuestre que X̄ no es un estimador insesgado para θ.

b) Construya un estimador insesgado para θ.
#
e´px´θq si x ą θ,
f px; θq “
0 en otro caso.

46. Sea X1 , . . . , Xn una muestra aleatoria de la distribución que aparece

abajo, en donde θ ą 0 es un parámetro desconocido. Sea θ̂ el estimador
por máxima verosimilitud.

a) Demuestre que θ̂ no es un estimador insesgado para θ.

b) Proponga un estimador que sea insesgado.
#
pθ ` 1qxθ si 0 ă x ă 1,
f px; θq “
0 en otro caso.

47. Sea X1 , . . . , Xn una muestra aleatoria de la distribución que aparece

abajo, en donde θ es una constante arbitraria desconocida.

a) Demuestre que X̄ no es un estimador insesgado para θ.

b) A partir de X̄ construya un estimador que sea insesgado.
#
e´px´θq si x ą θ,
f pxq “
0 en otro caso.
46 2. Estimación puntual

48. Sea X1 , . . . , Xn una muestra aleatoria de la distribución f px; θq como

aparece especificada abajo, en donde ´1 ă θ ă 1 es un parámetro
desconocido.ř Demuestre que el estimador por el método de momentos
θ̂ “ p5{nq ni“1 Xi3 es insesgado.

& 1 ` θx si ´ 1 ă x ă 1,
$

f px; θq “ 2
0 en otro caso.
%

49. Sea X1 , . . . , Xn una muestra aleatoria de la distribución f px; θq como

aparece especificada abajo, en donde θ ą 0 es un parámetro descono-
cido. Demuestre que el estimador por el método de momentos θ̂ “ 3X̄
es insesgado.
$
& 2pθ ´ xq
si 0 ă x ă θ,
f px; θq “ θ2
0 en otro caso.
%

50. Sea X1 , . . . , Xn una muestra aleatoria de la distribución f px; θq que se

especifica abajo, en donde θ ą 0 es desconocido.
#
θxθ´1 si 0 ă x ă 1; θ ą 0,
f px; θq “
0 en otro caso.

a) Demuestre queřel estimador por el método de máxima verosimi-

litud θ̂ “ ´n{ ni“1 ln Xi no es insesgado.
b) Con base en el inciso anterior, encuentre un estimador insesgado
para θ.

51. Sea X1 , . . . , Xn una muestra aleatoria de una población con media

conocida µ y varianza desconocida θ. Demuestre que el siguiente esti-
mador es insesgado para θ.
n
1 ÿ
θ̂ “ pXi ´ µq2 .
n i“1

52. Combinación lineal convexa de estimadores insesgados. Sean θ̂1 y θ̂2

dos estimadores insesgados para un parámetro θ. Demuestre que, para
2.4 Insesgamiento 47

cualquier valor real de α, el siguiente estimador también es insesgado

para θ.
θ̂ “ α θ̂1 ` p1 ´ αq θ̂2 .

53. Sea X1 , . . . , Xn una muestra aleatoria de una población con distri-

bución Np0, θq, con θ ą 0 desconocido. Demuestre que el siguiente
estimador es insesgado para el parámetro θ.
n
1 ÿ 2
θ̂ “ X .
n i“1 i

54. Sea X1 , . . . , Xn una muestra aleatoria de una distribución dependiente

de un parámetro desconocido θ y cuya media es este mismo parámetro.
Considere la estadı́stica

T “ ϕ1 pX1 q ¨ ¨ ¨ ϕn pXn q,

en donde ϕ1 , . . . , ϕn son funciones lineales de coeficientes conocidos.

Demuestre que T es insesgado para la función parametral

τ pθq “ ϕ1 pθq ¨ ¨ ¨ ϕn pθq.

55. Función de un estimador insesgado no es necesariamente insesgado.

Sabemos que θ̂ “ X̄ es un estimador insesgado para el parámetro θ
de la distribución Bernoulli. Demuestre directamente que θ̂p1 ´ θ̂q no
es un estimador insesgado para la varianza de esta distribución pero
es, sin embargo, asintóticamente insesgado.

56. Sea X1 , . . . , Xn una muestra aleatoria de una distribución con función

de densidad o de probabilidad f px; θq, cuya media es el parámetro θ,
considerado desconocido. Sea E el espacio de todos los estimadores
lineales para θ, esto es,

E “ ta1 X1 ` ¨ ¨ ¨ ` an Xn : a1 , . . . , an P Ru.

Demuestre que X̄ es el único elemento de E que es insesgado y tiene

varianza mı́nima.
48 2. Estimación puntual

57. Sea X1 , . . . , Xn una muestra aleatoria de una distribución con fun-

ción de densidad o de probabilidad f px; θq dependiente de un paráme-
tro desconocido θ y tal que su media es este mismo parámetro. Sean
a1 , . . . , an constantes cualesquiera tales que a1 ` ¨ ¨ ¨` an ‰ 0. Demues-
tre que el siguiente estimador es insesgado para θ.

a 1 X1 ` a 2 X2 ` ¨ ¨ ¨ ` a n Xn
θ̂ “ .
a1 ` ¨ ¨ ¨ ` an

58. Proceso de Poisson. En el Ejercicio 33 se pide encontrar el estima-

dor máximo verosı́mil para el parámetro θ del proceso de Poisson.
Demuestre que este estimador, el cual aparece especificado abajo, es
insesgado.
Xt
θ̂ “ n .
tn

59. Movimiento Browniano. En el Ejercicio 34 se pide encontrar el estima-

dor máximo verosı́mil para el parámetro θ del movimiento Browniano.
Demuestre que este estimador, el cual aparece especificado abajo, es
insesgado.
n
1 ÿ pBti ´ Bti´1 q2
θ̂ “ .
n i“1 ti ´ ti´1

2.5. Insesgamiento asintótico

Si un estimador θ̂ para un parámetro desconocido θ no es insesgado, entonces
se dice que es sesgado y a la diferencia Epθ̂q ´ θ se le llama sesgo. Este sesgo
puede presentar la cualidad de hacerse cada vez más pequeño conforme el
tamaño de la muestra n crece. Si en el lı́mite cuando n Ñ 8 el sesgo
se hace cero, entonces al estimador se le llama asintóticamente insesgado.
Antes de escribir el enunciado formal de esta definición, debemos mencionar
que escribiremos θ̂n en lugar de θ̂ cuando deseemos enfatizar la posible
dependencia de un estimador del tamaño n de la muestra aleatoria. Aquı́
tenemos la definición.
2.5 Insesgamiento asintótico 49

Definición 2.11 Una estadı́stica θ̂n , basada en una muestra aleatoria

X1 , . . . , Xn , es un estimador asintóticamente insesgado para un paráme-
tro θ si
lı́m Epθ̂n q “ θ. (2.6)
nÑ8

Es claro que todo estimador insesgado es asintóticamente insesgado pues la

condición (2.6) se cumple sin necesidad de tomar el lı́mite. Por otro lado,
más adelante tendremos múltiples oportunidades de mostrar que existen
estimadores asintóticamente insesgados que no son insesgados. Estas dos
relaciones generales se muestra gráficamente en la Figura 2.7.

Estimadores
asintóticamente insesgados

Estimadores
insesgados

Figura 2.7

A continuación se presenta un ejemplo de insesgamiento asintótico.

Ejemplo 2.23 Consideremos nuevamente el caso de la distribución N pµ, θq,

en donde la varianza θ ą 0 desconocida. Defina el estimador
n
1 ÿ
θ̂n “ pX1 ´ X̄q2 .
n i“1

Puede comprobarse que θ̂n no es insesgado para θ pero es asintóticamente

50 2. Estimación puntual

insesgado, pues
n´1 2 n´1 n´1
Epθ̂n q “ Ep S q“ EpS 2 q “ θ ÝÝÝÑ θ.
n n n nÑ8

De esta manera, aunque θ̂n no cumple la propiedad de ser insesgado, su

valor promedio no dista demasiado del valor de θ cuando el tamaño n de la
muestra es grande. ‚

Funciones de estimadores asintóticamente insesgados

Sea θ̂n un estimador asintóticamente insesgado para un parámetro θ, cons-
truido a partir de una muestra aleatoria de tamaño n, y sea ϕ una función
dada, con dominio de definición adecuado. La pregunta que nos planteamos
es la siguiente:

¿Se preserva el insesgamiento asintótico bajo transformaciones?

Es decir, nos preguntamos si ϕpθ̂n q también es un estimador asintóticamen-

te insesgado para ϕpθq. La respuesta es, en general, negativa. Resulta que
la propiedad de insesgamiento asintótico no se preserva bajo transforma-
ciones y no es muy difı́cil dar un ejemplo de esta situación. Considere la
función ϕpxq “ x2 aplicada al estimador insesgado θ̂n “ pX1 ` Xn q{2 para
el parámetro θ de la distribución Poisson. Siendo θ̂n insesgado, es asintóti-
camente insesgado. Sin embargo, Epθn2 q no converge a θ2 pues se puede
comprobar que
Epθ̂n2 q “ θ2 ` θ{2.
Surge entonces la siguiente pregunta.

¿Bajo qué condiciones sobre una transformación

se preserva el insesgamiento asintótico?

Supongamos que ϕ es una función continua tal que la sucesión de variables

aleatorias ϕpθ̂n q satisface las condiciones del teorema de convergencia do-
minada o el teorema de convergencia monótona. Estos teoremas permiten
2.5 Insesgamiento asintótico 51

intercambiar el lı́mite con la esperanza. Si tales condiciones se cumplen,

entonces el estimador ϕpθ̂n q es asintóticamente insesgado para ϕpθq pues

lı́m Epϕpθ̂n qq “ Ep lı́m ϕpθ̂n qq

nÑ8 nÑ8
“ Epϕp lı́m θ̂n qq
nÑ8
“ Epϕpθqq
“ ϕpθq.

Ejercicios
60. Distribución Bernoulli. Sea X1 , . . . , Xn una muestra aleatoria de una
distribución Berpθq, con θ desconocido. Demuestre que el estimador
X̄p1 ´ X̄q es asintóticamente insesgado para la varianza de esta dis-
tribución.

61. Distribución Poisson. Sea X1 , . . . , Xn una muestra aleatoria de una

distribución Poissonpθq, en donde θ ą 0 es desconocido. Demuestre
que X̄ 2 es asintóticamente insesgado para θ2 .

62. Distribución uniforme. Sea X1 , . . . , Xn una muestra aleatoria de una

distribución unifp0, θq, en donde θ ą 0 es desconocido.

a) Demuestre que el estimador θ̂ “ máxtX1 , . . . , Xn u no es insesga-

do para θ, sin embargo, es asintóticamente insesgado.
b) Encuentre un estimador insesgado para θ.

63. Distribución exponencial. Sea X1 , . . . , Xn una muestra aleatoria de

una distribución exppθq, con θ desconocido. Demuestre que el estima-
dor por máxima verosimilitud que aparece abajo es asintóticamente
insesgado.
1
θ̂n “ .
X̄
64. Sea X1 , . . . , Xn una muestra aleatoria de una distribución dependiente
de un parámetro desconocido θ, cuya media es este mismo parámetro
y con segundo momento finito. Demuestre que la estadı́stica X̄ 2 es un
estimador asintóticamente insesgado para θ2 .
52 2. Estimación puntual

65. Máxima verosimilitud no implica insesgamiento. Sabemos que el esti-

mador máximo verosı́mil para el parámetro θ de la distribución expo-
nencial es θ̂ “ 1{X̄. Demuestre que θ̂ no es insesgado pero es asintóti-
camente insesgado.

66. Sea X1 , . . . , Xn una muestra aleatoria de una distribución con función

de densidad o de probabilidad f px; θq como aparece abajo, en donde
θ es un parámetro desconocido y con valores reales. Demuestre que el
estimador por máxima verosimilitud θ̂ “ Xp1q no es insesgado pero es
asintóticamente insesgado para θ.
#
e´px´θq si x ě θ,
f px; θq “
0 en otro caso.

67. Sea X1 , . . . , Xn una muestra aleatoria de la distribución f px; θq que

se especifica abajo, en donde θ ą 0 es desconocido. Sabemos ř que el
estimador por el método de máxima verosimilitud θ̂n “ ´n{ ni“1 ln Xi
no es insesgado (Ejercicio 50). Demuestre que θ̂n es asintóticamente
insesgado. #
θxθ´1 si 0 ă x ă 1,
f px; θq “
0 en otro caso.

2.6. Consistencia
Otra manera de medir la bondad de un estimador es a través de la consisten-
cia. Esta propiedad establece la convergencia en probabilidad del estimador
al parámetro a estimar cuando el tamaño de la muestra crece a infinito.

Definición 2.12 Sea θ̂n un estimador para θ, basado en una muestra

aleatoria de tamaño n. Se dice que θ̂n es consistente para θ si θ̂n Ñ θ en
probabilidad, cuando n Ñ 8. Esto es, para cualquier ǫ ą 0,

lı́m P p |θ̂n ´ θ| ą ǫ q “ 0.
nÑ8
2.6 Consistencia 53

De esta manera, la cercanı́a del estimador al parámetro se define en el sentido

p
de la convergencia en probabilidad y se usa la notación θ̂n Ñ θ. Observe
nuevamente que hemos añadido el tamaño de la muestra n como subı́ndice
en el estimador para enfatizar su dependencia implı́cita o explı́cita de esta
cantidad. Veamos un ejemplo de consistencia.

Ejemplo 2.24 Sea X una variable aleatoria con función de densidad o de

probabilidad f px; θq, dependiente de un parámetro desconocido θ, el cual se
desea estimar a través de una muestra aleatoria X1 , . . . , Xn . Supongamos
que EpXq “ θ. Tal situación se presenta, por ejemplo, en la distribución
Bernoulli, la distribución Poisson, o la distribución normal, suponiendo la
varianza conocida. Entonces, por la ley débil de los grandes números, el
p
estimador θ̂ “ X̄ es consistente para θ pues X̄ Ñ EpXq “ θ. ‚
En general, puede ser una tarea complicada demostrar la convergencia en
probabilidad de una sucesión cualquiera de variables aleatorias. Sin embar-
go, cuando el lı́mite es una constante (en este caso, el parámetro a estimar),
tenemos el siguiente criterio para demostrar la consistencia de un estimador.

Proposición 2.1 Sea θ̂n un estimador para θ, basado en una muestra

aleatoria de tamaño n. Si Epθ̂n q Ñ θ y Varpθ̂n q Ñ 0 cuando n Ñ 8,
entonces θ̂n es consistente.

Demostración. Se usa la siguiente versión de la desigualdad de Chebys-

hev: para cualquier ǫ ą 0 y cualquier número real a,
1
P p|X ´ a| ą ǫq ď 2 EpX ´ aq2 .
ǫ
Entonces
1
P p|θ̂n ´ θ| ą ǫq ď Epθ̂n ´ θq2
ǫ2
1
“ Eppθ̂n ´ Epθ̂n qq ` pEpθ̂n q ´ θqq2
ǫ2
1
“ r Varpθ̂n q ` pEpθ̂n q ´ θq2 s
ǫ2
Ñ 0.
54 2. Estimación puntual

Es decir, si un estimador es asintóticamente insesgado y su varianza tiende

a cero, entonces es consistente. En particular, cuando se desee probar la pro-
piedad de consistencia para un estimador insesgado, es suficiente verificar
que la varianza del estimador converge a cero.

Ejemplo 2.25 —– ‚

Por otro lado, es útil recordar que cuando el lı́mite de una sucesión de
variables aleatorias es una constante, la convergencia en probabilidad es
equivalente a la convergencia en distribución. Por lo tanto, tenemos que el
estimador θ̂n es consistente si θ̂n converge en distribución a la constante θ.
d
Esto se escribe θ̂n Ñ θ y constituye un criterio alternativo para demostrar
la consistencia de un estimador.

Proposición 2.2 El estimador θ̂n es consistente para el parámetro θ si

para cualquier x ‰ θ,
#
1 si x ą θ,
lı́m P pθ̂n ď xq “
nÑ8 0 si x ă θ.

Ejemplo 2.26 —– ‚

Es difı́cil no preguntarse si existe alguna relación entre el insesgamiento y

la consistencia de un estimador. ¿Podrı́a una propiedad implicar la otra?
La respuesta es negativa. En el diagrama de la Figura 2.8 se muestra gráfi-
camente que pueden presentarse todas las posibilidades de relación entre
estos dos conceptos. En este diagrama se pueden identificar 5 regiones dis-
juntas y en la tabla de la Figura 2.9 se dan casos particulares de estimadores
que pertenecen a cada una de estas regiones en el caso de estimación del
parámetro θ de la distribución Bernoulli.
2.6 Consistencia 55

Estimadores
asintóticamente
insesgados
Estimadores
consistentes
Estimadores
insesgados

Figura 2.8

El último caso mostrado en la tabla de la Figura 2.9 se desarrolla en el

siguiente ejemplo. En la sección de ejercicios se muestran algunos otros
ejemplos de algunas de las situaciones de la Figura 2.9.

Ejemplo 2.27 (Consistencia ùñ { Insesgamiento ni insesgamiento

asintótico) Sea X1 , . . . , Xn una muestra aleatoria de la distribución Berpθq,
con θ desconocido. Sea Z otra variable aleatoria con distribución Bernoulli,
independiente de las primeras, y tal que

P pZ “ 0q “ pn ´ 1q{n,
P pZ “ 1q “ 1{n.

Ahora se define el estimador

#
X̄ si Z “ 0,
θ̂n “
n si Z “ 1.

Se comprueba que θ̂n no es insesgado, ni asintóticamente insesgado, pues

Epθ̂n q “ Epθ̂n | Z “ 0q P pZ “ 0q ` Epθ̂n | Z “ 1q P pZ “ 1q

n´1
“ θ `1
n
Ñ θ ` 1 cuando n Ñ 8.
56 2. Estimación puntual

Distribución Estimador Insesgado Asint. insesgado Consistente

Berpθq X̄ X X X
n
Berpθq n´1 X̄ ✗ X X
Berpθq X1 X X ✗
n
Berpθq n´1 X1 ✗ X ✗
Berpθq Ejemplo 2.27 ✗ ✗ X

Figura 2.9

Sin embargo, θ̂n es consistente pues para cualquier ǫ ą 0,

P p|θ̂n ´ θ| ą ǫq “ P p|θ̂n ´ θ| ą ǫ | Z “ 0q P pZ “ 0q
`P p|θ̂n ´ θ| ą ǫ | Z “ 1q P pZ “ 1q
n´1 1
“ P p|X̄ ´ θ| ą ǫq ` P p|n ´ θ| ą ǫq
n n
Ñ 0 cuando n Ñ 8.
‚
Para concluir esta sección y a manera de resumen de las definiciones de
insesgamiento, insesgamiento asintótico y consistencia, tenemos la siguiente
tabla.

Condición Propiedad

Epθ̂n q “ θ Insesgamiento
Epθ̂n q Ñ θ Insesgamiento asintótico
p
θn Ñ θ Consistencia

Ejercicios
68. Convergencia en distribución. Demuestre que un estimador θ̂n es con-
2.6 Consistencia 57

sistente para el parámetro θ si, y sólo si, θ̂n converge en distribución

a la constante θ.

69. Propiedades de la convergencia en probabilidad a una constante. Sea

θ̂n un estimador consistente para θ. Demuestre que

a) aθ̂n ` b es consistente para aθ ` b.

b) θ̂n2 es consistente para θ2 .
c) |θ̂n | es consistente para |θ|.
d ) eθn es consistente para eθ .
e) 1{θ̂n es consistente para 1{θ, suponiendo θ̂n ‰ 0, θ ‰ 0.

En el siguiente ejercicio se generalizan estos resultados.

70. Funciones continuas de estimadores consistentes. Sea θ̂n un estimador

consistente para θ y sea ϕ una función continua con dominio adecuado.
Demuestre que ϕpθ̂n q es consistente para la función parametral ϕpθq.

71. Distribución Bernoulli. Sea X1 , . . . , Xn una muestra aleatoria de la

distribución Berpθq, con θ desconocido. Demuestre que X̄ es un esti-
mador consistente para θ.

72. Distribución uniforme. Sea X1 , . . . , Xn una muestra aleatoria de la

distribución unifp0, θq, con parámetro θ ą 0 desconocido. Demuestre
que máxtX1 , . . . , Xn u es un estimador consistente para θ.

73. Distribución exponencial. Demuestre directamente que el estimador

máximo verosı́mil θ̂ “ 1{X̄ para el parámetro desconocido θ de la
distribución exponencial es consistente.

74. Distribución normal. Sea X1 , . . . , Xn una muestra aleatoria de la dis-

tribución Npµ, σ 2 q, en donde tanto µ como σ 2 son desconocidos. De-
muestre que el estimador σ̂ 2 que aparece abajo no es insesgado pero
es consistente para σ 2 .
n
1 ÿ
σ̂ 2 “ pXi ´ X̄q2 .
n i“1
58 2. Estimación puntual

75. Sean X1 , . . . , Xn variables aleatorias independientes tal que la i-ési-

ma variable tiene distribución binpki , θq. Suponga que los parámetros
k1 , . . . , kn son conocidos, pero θ es desconocido. Es inmediato compro-
bar que los siguientes estimadores son insesgados para θ. Demuestre
ahora que son consistentes.
X1 ` ¨ ¨ ¨ ` Xn
a) θ̂n “ .
k1 ` ¨ ¨ ¨ ` kn
X1 ` 2X2 ` ¨ ¨ ¨ ` nXn
b) θ̂n “ .
k1 ` 2k2 ` ¨ ¨ ¨ ` n kn
76. Consistencia ùñ { Insesgamiento. Sea X1 , . . . , Xn una muestra aleato-
ria de la distribución exppθq, con θ desconocido. Sabemos que el esti-
mador θ̂ que aparece abajo no es insesgado para θ. Demuestre que θ̂
es consistente. Este es un ejemplo de un estimador que es consistente
pero no es insesgado.
1
θ̂ “ .
X̄
77. Sea X1 , . . . , Xn una muestra aleatoria de la distribución que aparece
abajo, en donde θ ą ´1 es un parámetro desconocido. Demuestre que
el estimador por máxima verosimilitud θ̂n “ ´1 ´ n{ ni“1 ln Xi es
ř
consistente.
#
pθ ` 1qxθ si 0 ă x ă 1,
f px; θq “
0 en otro caso.

78. Sea X1 , . . . , Xn una muestra aleatoria de la distribución f px; θq como

aparece especificada abajo, en donde θ ą 0 es un parámetro desconoci-
do. Demuestre que el estimador por el método de momentos θ̂n “ 3X̄
es consistente.
$
& 2pθ ´ xq
si 0 ă x ă θ,
f px; θq “ θ2
0 en otro caso.
%

79. Sea X1 , . . . , Xn una muestra aleatoria de la distribución Npµ, σ 2 q con

µ y σ 2 desconocidos. Defina la estadı́stica
2X1 ` 4X2 ` ¨ ¨ ¨ ` 2nXn
T “ .
npn ` 1q
2.7 Sesgo y error cuadrático medio 59

Determine si

a) T insesgado para µ.
b) T consistente para µ.
c) máxt0, T u es consistente para µ.

80. Distribución normal. Demuestre que la varianza muestral S 2 es un

estimador consistente para la varianza desconocida σ 2 de una distri-
bución normal.

81. Sea X1 , . . . , Xn una muestra aleatoria de una distribución con función

de densidad o de probabilidad f px; θq como aparece abajo, en don-
de θ es un parámetro desconocido. Demuestre que θ̂n “ Xp1q es un
estimador consistente para θ.
#
e´px´θq si x ą θ,
f px; θq “
0 en otro caso.

82. Sea X1 , . . . , Xn una muestra aleatoria de la distribución f px; θq co-

mo se especifica abajo, en donde ´1 ă θ ă 1 es un parámetro des-
conocido. Demuestre que el estimador por el método de momentos
θ̂n “ p5{nq ni“1 Xi3 es consistente.
ř

& 1 ` θx si ´ 1 ă x ă 1,
$

f px; θq “ 2
0 en otro caso.
%

2.7. Sesgo y error cuadrático medio

En el siguiente enunciado formalizamos la definición de sesgo de un estima-
dor que habı́amos mencionado en una sección anterior.

Definición 2.13 Sea θ̂ un estimador para un parámetro θ. El sesgo de

θ̂ es la diferencia
Bpθ̂q “ Epθ̂q ´ θ.
60 2. Estimación puntual

Observemos que el sesgo es una cantidad que depende del valor de θ. La

letra B proviene del término en inglés bias, que se traduce como sesgo o
desviación. Es claro que cuando el estimador es insesgado el sesgo es cero.
Además, el estimador es asintóticamente insesgado si el sesgo tiende a cero
cuando el tamaño de la muestra tiende a infinito.

Ejemplo 2.28 Para la distribución exppθq, con θ desconocido, se puede

comprobar que el estimador θ̂ “ 1{X̄ no es insesgado pues Epθ̂q “ nθ{pn´1q.
El sesgo en este caso es

1
Bpθ̂q “ Epθ̂q ´ θ “ θ.
n´1

El sesgo es sólo una de varias maneras en las que se puede medir algún tipo
de distancia entre el estimador y el parámetro a estimar. Otra de ellas es el
error cuadrático medio que se define a continuación.

Definición 2.14 Sea θ̂ un estimador para un parámetro θ. El error

cuadrático medio de θ̂ es

ECMpθ̂q “ E pθ̂ ´ θq2 .

De esta manera, el error cuadrático medio es la distancia cuadrática pro-

medio entre el estimador y el parámetro a estimar. Es claro que cuando el
estimador es insesgado, el error cuadrático medio es la varianza del estima-
dor, es decir, ECM pθ̂q “ Varpθ̂q. El sesgo y el error cuadrático medio están
relacionados mediante las siguientes fórmulas.
2.7 Sesgo y error cuadrático medio 61

Proposición 2.3 Sea θ̂ un estimador para una parámetro desconocido

θ. Entonces

1. ECMpθ̂q “ Varpθ̂q ` B 2 pθ̂q.

2. B 2 pθ̂q ď ECMpθ̂q.

Demostración. Para el primer resultado tenemos que el análisis que apa-

rece abajo. El segundo resultado es una consecuencia inmediata del primero.

ECMpθ̂q “ Epθ̂ ´ θq2

“ Erpθ̂ ´ Epθ̂qq ` pEpθ̂q ´ θqs2
“ Epθ̂ ´ Epθ̂q2 ` 2Epθ̂ ´ Epθ̂qqpEpθ̂q ` θq ` pEpθ̂q ´ θq2
“ Epθ̂ ´ Epθ̂q2 ` pEpθ̂q ´ θq2
“ Varpθ̂q ` B 2 pθ̂q.

Ejemplo 2.29 Considere la distribución exppθq, con θ desconocido. Se pue-

de comprobar que para el estimador θ̂ “ 1{X̄ se cumplen las fórmulas que
aparecen abajo y se verifican las relaciones generales de la proposición an-
terior.

1
Bpθ̂q “ θ,
n´1
n2
Varpθ̂q “ θ2 ,
pn ´ 1qpn ´ 2q
n`2
ECMpθ̂q “ θ2 .
pn ´ 1qpn ´ 2q

‚
62 2. Estimación puntual

Ejercicios
83. Use la desigualdad de Jensen para demostrar, nuevamente, que

B 2 pθ̂q ď ECMpθ̂q.

84. Demuestre las tres afirmaciones del Ejemplo —

85. Criterio para la consistencia. Sea θ̂n un estimador para un parámetro

desconocido θ, basado en una muestra aleatoria de tamaño n. Demues-
tre que si ECMpθ̂n q Ñ 0 cuando n Ñ 8, entonces θ̂n es consistente. En
particular, cuando θ̂n es insesgado, ECMpθ̂n q “ Varpθ̂n q y la hipótesis
se expresa como Varpθ̂n q Ñ 0.

86. Insesgamiento no implica ECM menor. Sea X1 , . . . , Xn una muestra

aleatoria de la distribución N pµ, θq, en donde la varianza θ ą 0 es des-
conocida. Suponga n ě 2. Se proponen los siguientes dos estimadores
para θ.
n
1 ÿ
θ̂1 “ pXi ´ X̄q2 ,
n ´ 1 i“1
n
1 ÿ
θ̂2 “ pXi ´ X̄q2 .
n ` 1 i“1

En el Ejemplo 2.22 se demostró que θ̂1 es insesgado para θ y puede

comprobarse que θ̂2 es sesgado. Demuestre, sin embargo, que

ECMpθ̂2 q ă ECMpθ̂1 q.

87. Distribución Bernoulli. Sea X1 , . . . , Xn una muestra aleatoria de la

distribución Berpθq, con θ desconocido. Encuentre la esperanza, va-
rianza, sesgo y el ECM del estimador θ̂ “ X̄.

88. Distribución Poisson. Sea X1 , . . . , Xn una muestra aleatoria de la dis-

tribución Poissonpθq, con θ desconocido. Encuentre la esperanza, va-
rianza, sesgo y el ECM del estimador θ̂ “ X̄.
2.8 Cota inferior de Cramér-Rao 63

2.8. Cota inferior de Cramér-Rao

Consideremos que una cierta variable aleatoria es de nuestro interés y que
ésta tiene función de densidad o de probabilidad f px; θq, cuya forma es
conocida pero depende de un parámetro desconocido θ, el cual deseamos
estimar con base en una muestra aleatoria X1 , . . . , Xn de esta distribución.
En secciones anteriores hemos estudiado algunos métodos para encontrar
posibles estimadores para el parámetro θ y hemos también establecido el
insesgamiento como un primer criterio para determinar la bondad de un
estimador. Un segundo criterio consiste en escoger, dentro de los posibles
estimadores insesgados, aquellos que tengan varianza menor. Tales estima-
dores estarán centrados en el valor θ y variarán lo menos posibe alrededor
de esa cantidad. Ası́, nos interesa buscar estimadores insesgados que tengan
la varianza más pequeña posible.

El resultado interesante que estudiaremos a continuación establece que no

es posible hacer que la varianza de un estimador insesgado sea tan pequeña
como se desee. En otras palabras, bajo ciertas condiciones, existe una cota
inferior para la varianza de cualquier estimador insesgado. Demostraremos
este resultado para el problema general de estimar cualquier función para-
metral τ pθq.

Teorema 2.2 (Cota inferior de Cramér-Rao3 ) Sea X1 , . . . , Xn una

muestra aleatoria de una distribución con función de probabilidad o de
distribución f px; θq, dependiente de un parámetro desconocido θ. Sea T
un estimador insesgado para una función parametral τ pθq. Bajo ciertas
condiciones generales que especificaremos más adelante se cumple que

pτ 1 pθqq2
VarpT q ě . (2.7)
B 2
nE rp ln f pX; θqq s
Bθ

3
Harald Cramér (1893-1985), matemático y estadı́stico sueco.
3
Calyampudi Radhakrishna Rao (1920-), matemático y estadı́stico hindú.
64 2. Estimación puntual

Demostración. En los siguientes cálculos llevaremos a cabo algunas

operaciones cuya validez supondremos implı́citamente. Haremos el análisis
suponiendo, además, el caso de variables aleatorias
ş continuas. El caso dis-
creto se analiza de manera semejante. Como R f px; θq dx “ 1, derivando
respecto de θ y suponiendo válido el intercambio de la derivada y la integral
se tiene que
ż
d
0 “ f px; θq dx
dθ
ż R
B
“ f px; θq dx
Bθ
żR
B ln f px;θq
“ e dx
Bθ
żR
B
“ f px; θq ln f px; θq dx
R Bθ
B
“ Er ln f pX; θq s. (2.8)
Bθ
De esta manera hemos comprobado que la variable aleatoria pB{Bθq ln f pX; θq
tiene esperanza nula. Suponiendo ahora la diferenciablidad de la función pa-
rametral,
d
τ 1 pθq “ EpT q
dθ ż
d
“ T px1 , . . . , xn q f px1 , . . . , xn ; θq dx1 ¨ ¨ ¨ dxn
dθ Rn
B
ż
“ T px1 , . . . , xn q f px1 , . . . , xn ; θq dx1 ¨ ¨ ¨ dxn (2.9)
R n Bθ
B ln f px1 ,...,xn ;θq
ż
“ T px1 , . . . , xn q e dx1 ¨ ¨ ¨ dxn
R n Bθ
n
B
ż ÿ
“ T px1 , . . . , xn q r ln f pxi ; θqs f px1 , . . . , xn ; θq dx1 ¨ ¨ ¨ dxn
R n
i“1
Bθ
n
ÿ B
“ Ep T ¨ ln f pXi ; θq q
i“1
Bθ
n
ÿ B
“ CovpT, ln f pXi ; θqq.
i“1
Bθ
2.8 Cota inferior de Cramér-Rao 65

La última igualdad se obtiene recordando que CovpX, Y q “ EpXY q ´

EpXqEpY q y a usando laa
identidad (2.8). Ahora utilizaremos la desigualdad
CovpX, Y q ď VarpXq VarpY q. Tenemos que
n
1 2
ÿ B
pτ pθqq ď VarpT pX1 . . . , Xn qq ¨ Varp ln f pXi ; θqq
i“1
Bθ
n
ÿ B
“ VarpT q ¨ Varp ln f pXi ; θqq
i“1
Bθ
B
“ VarpT q ¨ n ¨ Varp ln f pX; θqq
Bθ
B
“ VarpT q ¨ n ¨ Er p ln f pX; θqq2 s.
Bθ
‚

Vamos a hacer ahora algunos comentarios sobre el resultado recién demos-

trado. En el enunciado de la cota inferior de Cramér-Rao y en su demostra-
ción hemos usado la letra X para indicar a cualquier elemento de la muestra
aleatoria X1 , . . . , Xn . Esto es conveniente notacionalmente pues de esa ma-
nera no se hace uso de subı́ndices, e implı́citamente se utiliza la hipótesis
de idéntica distribución de las variables de la muestra aleatoria. Por otro
lado, es importante observar que el término f pX; θq corresponde a la fun-
ción de densidad o de probabilidad f px; θq evaluada en la variable aleatoria
X. Supondremos que tal operación, junto con las que aparecen en la expre-
sión (2.7), produce nuevamente una variable aleatoria y que además ésta
tiene esperanza es finita.

Definición 2.15 Al lado derecho de la expresión (2.7) le llamaremos

la cota inferior de Cramér-Rao (CICR) para la varianza de cualquier
estimador insesgado para τ pθq y se le denota por CICRpθq.

En general, la CICR es una función del parámetro θ y por ello se le es-

cribe como CICRpθq, aunque en esta notación no se hace referencia a la
función parametral τ pθq. Asi es que debemos tener cuidado en que al escri-
66 2. Estimación puntual

bir CICRpθq no haya duda de la función parametral τ pθq a la que se hace

referencia. En particular, si esta función parametral a estimar es el mismo
parámetro θ, la cota inferior se escribe

1
CICRpθq “ . (2.10)
B
nE rp ln f pX; θqq2 s
Bθ
Cuando no se hace referencia a ninguna función parametral τ pθq, se supone
implı́citamente que la CICRpθq corresponde a la cota inferior para la va-
rianza de cualquier estimador insesgado para θ como aparece en (2.10).

Es interesante observar que el denominador de (2.7) no depende de la función

parametral, de modo que conociendo la CICR para la varianza de cualquier
estimador insesgado para θ, es casi inmediato encontrar la CICR para la
varianza de cualquier estimador insesgado de la función parametral τ pθq,
simplemente se multiplica por pτ 1 pθqq2 .

De esta manera, la varianza de cualquier estimador insesgado para una

función parametral τ pθq tiene como valor mı́nimo la función CICRpθq. Por
lo tanto, en caso de existir un estimador insesgado con varianza CICRpθq,
sabemos que tal estimador es el mejor en términos de ser insesgado y tener
varianza mı́nima. Más adelante retomaremos el problema de determinar la
existencia y unicidad de un estimador con estas caracterı́sticas. Antes de
especificar las condiciones técnicas bajo las cuales se cumple la cota inferior
de Cramér-Rao, veamos algunos ejemplos del cálculo de esta cota inferior.

Ejemplo 2.30 Sea X una variable aleatoria con distribución Berpθq, con θ
desconocido.
#
θx p1 ´ θq1´x si x “ 0, 1,
f px; θq “
0 en otro caso.

Sea θ̂ cualquier estimador insesgado para el parámetro θ, definido a través

la variable aleatoria X y haciendo las operaciones indicadas, es inmediato

comprobar que
B X 1´X
ln f pX; θq “ ´ .
Bθ θ 1´θ
Observe que esta es una variable aleatoria y que tiene esperanza cero, como
hemos demostrado antes de manera general. Su segundo momento es
ˆ ˙2
B X 1´X
Er p ln f pX; θqq2 s “ E ´
Bθ θ 1´θ
1
“ .
θp1 ´ θq

Substituyendo esta expresión en la fórmula (2.7) se obtiene que la cota

inferior de Cramér-Rao es

θp1 ´ θq
CICRpθq “ , 0 ă θ ă 1.
n
En consecuencia, todo estimador insesgado para θ y construido a partir
de una muestra aleatoria de tamaño n de la distribución Bernoulli tiene
varianza por lo menos esta cantidad. Vista como función de θ, la gráfica de
la cota inferior de Cramér-Rao se muestra en la Figura 2.10. La varianza de
cualquier estimador insesgado debe ser un valor dentro del área sombreada,
es decir, por arriba de la cota inferior indicada mediante una lı́nea continua.

θp1 ´ θq{n

CICRpθq

θ
1

Figura 2.10
68 2. Estimación puntual

Por ejemplo, consideremos el estimador θ̂ “ X1 . Claramente este estimador

es insesgado y su varianza es θp1 ´ θq. Se verifica entonces la desigualdad
θp1 ´ θq
CICRpθq “ ď θp1 ´ θq “ Varpθ̂q.
n
Podemos considerar también el estimador insesgado θ̂ “ X̄. Claramente su
varianza es θp1 ´ θq{n y observamos que coincide con la CICR. Se verifica
entonces la desigualdad CICRpθq ď Varpθ̂q como igualdad. ‚

Ejemplo 2.31 Sea X una variable aleatoria con distribución exppθq con θ
desconocido. #
θ e´θx si x ą 0,
f px; θq “
0 en otro caso.

Sea θ̂ cualquier estimador insesgado para el parámetro θ, definido a través

de una muestra aleatoria de esta distribución. Encontraremos la cota inferior
de Cramér-Rao para la varianza de θ̂. La función parametral es τ pθq “ θ
y por lo tanto τ 1 pθq “ 1. Evaluando la función de probabilidad f px; θq en
la variable aleatoria X y haciendo las operaciones indicadas, es inmediato
comprobar que
B 1
ln f pX; θq “ ´ X.
Bθ θ
Nuevamente esta es una variable aleatoria que tiene esperanza cero, como
hemos demostrado antes de manera general. Por lo tanto,
B 1
Er p ln f pX; θqq2 s “ E p1{θ ´ Xq2 “ VarpXq “ 2 .
Bθ θ
Substituyendo esta expresión en la fórmula (2.7) se obtiene que la cota
inferior de Cramér-Rao es
θ2
CICRpθq “ , θ ą 0.
n
En consecuencia, todo estimador insesgado para θ y construido a partir
de una muestra aleatoria de tamaño n en la distribución exponencial tiene
varianza por lo menos esta cantidad. Vista como función de θ ą 0, la gráfica
de la cota inferior de Cramér-Rao se muestra en la Figura 2.11.
2.8 Cota inferior de Cramér-Rao 69

θ2 {n

CICRpθq

Figura 2.11

Para cada θ ą 0, la varianza de cualquier estimador insesgado debe ser

un valor en la lı́nea vertical que pasa por θ dentro del área sombreada.
Veamos un ejemplo. Recordemos que el estimador máximo verosı́mil para
el parámetro θ de la distribución exponencial es 1{X̄ y recordemos que este
estimador no es insesgado pues
n
Ep1{X̄q “ θ.
n´1

De aquı́ puede proponerse el estimador insesgado

n´1 1
θ̂ “ ,
n X̄
cuya varianza es

pn ´ 1q2
ˆ ˙
1
Varpθ̂q “ 2
Var
n X̄
« ˆ ˙ ˆ ˙ﬀ
pn ´ 1q2 1 2 1
“ 2
E ´ E2
n X̄ X̄
2 2 n2
„ 
pn ´ 1q n 2 2
“ θ ´ θ (2.11)
n2 pn ´ 1qpn ´ 2q pn ´ 1q2
1
“ θ2 .
n´2
70 2. Estimación puntual

Las expresiones que aparecen en (2.11) se pueden obtener con facilidad usan-
do la distribución gamma. De esta manera, se comprueba que la varianza del
estimador insesgado θ̂ es, efectivamente, mayor o igual que la cota inferior
de Cramér-Rao, es decir, para n ě 3,
1 2 1
CICRpθq “ θ ď θ2 “ Varpθ̂q.
n n´2
‚

Teniendo ahora una mayor familiaridad con la cota inferior de Cramér-Rao,

vamos a establecer las hipótesis bajo las cuales dicho resultado es válido.

Condiciones de regularidad

Las siguientes hipótesis son necesarias para la validez de la cota inferior de

Cramér-Rao. Se conocen con el nombre de condiciones de regularidad.

1. El soporte de f px; θq dado por el conjunto tx : f px; θq ą 0u no depende

de θ.

2. Para todo x en el soporte de f px; θq, la siguiente derivada existe

B
ln f px; θq.
Bθ

3. Es válido el siguiente intercambio de derivada e integral.

B
ż ż
d
0“ f px; θq dx “ f px; θq dx.
dθ R R Bθ

B
4. 0 ă E r p ln f pX; θqq2 s ă 8.
Bθ
5. Es válido el intercambio de derivada e integral que aparece abajo.
Esto se usa en la identidad (2.9) de la demostración. Por simplicidad,
hacemos uso de la notación xn “ px1 , . . . , xn q.

B
ż ż
d n n n
T px q f px ; θq dx “ T pxn q f pxn ; θq dxn .
dθ Rn Rn Bθ
2.8 Cota inferior de Cramér-Rao 71

En la tabla de la Figura 2.12 se muestran las expresiones de la cota inferior

de Cramér-Rao para algunas distribuciones. El parámetro a estimar se de-
nomina por la letra θ, suponiendo que cualquier otro posible parámetro que
aparezca en la distribución es conocido. Como siempre, se reserva la letra
n para el tamaño de la muestra. Se ha dejado comprobar estas expresiones
en la sección de ejercicios.

Distribución Parámetro CICRpθq

θp1 ´ θq
Berpθq 0ăθă1
n
θp1 ´ θq
binpk, θq 0ăθă1
nk
2
θ p1 ´ θq
geopθq 0ăθă1
n
2
θ p1 ´ θq
bin negpr, θq 0ăθă1
nr
θ
Poissonpθq θą0
n
θ2
exppθq θą0
n
2θ2
Npµ, θq θą0
n

Figura 2.12

Para concluir esta sección, planteamos una pregunta que resulta natural
después de lo estudiado en esta sección.

Dada una distribución f px; θq, ¿existe siempre

un estimador insesgado para θ que alcance la CICR?
72 2. Estimación puntual

Ejercicios
89. Distribución binomial. Sea X1 , . . . , Xn una muestra aleatoria de la
distribución binpk, θq, con 0 ă θ ă 1 desconocido. Suponga que k ě 1
es un entero conocido. Demuestre que

θp1 ´ θq
CICRpθq “ , 0 ă θ ă 1.
nk

Demuestre que el estimador θ̂ “ X̄{k es insesgado y que su varianza

coincide con la cota inferior de Cramér-Rao, es decir,

θp1 ´ θq
CICRpθq “ “ Varpθ̂q.
nk

90. Distribución geométrica. Sea X1 , . . . , Xn una muestra aleatoria de la

distribución geopθq, con θ desconocido. Demuestre que

θ2 p1 ´ θq
CICRpθq “ , 0 ă θ ă 1.
n

91. Distribución binomial negativa. Sea X1 , . . . , Xn una muestra aleatoria

de la distribución bin negpr, θq, con θ desconocido. Suponga que r ě 1
es un entero conocido. Demuestre que

θ2 p1 ´ θq
CICRpθq “ , 0 ă θ ă 1.
nr

92. Distribución Poisson. Sea X1 , . . . , Xn una muestra aleatoria de la dis-

tribución Poissonpθq, con θ desconocido. Demuestre que

θ
CICRpθq “ , θ ą 0.
n
Calcule la varianza de los siguientes estimadores insesgados y com-
pruebe el cumplimiento de la cota inferior de Cramér-Rao.

a) θ̂ “ X1 .
b) θ̂ “ X̄.
2.9 Eficiencia 73

93. Distribución normal. Sea X1 , . . . , Xn una muestra aleatoria de la dis-

tribución Np0, θq, con θ ą 0 desconocido. Demuestre que
2 2
CICRpθq “ θ , θ ą 0.
n
Demuestre que el estimador θ̂ “ pX12 ` ¨ ¨ ¨ ` Xn2 q{n es insesgado y que
su varianza coincide con la cota inferior de Cramér-Rao, es decir,
2 2
CICRpθq “ θ “ Varpθ̂q.
n

94. Distribución normal. Sea X1 , . . . , Xn una muestra aleatoria de la dis-

tribución Npµ, σ 2 q, con ambos parámetros desconocidos. Suponga n ě
2. Recordemos que la varianza muestral S 2 es un estimador insesgado
para σ 2 .
n
1 ÿ
S2 “ pXi ´ X̄q2 .
n ´ 1 i“1
Demuestre que
2 4 2
CICRpσ 2 q “ σ ă σ 4 “ VarpS 2 q.
n n´1

2.9. Eficiencia
En esta sección veremos varias definiciones relacionadas al concepto de efi-
ciencia de un estimador. Primero veamos una posible manera de comparar
dos estimadores insesgados.

Definición 2.16 Sean θ̂1 y θ̂2 dos estimadores insesgados para un

parámetro θ. Se dice que θ̂1 es relativamente más eficiente que θ̂2 si

Varpθ̂1 q ď Varpθ̂2 q. (2.12)

De esta manera, de entre dos estimadores insesgados para un mismo paráme-

tro, preferiremos aquel que tenga varianza menor, si es que tal comparación
74 2. Estimación puntual

puede llevarse a cabo. Recordemos que la varianza del estimador puede de-
pender de θ y la desigualdad (2.12) pudiera no cumplirse para cualquier
valor de θ dentro del espacio parametral. En consecuencia, no cualesquiera
dos estimadores insesgados pueden compararse uno con el otro de la forma
indicada en la definición anterior.

Ejemplo 2.32 Sea X1 , . . . , Xn una muestra aleatoria de la distribución

Berpθq, con θ desconocido. Es claro que los estimadores θ̂1 “ X̄ y θ̂2 “ X1
son insesgados para θ. Sin embargo, el estimador θ̂1 es relativamente más
eficiente que θ̂2 pues, para cualquier valor de θ en p0, 1q, se cumple
θp1 ´ θq
Varpθ̂1 q “ ď θp1 ´ θq “ Varpθ̂2 q.
n
‚
Por otro lado, en ocasiones hay estimadores insesgados con la mı́nima va-
rianza posible dada por la cota inferior de Cramér-Rao. Los llamaremos
estimadores eficientes.

Definición 2.17 Se dice que un estimador insesgado es eficiente cuando

su varianza alcanza la cota inferior de Cramér-Rao.

Es decir, el estimador insesgado θ̂ es eficiente si Varpθ̂q “ CICRpθq para

todo valor de θ. Teniendo como elemento de comparación la cota inferior de
Cramér-Rao podemos ahora definir la eficiencia de un estimador insesgado
de la siguiente manera.

Definición 2.18 La eficiencia de un estimador insesgado θ̂ es

CICRpθq
Efipθ̂q “ . (2.13)
Varpθ̂q

Observemos nuevamente que la eficiencia es una función del parámetro θ a

estimar, es siempre positiva y menor o igual a uno. Más generalmente, la
2.9 Eficiencia 75

cualidad de ser eficiente para un estimador insesgado puede alcanzarse en

el lı́mite cuando el tamaño de la muestra tiende a infinito.

Definición 2.19 Sea θ̂n un estimador insesgado para θ, construido a

partir de una muestra aleatoria de tamaño n. Se dice que θ̂n es asintóti-
camente eficiente si
lı́m Efipθ̂n q “ 1.
nÑ8

Por supuesto, todo estimador eficiente es asintóticamente eficiente y el

recı́proco no se cumple. Veamos algunos ejemplos de los conceptos estu-
diados en esta sección.

Ejemplo 2.33 Sea X1 , . . . , Xn una muestra aleatoria de la distribución

Berpθq, con θ desconocido. Sabemos que la cota inferior de Cramér-Rao
es
θp1 ´ θq
CICRpθq “ .
n
a) El estimador insesgado θ̂ “ X̄ es estimador eficiente pues Varpθ̂q “
θp1 ´ θq{n “ CICRpθq.

b) Consideremos ahora el estimador insesgado

2
θ̂n “ pX1 ` 2X2 ` ¨ ¨ ¨ ` nXn q.
npn ` 1q
Su varianza puede encontrarse como sigue
« ﬀ
n
4 ÿ
Varpθ̂n q “ k 2 θp1 ´ θq
n2 pn ` 1q2 k“1
2p2n ` 1q θp1 ´ θq
“ .
3pn ` 1q n
Por lo tanto, su eficiencia es
3pn ` 1q
Efipθ̂n q “ ă 1.
2p2n ` 1q
76 2. Estimación puntual

Entonces, este es un estimador que no es eficiente y tampoco es asintóti-

camente eficiente pues
3
lı́m Efipθ̂n q “ ă 1.
nÑ8 4

c) Finalmente consideremos el estimador insesgado θ̂n “ pX1 `¨ ¨ ¨`Xn´1 q{pn´

1q, es decir, sólo se toma el promedio de las primeras n ´ 1 variables de
la muestra aleatoria. Es claro que θ̂n es insesgado y su varianza es

θp1 ´ θq
Varpθ̂n q “ .
n´1
Su eficiencia es
n´1
Efipθ̂n q “
ă 1.
n
Se trata entonces de un estimador que no es eficiente, sin embargo es
asintóticamente eficiente.

Ejercicios
95. Sea X1 , . . . , Xn una muestra aleatoria de una población normal de me-
dia µ. Demuestre que X̄ es un estimador insesgado de mı́nima varianza
para el parámetro µ.

2.10. Suficiencia
Consideremos nuevamente la situación de tener una variable aleatoria de
interés X con función de densidad o de probabilidad conocida f px; θq, pero
dependiente de un parámetro desconocido θ, el cual deseamos estimar a
través de la información de una muestra aleatoria X1 , . . . , Xn Definiremos a
continuación el concepto de suficiencia de una estadı́stica para el parámetro
θ. Este concepto fue propuesto por Ronald Fisher4 en 1920 y ha resultado
4
Ronald Aylmer Fisher (1890-1962), estadı́stico y genetista inglés.
2.10 Suficiencia 77

ser de suma importancia dentro de la estadı́stica y sus aplicaciones. En las

siguientes secciones tendremos oportunidad de mostrar su utilidad.

Definición 2.20 Una estadı́stica T pX1 , . . . , Xn q es suficiente para un

parámetro θ si la distribución de conjunta de la muestra aleatoria
X1 , . . . , Xn condicionada al evento pT “ tq no depende del parámetro θ,
cualquiera que sea el posible valor t de la estadı́stica.

En otras palabras, esto significa que dado un valor t de la estadı́stica T , la

muestra aleatoria no contiene información adicional sobre el parámetro θ
que aquella proporcionada por la estadı́stica T . Más adelante precisaremos
esta interpretación. Veamos algunos ejemplos de la forma en la que puede
verificarse la propiedad de suficiencia de una estadı́stica mediante la defini-
ción anterior. Por ahora, este es un primer mecanismo para comprobar la
propiedad de suficiencia de una estadı́stica.

Ejemplo 2.34 Sea X1 , . . . , Xn una muestra aleatoria de la distribución

Bernoulli de parámetro desconocido θ. Comprobaremos que la estadı́stica
T “ X1 ` ¨ ¨ ¨ ` Xn es suficiente para θ. Observemos que T tiene distri-
bución binpn, θq y que T no necesariamente es un estimador para θ. Sea
t P t0, 1, . . . , nu un posible valor de la estadı́stica T . Para cualesquiera valo-
res x1 , . . . , xn P t0, 1u de la muestra aleatoria, tenemos que

f px1 , . . . , xn , T “ tq
f px1 , . . . , xn | T “ tq “
fT ptq
f px1 , . . . , xn q
“ ¨ 1ttu px1 ` ¨ ¨ ¨ ` xn q
fT ptq
θx1 p1 ´ θq1´x1 ¨ ¨ ¨ θxn p1 ´ θq1´xn
“ `n˘
t n´t
¨ 1ttu px1 ` ¨ ¨ ¨ ` xn q
t θ p1 ´ θq
θx1 `¨¨¨`xn p1 ´ θqn´px1 `¨¨¨`xn q
“ `n˘
t n´t
¨ 1ttu px1 ` ¨ ¨ ¨ ` xn q
t θ p1 ´ θq
1
“ `n˘ ¨ 1ttu px1 ` ¨ ¨ ¨ ` xn q.
t
78 2. Estimación puntual

Como esta probabilidad no depende de θ, concluimos que T es una estadı́sti-

ca suficiente para θ. ‚

Ejemplo 2.35 Sea X1 , . . . , Xn una muestra aleatoria de la distribución

Poissonpθq con θ ą 0 desconocido. Comprobaremos que la estadı́stica T “
X1 ` ¨ ¨ ¨ ` Xn es suficiente para θ. Observemos que T tiene distribución
Poissonpnθq y consideremos que t P t0, 1, . . .u es uno de sus posibles valo-
res. Para cualesquiera valores x1 , . . . , xn P t0, 1, . . .u de la muestra aleatoria,
tenemos que

f px1 , . . . , xn , T “ tq
f px1 , . . . , xn | T “ tq “
fT ptq
f px1 , . . . , xn q
“ ¨ 1ttu px1 ` ¨ ¨ ¨ ` xn q
fT ptq
re´θ θx1 {x1 !s ¨ ¨ ¨ re´θ θxn {xn !s
“ ¨ 1ttu px1 ` ¨ ¨ ¨ ` xn q
e´nθ pnθqt {t!

e´nθ θt {px1 ! ¨ ¨ ¨ xn !q
“ ¨ 1ttu px1 ` ¨ ¨ ¨ ` xn q
e´nθ pnθqt {t!
t!
“ ¨ 1 px1 ` ¨ ¨ ¨ ` xn q
nt x1 ! ¨ ¨ ¨ xn ! ttu
.

Esta probabilidad no depende de θ y por lo tanto T es una estadı́stica

suficiente para θ. ‚

Ejemplo 2.36 (No suficiencia) Sea X1 , X2 , X3 una muestra aleatoria de

tamaño n “ 3 de la distribución Berpθq, con θ desconocido. Comprobare-
mos que la estadı́stica T “ X1 ` 2X2 ` 3X3 no es suficiente para θ. Para
ello es suficiente dar un valor de la muestra aleatoria y un valor de la es-
tadı́stica para los cuales no se cumpla la condición de suficiencia. Tomemos
2.10 Suficiencia 79

px1 , x2 , x3 q “ p1, 1, 0q y t “ 3. Entonces

f p1, 1, 0, T “ 3q
f p1, 1, 0 | T “ 3q “
fT p3q
f p1, 1, 0q
“
fT p3q
θ2 p1 ´ θq
“
θ p1 ´ θq ` p1 ´ θq2 θ
2

“ θ.

Claramente esta probabilidad depende del parámetro θ y por lo tanto T no

es una estadı́stica suficiente para θ. ‚

A pesar de lo fácil que resultaron los cálculos en los ejemplos anteriores, en

general no es sencillo comprobar la suficiencia de una estadı́stica usando la
definición. Observe que en estos ejemplos fue necesario conocer la distribu-
ción de la estadı́stica T y en los casos mostrados tal distribución fue evidente
de encontrar. Esto no siempre es ası́ y los cálculos pueden ser sumamente
complicados con casi cualquier otro caso que se considere. Afortunadamente
se cuenta con el siguiente resultado bastante útil, que establece una condi-
ción equivalente para la suficiencia. Esta condición es relativamente fácil
de verificar y la usaremos con mayor frecuencia que la definición misma de
suficiencia. Será un segundo mecanismo para comprobar la suficiencia de
una estadı́stica.

Recordemos nuevamente que X1 , . . . , Xn una muestra aleatoria de una dis-

tribución con función de densidad o de probabilidad f px; θq, dependiente de
un parámetro desconocido θ.
80 2. Estimación puntual

Teorema 2.3 (Teorema de factorización de J. Neyman)

Una estadı́stica T pX1 , . . . , Xn q es suficiente para θ si y sólo si la función
de densidad conjunta de la muestra aleatoria se puede factorizar de la
siguiente forma

f px1 , . . . , xn ; θq “ gpT px1 , . . . , xn q, θq ¨ hpx1 , . . . , xn q, (2.14)

en donde g es una función no negativa que depende de los valores de la

muestra aleatoria únicamente a través de la estadı́stica T , y h es una
función no negativa que depende únicamente de los valores x1 , . . . , xn
de la muestra aleatoria.

Demostración.

pñq Supongamos que T es una estadı́stica suficiente y sea x1 , . . . , xn cual-

quier valor de la muestra aleatoria, es decir, X1 “ x1 , . . . , Xn “ xn .
Entonces la estadı́stica T toma el valor T px1 , . . . , xn q. A la distribu-
ción conjunta de la muestra f px1 , . . . , xn q le añadimos la información
redundante T “ T px1 , . . . , xn q y condicionamos de la siguiente forma

f px1 , . . . , xn q “ f px1 , . . . , xn , T px1 , . . . , xn qq

“ fT pT px1 , . . . , xn qq ¨ f px1 , . . . , xn | T “ T px1 , . . . , xn qq

El primer factor es una función gpT px1 , . . . , xn q; θq que depende del

parámetro θ y del punto muestral x1 , . . . , xn únicamente a través del
valor de la estadı́stica T . El segundo factor es una función hpx1 , . . . , xn q
que depende únicamente del valor de la muestra aleatoria, pues T es
suficiente. De esta forma hemos construido la expresión del lado dere-
cho de la igualdad (2.14).

pðq Suponga que se cumple la factorización (2.14). Demostraremos que T

es suficiente. Por simplicidad en la escritura consideraremos el caso
discreto. Sea xn “ px1 , . . . , xn q cualquier valor de la muestra alea-
toria. A partir de este valor definimos el valor de la estadı́stica t “
T px1 , . . . , xn q. Ahora consideremos la imagen inversa del valor t bajo
2.10 Suficiencia 81

la función T , es decir,

T ´1 ttu “ t y n : T py n q “ t u.

Por construcción, xn P T ´1 ttu. Entonces

P pX n “ xn , T “ tq
P pX1 “ x1 , . . . , Xn “ xn | T “ tq “
P pT “ tq
P pX n “ xn q
“
P pX n P T ´1 ttuq
P pX n “ xn q
“ ř n n
y n PT ´1 ttu P pX “ y q
gpT pxn q; θq hpxn q
“ ř n n
y n PT ´1 ttu gpT py q; θq hpy q
gpt; θq hpxn q
“
gpt; θq yn PT ´1 ttu hpy n q
ř

hpxn q
“ ř n
.
y n PT ´1 ttu hpy q

Como esta probabilidad no depende de θ, concluimos que T es sufi-

ciente.
‚

Como una muestra de la forma en la que se aplica el teorema anterior,

repetiremos los resultados de los Ejemplos 2.34 y 2.35, pero ahora usando
el teorema de factorización.

Ejemplo 2.37 La estadı́stica T “ X1 ` ¨ ¨ ¨ ` Xn es suficiente para el

parámetro desconocido θ en la distribución Bernoulli pues

f px1 , . . . , xn q “ θx1 p1 ´ θq1´x1 ¨ ¨ ¨ θxn p1 ´ θq1´xn

“ r θx1 `¨¨¨`xn p1 ´ θqn´px1 `¨¨¨`xn q s ¨ r 1 s
“ gpT px1 , . . . , xn q; θq ¨ hpx1 , . . . , xn q.

Por simplicidad en la escritura hemos omitido los factores 1t0,1u pxi q, para
i “ 1, . . . , n, los cuales deben incorporarse a la función hpx1 , . . . , xn q.
82 2. Estimación puntual

La estadı́stica indicada también es suficiente para el parámetro desconocido

θ de la distribución Poisson pues

θ x1 θ xn
f px1 , . . . , xn q “ e´θ ¨ ¨ ¨ e´θ
x1 ! xn !
1
“ r e´nθ θx1 `¨¨¨`xn s ¨ r s
x1 ! ¨ ¨ ¨ xn !
“ gpT px1 , . . . , xn q; θq ¨ hpx1 , . . . , xn q.

Nuevamente hemos omitido los factores 1t0,1,...u pxi q, para i “ 1, . . . , n, los

cuales deben incorporarse a la función hpx1 , . . . , xn q. ‚

Algunos otros ejemplos de estadı́sticas suficientes aparecen en la sección

de ejercicios. Observemos que para demostrar que una estadı́stica no es
suficiente parece ser más conveniente usar directamente la Definición 2.20
como lo hemos hecho en el Ejemplo 2.36. Para ello se deben encontrar va-
lores particulares x1 , . . . , xn de la muestra aleatoria y un valor particular t
de la estadı́stica T , y verificar que la función f px1 , . . . , xn | T “ tq depende
del parámetro θ a estimar.

En lo que resta de esta sección estudiaremos algunos resultados relativos

al concepto de suficiencia. Por ejemplo, uno puede plantearse la siguiente
pregunta.

¿Es la transformación de una estadı́stica suficiente

también suficiente para el mismo parámetro?

Para que tal propiedad se cumpla, la condición de biyectividad para la

transformación es suficiente. Demostraremos esto a continuación.

Proposición 2.4 Funciones biyectivas de estadı́sticas suficientes son

suficientes.

Demostración. Usaremos el teorema de factorización. Sea T una estadı́sti-

ca suficiente para un parámetro θ y sea ϕ una función biyectiva definida
2.10 Suficiencia 83

sobre el conjunto de valores de T y con valores reales. Entonces la fun-

ción inversa de ϕ existe y podemos escribir T “ ϕ´1 ˝ pϕ ˝ T q. Como T es
suficiente, por el teorema de factorización tenemos que

f px1 , . . . , xn ; θq “ gpT px1 , . . . , xn q; θq ¨ hpx1 , . . . , xn q

“ gpϕ´1 ˝ pϕ ˝ T qpx1 , . . . , xn q; θq ¨ hpx1 , . . . , xn q
“ Gppϕ ˝ T qpx1 , . . . , xn q; θq ¨ hpx1 , . . . , xn q,

en donde G “ g ˝ ϕ´1 es no negativa pues g es no negativa. Por lo tanto,

ϕ ˝ T es también una estadı́stica suficiente para θ. ‚

En el Ejercicio 96 que aparece en la página 84 se pide demostrar el resultado

anterior usando directamente la definición de suficiencia. Observemos que
el resultado y demostración anteriores incluyen el caso cuando T es un
vector de estadı́sticas pT1 , . . . , Tk q. En este caso la función biyectiva tiene
como dominio alguna región de Rk , aquella en donde el vector T toma sus
valores, y como contradominio alguna región de Rk . Veamos un ejemplo del
uso del resultado recién demostrado.

Ejemplo 2.38 Sabemos que la estadı́stica X1 ` ¨ ¨ ¨ ` Xn es suficiente para

el parámetro de la distribución Poissonpθq. Tenemos entonces que

a) La estadı́stica pX1 ` ¨ ¨ ¨ ` Xn q2 es también suficiente para θ pues la

función ϕpxq “ x2 es biyectiva sobre el intervalo p0, 8q.

b) La estadı́stica exp pX1 ` ¨ ¨ ¨ ` Xn q es suficiente para θ pues la función

ϕpxq “ ex es biyectiva.

El resultado y el ejemplo anteriores sugieren un tercer mecanismo para

comprobar la suficiencia de una estadı́stica: verificar que la estadı́stica en
cuestión es una función biyectiva de otra estadı́stica que sabemos que es
suficiente.

Para concluir esta sección enunciamos un resultado que da respuesta a la

siguiente pregunta:
84 2. Estimación puntual

Sea T una estadı́stica suficiente para θ.

¿será T suficiente para cualquier función parametral τ pθq?

La respuesta es afirmativa y se pide proveer una demostración como un

ejercicio. Aquı́ tenemos el enunciado.

Proposición 2.5 Toda estadı́stica suficiente para un parámetro θ es

también suficiente para cualquier función parametral τ pθq.

Esto nos provee de un cuarto posible método para demostrar la propiedad de

suficiencia: en el caso cuando se desee probar suficiencia de una estadı́stica
para una función parametral, verificar si la estadı́stica es suficiente para el
parámetro en cuestión.

Ejemplo 2.39 — ‚

Más adelante estudiaremos el concepto de suficiencia de un vector de es-

tadı́sticas para uno o varios parámetros. A tal situación le llamaremos sufi-
ciencia conjunta del vector de estadı́sticas. La definición y los resultados son
completamente análogos. En la siguiente sección estudiaremos la informa-
ción de Fisher. A través de este concepto se le puede dar una interpretación
a la suficiencia.

Ejercicios
96. Usando directamente la definición de suficiencia, demuestre que cual-
quier función biyectiva de una estadı́stica suficiente es suficiente. Con-
sidere únicamente el caso discreto.

97. Demuestre que toda estadı́stica suficiente para un parámetro θ es tam-

bién suficiente para cualquier función parametral τ pθq. Este es el con-
tenido de la Proposición 2.5.
2.10 Suficiencia 85

98. Sea T una estadı́stica suficiente para un parámetro θ. Demuestre di-

rectamente que las siguientes estadı́sticas también son suficientes para
θ.
a) T ` a, a constante conocida.
b) aT , a ‰ 0 constante conocida.
c) eT .
99. Sea X1 , . . . , Xn una muestra aleatoria de la distribución especificada
abajo, en donde θ es un parámetro desconocido. Suponga que cualquier
otro parámetro que pudiera aparecer en la distribución es conocido.
Demuestre directamente que la estadı́stica U “ X1 ` ¨ ¨ ¨ ` Xn es
suficiente.

a) binpk, θq. c) Npθ, σ 2 q.

b) geopθq. d ) gammapγ, θq.

100. Distribución uniforme. Sea X1 , . . . , Xn una muestra aleatoria de la

distribución unifp0, θq, con θ ą 0 desconocido. Demuestre que la es-
tadı́stica de orden Xpnq es suficiente para θ.
101. Distribución uniforme. Sea T “ |X1 |, en donde X1 es una muestra
aleatoria de tamaño n “ 1 de la distribución unifp´θ, θq, con θ ą 0
desconocido. Determine si T es una estadı́stica suficiente para θ.
102. Distribución exponencial. Sea X1 una muestra aleatoria de tamaño
n “ 1 de la distribución exppθq, en donde θ ą 0 es desconocido.
Demuestre que
a) T “ X1 es suficiente para θ.
b) T “ 1pX1 ą2q no es suficiente para θ.
103. Distribución Rayleigh. Sea X1 , . . . , Xn una muestra aleatoria de la dis-
tribución Rayleigh especificada abajo, en donde θ ą 0 es un parámetro
desconocido. Demuestre que la estadı́stica U “ X12 ` ¨ ¨ ¨ ` Xn2 es sufi-
ciente para θ.
# 2
2px{θqe´x {θ si x ą 0,
f px; θq “
0 en otro caso.
86 2. Estimación puntual

104. Sea X1 , . . . , Xn una muestra aleatoria de una distribución continua

con función de densidad
#
apθq bpxq si 0 ă x ă θ,
f px; θq “
0 en otro caso,

en donde apθq y bpxq son dos funciones no negativas y θ ą 0 es un

parámetro desconocido. Por ejemplo, cuando apθq “ 1{θ y bpxq “ 1 se
obtiene la distribución unifp0, θq. Demuestre que máx tX1 , . . . , Xn u es
una estadı́stica suficiente para θ.

105. Distribución normal. Sea X1 , . . . , Xn una muestra aleatoria de la dis-

tribución Npµ, θq, en donde µ es conocido y θ ą 0 es desconocido.
Encuentre el estimador por el método de máxima verosimilitud para
θ y determine si éste es una estadı́stica suficiente.

106. No suficiencia. Sea X1 una muestra aleatoria de tamaño n “ 1 de

la distribución Npθ, σ 2 q en donde θ es desconocido y σ 2 es conocido.
Demuestre que la siguiente estadı́stica no es suficiente para θ.

T “ |X1 |.

107. No suficiencia. Sea X1 , . . . , X4 una muestra aleatoria de tamaño n “ 4

de la distribución Berpθq, con 0 ă θ ă 1 desconocido. Demuestre que
la siguiente estadı́stica no es suficiente para θ.

T “ X1 pX2 ` X3 q ` X4 .

108. No suficiencia. Sea X1 , X2 una muestra aleatoria de tamaño n “ 2 de

la distribución Poissonpθq, en donde θ es desconocido. Demuestre que
la siguiente estadı́stica no es suficiente para θ.

T “ X1 ´ X2 .

109. No suficiencia. Sea X1 , X2 una muestra aleatoria de tamaño n “ 2 de

la distribución Npθ, 1q, en donde θ es desconocido. Demuestre que la
siguiente estadı́stica no es suficiente para θ.

T “ X1 ` 2X2 .
2.11 Suficiencia e información 87

2.11. Suficiencia e información

En esta sección se define el concepto de información de Fisher de una va-
riable aleatoria, o de su distribución f px; θq, dependiente de un parámetro
desconocido y unidimensional θ. Se muestra además su relación con el con-
cepto de suficiencia de una estadı́stica.

Definición 2.21 Sea X una variable aleatoria con función de densidad

o probabilidad f px; θq, dependiente de un parámetro θ. La información
de Fisher de X, o de su distribución, es la función
B
Ipθq “ E r p log f pX; θqq2 s. (2.15)
Bθ

Observemos con cuidado la expresión f pX; θq que aparece en el enunciado: la

función de densidad f px; θq es evaluada en la variable aleatoria X, es decir,
se trata de una composición de funciones. Supondremos que este término es
nuevamente una variable aleatoria y que la función log f pX; θq es diferen-
ciable respecto de θ. Cuando sea necesario especificar la variable aleatoria
en cuestión escribiremos IX pθq y la función de densidad o de probabilidad
será fX px; θq. Por convención, el logaritmo indicado es el logaritmo natu-
ral pero lo escribiremos como log. La información de Fisher se interpreta
como una medida de la cantidad de información que una observación de la
variable aleatoria contiene acerca del parámetro desconocido θ. Veremos a
continuación algunos ejemplos del cálculo de la información de Fisher.

Ejemplo 2.40 La información de Fisher de una variable aleatoria X con

distribución Berpθq es
B
Ipθq “ Erp log θX p1 ´ θq1´X q2 s
Bθ
B
“ Erp rX log θ ` p1 ´ Xq log p1 ´ θqsq2 s
Bθ
“ ErpX{θ ´ p1 ´ Xq{p1 ´ θqq2 s
1
“ .
θp1 ´ θq
88 2. Estimación puntual

Ejemplo 2.41 La información de Fisher de una variable aleatoria X con

distribución exppθq es

B
Ipθq “ Erp log θ e´θX q2 s
Bθ
B
“ Erp rlog θ ´ θ Xsq2 s
Bθ
“ Erp1{θ ´ Xq2 s
“ VarpXq
1
“ .
θ2

Como ejemplos adicionales, en la tabla de la Figura 2.13 se muestran las

expresiones de la información de Fisher para algunas otras distribuciones.
Esta tabla es equivalente a la tabla sobre la cota inferior de Cramér-Rao
de la Figura 2.12 en la página 71. El parámetro se denota por la letra θ,
suponiendo que cualquier otro posible parámetro que aparezca en la dis-
tribución es conocido. Como siempre, se reserva la letra n para el tamaño
de la muestra. Se ha dejado comprobar estas expresiones en la sección de
ejercicios.

En la siguiente proposición tenemos dos resultados de utilidad. El primero

B
de ellos establece que la variable aleatoria Bθ log fX pX; θq, que es parte de
la expresión (2.15), siempre tiene esperanza cero. El segundo resultado nos
provee de una fórmula alternativa para calcular la información de Fisher.
2.11 Suficiencia e información 89

Distribución Parámetro Ipθq

1
Berpθq 0ăθă1
θp1 ´ θq
k
binpk, θq 0ăθă1
θp1 ´ θq
1
geopθq 0ăθă1 2
θ p1 ´ θq
r
bin negpr, θq 0ăθă1 2
θ p1 ´ θq
1
Poissonpθq θą0
θ
1
exppθq θą0
θ2
1
Npµ, θq θą0
2θ2

Figura 2.13

Proposición 2.6 Sea X una variable aleatoria con función de densidad

o de probabilidad f px; θq dependiente de un parámetro θ. Entonces
B
1. E r log f pX; θq s “ 0.
Bθ
B2
2. Ipθq “ ´E r log f pX; θq s.
Bθ2

Demostración. Por simplicidad en la escritura supondremos el caso

continuo. La prueba es análoga en el caso discreto.
90 2. Estimación puntual

B B
ż
Er log fX pX; θq s “ f px; θq log f px; θq dx
Bθ Bθ
żR
B
“ f px; θq dx
R Bθ
B
ż
“ f px; θq dx
Bθ R
“ 0.

2. Por el primer resultado, derivando por segunda vez respecto de θ,

tenemos que

B B
0 “ Er log fX pX; θq s
Bθ ż „Bθ 
B B
“ log f px; θq f px; θq dx
Bθ R Bθ
ż „ 2 
B B B log f px;θq
“ p 2 log f px; θqq f px; θq ` p log f px; θqqp e q dx
R Bθ Bθ Bθ
ż „ 2 
B B 2
“ p 2 log f px; θqq f px; θq ` p log f px; θqq f px; θq dx
R Bθ Bθ
B2
“ Er 2 log fX pX; θq s ` IX pθq.
Bθ

Observemos entonces que, como consecuencia de la definición y el primer

inciso del resultado anterior,

B
IX pθq “ Var r log fX pX; θq s.
Bθ

La definición de información de Fisher de una variable aleatoria o de su

distribución se puede extender fálcilmente para muestras aleatorias. Este es
el contenido de la siguiente definición y es completamente análoga al caso
unidimensional.
2.11 Suficiencia e información 91

Definición 2.22 Sea X1 , . . . , Xn una muestra aleatoria de una distri-

bución con función de densidad o de probabilidad f px; θq dependiente
de un parámetro desconocido θ. La información de Fisher del vector
pX1 , . . . , Xn q o de su distribución es la función

B
IX1 ,...,Xn pθq “ E r p log fX1 ,...,Xn pX1 , . . . , Xn ; θqq2 s. (2.16)
Bθ

A la cantidad (2.16) le llamaremos información de Fisher de la muestra

aleatoria y representa la cantidad de información que la muestra aleatoria
contiene acerca del parámetro θ. Como en el caso unidimensional, observe
con cuidado la expresión fX1 ,...,Xn pX1 , . . . , Xn ; θq, la cual es la función de
densidad conjunta de la muestra aleatoria evaluada en la muestra aleatoria
misma. Supondremos que tal expresión es una variable aleatoria.

Los resultados de la Proposición 2.6 pueden extenderse de manera análoga

al caso de muestras aleatorias. Este es el contenido del siguiente resultado,
en donde además se demuestra que la información de una muestra aleatoria
es n veces la información de cualquiera de las variables aleatorias de la
muestra.

Proposición 2.7 Sea X1 , . . . , Xn una muestra aleatoria de una distri-

bución f px; θq, dependiente de un parámetro θ. Entonces
B
1. E r log fX1 ,...,Xn pX1 , . . . , Xn ; θq s “ 0.
Bθ
B2
2. IX1 ,...,Xn pθq “ ´E r log fX1 ,...,Xn pX1 , . . . , Xn ; θq s.
Bθ2
3. IX1 ,...,Xn pθq “ n IX1 pθq.

Demostración. Los dos primeros resultados se demuestran de manera

análoga al caso unidimensional. Véase la página 89. Veamos el tercer resul-
92 2. Estimación puntual

tado.

3. Sea f px; θq la distribución en cuestión. Entonces,

B
IX1 ,...,Xn pθq “ Erp log f pX1 , . . . , Xn ; θqq2 s
Bθ
n
ÿ B
“ Erp log f pXi ; θqq2 s
i“1
Bθ
n n
ÿ B ÿ B
“ Erp log f pXi ; θqqp log f pXj ; θqqs
i“1
Bθ j“1
Bθ
n
ÿ B
“ Erp log f pXi ; θqq2 s
i“1
Bθ
ÿ B B
` Ep log f pXi ; θqqEp log f pXj ; θqq,
i‰j
Bθ Bθ

B
en donde sabemos que la variable aleatoria Bθ log f pXi ; θq tiene espe-
ranza cero y, en consecuencia, la segunda suma desaparece. Además,
usando la hipótesis de idéntica distribución, tenemos que

B
IX1 ,...,Xn pθq “ n Erp log fX1 pX1 ; θqq2 s
Bθ
“ n IX1 pθq.

Para concluir esta sección, demostraremos una relación entre la información

de Fisher de una muestra aleatoria y la información de una estadı́stica cual-
quiera de la misma muestra aleatoria. A partir de este resultado se obtendrá
una interpretación del concepto de suficiencia de una estadı́stica.
2.11 Suficiencia e información 93

Teorema 2.4 Sea X1 , . . . , Xn una muestra aleatoria de una distribu-

ción dependiente de un parámetro θ y sea T pX1 , . . . , Xn q una estadı́stica.
Entonces

1. IX1 ,...,Xn pθq ě IT pX1 ,...,Xn q pθq.

2. La igualdad se cumple si y sólo si T es suficiente para θ.

Demostración. Tenemos que

B2
IX1 ,...,Xn pθq “ ´Er 2 log f pX1 , . . . , Xn qs
Bθ
B2
ż
“ ´ r 2 log f pxqs f pxq dx.
Rn Bθ

Cuando la muestra aleatoria toma el valor x, la estadı́stica T toma el valor

T pxq, de modo que el evento T “ T pxq se cumple. Añadimos esta informa-
ción redundante y condicionamos respecto de este evento,

B2
ż
IX1 ,...,Xn pθq “ ´ 2
rlog f px, T pxqs f pxq dx
Rn Bθ
B2
ż
“ ´ r 2 log f px | T pxq fT pT pxqqsf pxq dx
Rn Bθ
B2
ż
“ ´ r 2 log f px | T pxqqsf pxq dx
Rn Bθ
B2
ż
´ r 2 log fT pT pxqqsf pxq dx
Rn Bθ
“ IT pθq ` IX1 ,...,Xn |T pθq
ě IT pθq.

Esto demuestra la primera afirmación. Veamos ahora el segundo resultado.

94 2. Estimación puntual

Por lo demostrado antes,

IX1 ,...,Xn pθq “ IT pθq ô IX1 ,...,Xn |T pθq “ 0

El resultado anterior establece que una estadı́stica es suficiente si, y sólo

si, captura toda la información de la muestra aleatoria. Por otro lado, este
resultado también nos provee de un mecanismo alternativo para demostrar
que una estadı́stica es suficiente: su información debe coincidir con la infor-
mación de la muestra aleatoria.

Ejercicios
110. Otras propiedades de la información de Fisher. Demuestre las siguien-
tes propiedades.

a) IX pθq ě 0.
b) IaX pθq “ IX pθq, a ‰ 0 constante.
c) IX`b pθq “ IX pθq, b constante.

111. Distribución Bernoulli. Aplicando directamente la definición, demues-

tre que la información de Fisher para la distribución Berpθq es

1
Ipθq “ .
θp1 ´ θq
2.11 Suficiencia e información 95

112. Distribución binomial. Sea k ě 1 un entero conocido. Aplicando di-

rectamente la definición, demuestre que la información de Fisher para
la distribución binpk, θq es
k
Ipθq “ .
θp1 ´ θq

113. Distribución geométrica. Aplicando directamente la definición, demues-

tre que la información de Fisher para la distribución geopθq es
1
Ipθq “ .
θ2 p1´ θq

114. Distribución binomial negativa. Sea r ě 1 un entero conocido. Aplican-

do directamente la definición, demuestre que la información de Fisher
para la distribución bin negpr, θq es
r
Ipθq “ .
θ2 p1´ θq

115. Distribución Poisson. Aplicando directamente la definición, demuestre

que la información de Fisher para la distribución Poissonpθq es
1
Ipθq “ .
θ

116. Distribución exponencial. Aplicando directamente la definición, de-

muestre que la información de Fisher para la distribución exppθq es
1
Ipθq “ .
θ2

117. Distribución normal. Sea µ un número real conocido. Aplicando di-

rectamente la definición, demuestre que la información de Fisher para
la distribución Npµ, θq es
1
Ipθq “ .
2θ2

118. Calcule la información de Fisher de una variable aleatoria X con la

siguiente distribución dependiente del parámetro θ indicado.
96 2. Estimación puntual

a) f pxq “ θ xθ´1 ¨ 1p0,1q pxq, θ ą 0.

b) —
c) —
119. Calcule la información de Fisher de una muestra aleatoria X1 , . . . , Xn
de una distribución dependiente de un parámetro θ como se indica en
cada inciso.
a) —
b) —
c) —
120. Usando la infomación de Fisher, determine si las siguientes estadı́sticas
son suficientes para el parámetro desconocido θ.
a) —
b) —
c) —

2.12. Suficiencia conjunta

En esta sección extenderemos el concepto de suficiencia de una estadı́stica
para un parámetro al caso de varias dimensiones. Consideraremos enton-
ces que T es un vector de estadı́sticas y θ es un vector de parámetros, no
necesariamente de la misma dimensión. Las definiciones y resultados son
análogos al caso unidimensional y partiremos nuevamente de una muestra
aleatoria X1 , . . . , Xn de una distribución f px; θq dependiente de ℓ paráme-
tros θ “ pθ1 , . . . , θℓ q.

Definición 2.23 Se dice que las variables de un vector de estadı́sticas

T “ pT1 , . . . , Tk q son suficientes conjuntamente para el vector de paráme-
tros θ “ pθ1 , . . . , θℓ q si y sólo si la distribución de la muestra X1 , . . . , Xn
condicionada al evento T “ pt1 , . . . , tk q no depende de θ.
2.12 Suficiencia conjunta 97

Ejemplo 2.42

a) Cada variable de la muestra aleatoria X1 , . . . , Xn es una estadı́stica, de

modo que podemos formar el vector de n estadı́sticas T “ pX1 , . . . , Xn q.
Es intuitivamente claro y se puede comprobar que T es suficiente para
θ.

b) Si tomamos el vector de las estadı́sticas de orden T “ pXp1q , . . . , Xpnq q,

es claro que este vector es suficiente para θ.

c) Si no tomamos la totalidad de la muestra aleatoria y consideramos que

T “ pX1 , . . . , Xk q, en donde k ă n, puede comprobarse que, en general,
T no es suficiente para θ. De hecho, cualquier vector que se pueda for-
mar con un subconjunto propio del conjunto de variables de la muestra
aleatoria no será, en general, suficiente para θ.

d) El vector de las primeras k estadı́sticas de orden, con k ă n, no es, en

general, suficiente para θ. Nuevamente, cualquier vector que se pueda
formar con cualesquiera k estadı́sticas de orden, no será, en general,
suficiente para θ.
‚

El bastante útil teorema de factorización de Jerzy Neyman en el caso uni-

dimensional puede extenderse sin dificultad al caso de vectores. La demos-
tración es análoga.

Teorema 2.5 (Teorema de factorización) Un vector de estadı́sticas

T “ pT1 , . . . , Tk q es suficiente conjuntamente para el vector de paráme-
tros θ “ pθ1 , . . . , θℓ q si y sólo si

Lpx, θq “ gpT1 pxq, . . . , Tk pxq; θq ¨ hpxq,

en donde g y h son dos funciones no negativas que dependen únicamente

de los argumentos indicados.
98 2. Estimación puntual

Ejemplo 2.43 Sea X1 , . . . , Xn una muestra aleatoria de la distribución

Npµ, σ 2 q, en donde µ y σ 2 son desconocidos. Definamos las estadı́sticas
n
ÿ
T1 “ Xi ,
i“1
ÿn
T2 “ Xi2 .
i“1

Demostraremos que T “ pT1 , T2 q es suficiente para θ “ pµ, σ 2 q. Si se qui-

siera usar la definición de suficiencia conjunta, se tendrı́a que considerar
un posible valor t1 de T1 y un posible valor t2 de T2 y demostrar que la
expresión
fX1 ,...,Xn ,T1 ,T2 px1 , . . . , xn , t1 , t2 q
fX1 ,...,Xn | T1 ,T2 px1 , . . . , xn | t1 , t2 q “
fT1 ,T2 pt1 , t2 q
no depende de µ ni de σ 2 . Sin embargo, encontrar la expresión anterior no
es sencillo. Utilizaremos entonces el teorema de factorización. Tenemos que
ˆ ˙n{2 n
2 1 1 ÿ
Lpx; µ, σ q “ expp´ pxi ´ µq2 q
2πσ 2 2σ 2 i“1
ˆ ˙n{2 ˆ ˙n{2 n n
1 1 1 ÿ 2 ÿ
“ ¨ expp´ p x ´ 2µ xi ` nµ2 qq
2π σ2 2σ 2 i“1 i i“1

El primer factor es la función constante hpxq y el resto de la expresión

corresponde a una función gpT1 , T2 ; µ, σ 2 q. Por lo tanto, pT1 , T2 q es suficiente
para pµ, σ 2 q. ‚
Cuando a un vector de estadı́sticas suficientes conjuntamente se le aplica
una función biyectiva se obtiene otro vector que preserva la propiedad de ser
suficiente. Este resultado es análogo al caso unidimensional y se enuncia a
continuación. Su demostración es idéntica al caso estudiado antes y se deja
como ejercicio.

Proposición 2.8 Funciones biyectivas de estadı́sticas suficientes con-

juntas son también suficientes.
2.13 Suficiencia minimal 99

Ejemplo 2.44 En el ejemplo anterior ř se comprobóřque el vector de es-

tadı́sticas pT1 , T2 q dadas por T1 “ ni“1 Xi y T2 “ ni“1 Xi2 es suficiente
para el vector de parámetros pµ, σ 2 q en una distribución normal. La trans-
formación
pt1 , t2 q ÞÑ pt1 {n, pt2 ´ t21 {nq{pn ´ 1qq

resulta ser una función biyectiva sobre p´8, 8q ˆ p0, 8q. Después de un
cálculo sencillo puede comprobarse que cuando esta función se aplica al
vector pT1 , T2 q se obtiene el vector pX̄, S 2 q. Por lo tanto, este nuevo vector
de estadı́sticas también es suficiente para pµ, σ 2 q. ‚

Observación 2.1 La suficiencia conjunta de un vector de k estadı́sticas

para un vector de k parámetros no implica la suficiencia individual coor-
denada a coordenada. Considerando el ejemplo anterior, se comprobó que
el vector pX̄, S 2 q es suficiente para pµ, σ 2 q en una distribución normal. Es
inmediato verificar que el vector en el orden cambiado pS 2 , X̄q también es
suficiente para pµ, σ 2 q. La suficiencia coordenada a coordenada dirı́a que S 2
es suficiente individualmente para µ y que X̄ es suficiente para σ 2 . Estas
afirmaciones son falsas.

Ejercicios
121. Demuestre que toda función biyectiva de un vector suficiente de es-
tadı́sticas pT1 , . . . , Tk q para un vector de parámetros pθ1 , . . . , θl q es
también suficiente.

122. Información adicional. Sea pT1 , . . . , Tk q suficiente para pθ1 , . . . , θℓ q. Su-

ponga que Tk`1 es una estadı́stica adicional. Demuestre que el vector
pT1 , . . . , Tk`1 q también es suficiente para pθ1 , . . . , θℓ q.

2.13. Suficiencia minimal

Como hemos visto antes, la cualidad de ser suficiente para una estadı́stica
significa que ésta preserva de manera completa la información de la mues-
tra aleatoria. El objetivo ahora es buscar formas compactas de escribir a
100 2. Estimación puntual

las estadı́sticas suficientes. En tal caso a la estadı́stica se le llama suficien-

te minimal. Para entender mejor el concepto de minimalidad definiremos
primero cuándo una estadı́stica es función de otra.

Definición 2.24 Sea X1 , . . . , Xn una muestra aleatoria. Se dice que una

estadı́stica T es una función de otra estadı́stica S si para cualesquiera
dos valores x “ px1 , . . . , xn q y y “ py1 , . . . , yn q de la muestra aleatoria
se cumple
Spxq “ Spyq ñ T pxq “ T pyq.

Recordemos que τ : A Ñ B es una función si para cada a P A existe un único

elemento b P B tal que τ paq “ b, de manera equivalente, esta condición se
puede expresar como la implicación τ pa1 q ‰ τ pa2 q ñ a1 ‰ a2 . La siguiente
serie de equivalencias demuestra que esta definición elemental de función
coincide con la definición de función de una estadı́stica respecto a otra que
hemos dado antes.

T es una función τ de S (i.e. T “ τ pS))

ô τ pSpxqq ‰ τ pSpyqq ñ Spxq ‰ Spyq
ô Spxq “ Spyq ñ τ pSpxqq “ τ pSpyqq
ô Spxq “ Spyq ñ T pxq “ T pyq.

La última implicación es la condición que aparece en la Definición 2.24 .

Nota. Observemos que no hay restricciones sobre las dimensiones de las

estadı́sticas T y S en la Definición 2.24, de modo que éstas pueden ser
vectores de estadı́sticas. Por ejemplo, supongamos que S es la estadı́stica
dada por el vector de la muestra aleatoria, i.e. S “ pX1 , . . . , Xn q. Entonces
es claro que toda estadı́stica o vector de estadı́sticas es función de S.

Ejemplo 2.45 Las estadı́sticas T que aparecen a continuación son ejemplos

de funciones de las estadı́sticas S indicadas. En cada caso es inmediato
comprobar que se cumple la condición de la Definición 2.24 .
2.13 Suficiencia minimal 101

1
a) S “ X1 ` ¨ ¨ ¨ ` Xn , T “ X̄ “ n pX1 ` ¨ ¨ ¨ ` Xn q.

b) S “ pX1 , . . . , Xn q, T “ pXp1q , . . . , Xpnq q.

c) S “ pXp1q , . . . , Xpnq q, T “ X1 ` ¨ ¨ ¨ ` Xn .

Otros ejemplos de situaciones cuando una estadı́stica es, o no es, función

de otra estadı́stica se muestran en la sección de ejercicios. Ahora podemos
enunciar el concepto de suficiencia minimal.

Definición 2.25 Se dice que una estadı́stica T es suficiente minimal

para un parámetro θ cuando

a) T es suficiente para θ y

b) T es minimal, es decir, es función de cualquier otra estadı́stica sufi-

ciente para θ.

Aplicar directamente la definición anterior para demostrar que una estadı́sti-

ca es suficiente minimal puede ser difı́cil pues, por la segunda condición,
debe comprobarse que la estadı́stica minimal es función de cualquier otra
estadı́stica suficiente. El siguiente resultado es de suma utilidad y establece
condiciones suficientes para comprobar la suficiencia minimal de una es-
tadı́stica.
102 2. Estimación puntual

Teorema 2.6 Sea X1 , . . . , Xn una muestra aleatoria de una distribu-

ción con función de densidad o de probabilidad f px; θq, dependiente
de un parámetro θ. Sea T una estadı́stica y sean x “ px1 , . . . , xn q y
y “ py1 , . . . , yn q cualesquiera dos valores dados fijos de la muestra alea-
toria. Si se cumple la equivalencia
« ﬀ « ﬀ
f px; θq
no depende de θ ðñ T xq “ T pyq , (2.17)
f py; θq

entonces T es una estadı́stica suficiente minimal para θ.

Demostración. Demostraremos primero la suficiencia usando el teo-

rema de factorización. Sea px1 , . . . , xn q un valor cualquiera de la muestra
aleatoria y supongamos que t es su valor bajo la estadı́stica T , es decir,
T px1 , . . . , xn q “ t. Sea py1 , . . . , yn q otro posible valor de la muestra aleatoria
tal que T py1 , . . . , yn q “ t. Este otro valor de la muestra aleatoria no necesa-
riamente es distinto de px1 , . . . , xn q, pues puede ser que no haya otro valor
con esa propiedad. Es importante observar que, por el orden en que fueron
considerados estos objetos, py1 , . . . , yn q depende de px1 , . . . , xn q únicamente
a través del valor t. Esto se ilustra en la Figura 2.14.

b
t
px1 , . . . , xn q

py1 , . . . , yn q

Figura 2.14

Por construcción, se cumple que T px1 , . . . , xn q “ T py1 , . . . , yn q “ t y ha-

ciendo uso de la hipótesis (implicación de derecha a izquierda) se obtiene
2.13 Suficiencia minimal 103

que el cociente f px1 , . . . , xn ; θq{f py1 , . . . , yn ; θq no depende de θ, es decir,

f px1 , . . . , xn ; θq
“ h0 px1 , . . . , xn , y1 , . . . , yn q,
f py1 , . . . , yn ; θq

para alguna función no negativa h0 dependiente únicamente de las variables

indicadas. Por lo tanto,

f px1 , . . . , xn ; θq “ f py1 , . . . , yn ; θq ¨ h0 px1 , . . . , xn , y1 , . . . , yn q

“ gpT px1 , . . . , xn q; θq ¨ hpx1 , . . . , xn q.

Observe que el factor f py1 , . . . , yn ; θq se puede escribir como una función

no negativa gpT px1 , . . . , xn q; θq, pues py1 , . . . , yn q depende de px1 , . . . , xn q
únicamente a través de T px1 , . . . , xn q. El segundo factor es un función
hpx1 , . . . , xn q dependiente únicamente de px1 , . . . , xn q pues nuevamente ob-
servamos que py1 , . . . , yn q depende de px1 , . . . , xn q.

Ahora veamos la minimalidad. Sea S otra estadı́stica suficiente para θ. Por

el teorema de factorización, para cualquier valor px1 , . . . , xn q de la muestra
aleatoria,

f px1 , . . . , xn ; θq “ gpSpx1 , . . . , xn q; θq ¨ hpx1 , . . . , xn q,

para ciertas funciones no negativas g y h. Sean px1 , . . . , xn q y py1 , . . . , yn q

dos valores de la muestra aleatoria tales que Spx1 , . . . , xn q “ Spy1 , . . . , yn q.
Demostraremos que T px1 , . . . , xn q “ T py1 , . . . , yn q. Tenemos que

f px1 , . . . , xn ; θq gpSpx1 , . . . , xn q; θq ¨ hpx1 , . . . , xn q

“
f py1 , . . . , yn ; θq gpSpy1 , . . . , yn q; θq ¨ hpy1 , . . . , yn q
hpx1 , . . . , xn q
“ .
hpy1 , . . . , yn q

Esto significa que este cociente no depende de θ, de modo que, usando la

hipótesis (implicación de izquierda a derecha), se obtiene que T px1 , . . . , xn q “
T py1 , . . . , yn q, es decir, T es función de S. ‚

A continuación veremos algunos ejemplos de aplicación del teorema anterior.

104 2. Estimación puntual

Ejemplo 2.46 Sea X1 , . . . , Xn una muestra aleatoria de la distribución

Berpθq, en donde θ es un parámetro desconocido. Hemos demostrado an-
tes que T “ X1 ` ¨ ¨ ¨ ` Xn es una estadı́stica suficiente para θ. Usando el
teorema anterior mostraremos que T es suficiente minimal. Demostraremos
que la equivalencia (2.17) se cumple. Sean px1 , . . . , xn q y py1 , . . . , yn q dos
posibles valores de la muestra aleatoria. Entonces
f px1 , . . . , xn ; θq θx1 p1 ´ θq1´x1 ¨ ¨ ¨ θxn p1 ´ θq1´xn
“
f py1 , . . . , yn ; θq θy1 p1 ´ θq1ý1 ¨ ¨ ¨ θyn p1 ´ θq1ýn
θnx̄ p1 ´ θqńx̄
“
θnȳ p1 ´ θqńȳ
ˆ ˙nx̄ńȳ
θ
“ .
1´θ
De esta identidad se desprende el siguiente análisis.
f px1 , . . . , xn ; θq
no depende de θ ô nx̄ ´ nȳ “ 0
f py1 , . . . , yn ; θq
ô x̄ “ ȳ
ô T px1 , . . . , xn q “ T py1 , . . . , yn q.
‚

El siguiente ejemplo es particularmente interesante pues muestra una ma-

nera de usar la suficiencia minimal de una estadı́stica para demostrar la no
suficiencia de otra estadı́stica.

Ejemplo 2.47 (No suficiencia) Sea X1 , X2 , X3 una muestra aleatoria de

tamaño n “ 3 de la distribución Berpθq. Demostraremos que la estadı́stica
U “ X1 ¨ X2 ` X3 no es suficiente para θ. Supongamos lo contrario: supon-
gamos que U es suficiente. Como T “ X1 ` X2 ` X3 es suficiente minimal,
T debe ser función de U , es decir,
U px1 , x2 , x3 q “ U py1 , y2 , y3 q ùñ T px1 , x2 , x3 q “ T py1 , y2 , y3 q.
Sin embargo, esto no se cumple pues tomando px1 , x2 , x3 q “ p0, 0, 0q y
py1 , y2 , y3 q “ p0, 1, 0q, se tiene que U px1 , x2 , x3 q “ U py1 , y2 , y3 q “ 0 pero
0 “ T px1 , x2 , x3 q ‰ T py1 , y2 , y3 q “ 1. Se concluye que T no es función de U
y por lo tanto U no puede ser suficiente. ‚
2.13 Suficiencia minimal 105

Ejemplo 2.48 Sea X1 , . . . , Xn una muestra aleatoria de la distribución

Npµ, σ 2 q con µ y σ 2 desconocidos. Sea pT1 , T2 q el vector de estadı́sticas

T1 “ X 1 ` ¨ ¨ ¨ ` X n ,
T2 “ X12 ` ¨ ¨ ¨ ` Xn2 .

Demostraremos que pT1 , T2 q es suficiente minimal para pµ, σ 2 q. Sean x “

px1 , . . . , xn q y y “ py1 , . . . , yn q cualesquiera dos puntos muestrales. Entonces

p2πσ 2 q´n{2 expt´ ni“1 pxi ´ µq2 {2σ 2 u

ř
f px; θq
“
f py; θq p2πσ 2 q´n{2 expt´ ni“1 pyi ´ µq2 {2σ 2 u
ř

expt´ ni“1 x2i {2σ 2 ` µ ni“1 xi {σ 2 u

ř ř
“
expt´ ni“1 yi2 {2σ 2 ` µ ni“1 yi {σ 2 u
ř ř
n n n n
1 ÿ ÿ µ ÿ ÿ
“ expt´ 2 p x2i ´ yi2 q ` 2 p xi ´ yi qu.
2σ i“1 i“1
σ i“1 i“1

Esta cantidad no depende de pµ, σ 2 q ô el exponente es cero

para todo valor de µ y σ 2
ÿn ÿn ÿn n
ÿ
ô xi “ yi y x2i “ yi2
i“1 i“1 i“1 i“1
ô T1 pxq “ T1 pyq y T2 pxq “ T2 pyq.

Por lo tanto, pT1 , T2 q es suficiente minimal para pµ, σ 2 q. ‚

Demostraremos a continuación que toda función biyectiva de una estadı́stica

suficiente minimal es también suficiente minimal. Este resultado es también
válido en el caso vectorial.

Proposición 2.9 Toda función biyectiva de una estadı́stica suficiente

minimal es también suficiente minimal para el mismo parámetro.

Demostración. Veamos primero la suficiencia. Sabemos que toda función

biyectiva de una estadı́stica suficiente es también suficiente por la Proposi-
ción 2.4 de la página 82. De modo que esta propiedad ya es conocida. Ahora
106 2. Estimación puntual

veamos la minimalidad. Sea T la estadı́stica suficiente minimal y sea τ la

función biyectiva. Sea U otra estadı́stica suficiente. Supongamos que x y y
son dos puntos muestrales tales que U pxq “ U pyq. Como T es minimal, T es
función de U , y por lo tanto, T pxq “ T pyq. Entonces pτ ˝ T qpxq “ pτ ˝ T qpyq,
es decir, τ ˝ T es función de U . ‚

Ejemplo 2.49 Para la distribución Berpθq, sabemos que la estadı́stica T “

X1 ` ¨ ¨ ¨ ` Xn es suficiente minimal para θ. Definiendo la función biyectiva
τ ptq “ t{n se obtiene que la estadı́stica τ pT q “ X̄ es también suficiente
minimal para θ. ‚

Ejemplo 2.50 Sabemos que el vector de estadı́sticas pT1 , T2 q dadas por

T1 “ X 1 ` ¨ ¨ ¨ ` X n ,
T2 “ X12 ` ¨ ¨ ¨ ` Xn2 .

es suficiente minimal para el vector de parámetros de la distribución Npµ, σ 2 q.

Defina la función τ pt1 , t2 q “ pt1 {n, t2 {pn ´ 1q ´ t21 {pnpn ´ 1qq. Puede com-
probarse que τ es biyectiva cuando se le considera definida sobre una región
adecuada de R2 y que τ pT1 , T2 q “ pX̄, S 2 q. Por lo tanto, este vector de
estadı́sticas también es suficiente minimal para pµ, σ 2 q. ‚

Métodos para probar suficiencia

1 Usando la Definición 2.20
2 Usando el teorema de factorización 2.3
3 Comprobar que la estadı́stica es una biyección
de otra estadı́stica que sabemos que es suficiente
4 Usando la información de Fisher
5 Usando suficiencia minimal

Figura 2.15
2.13 Suficiencia minimal 107

Ejercicios
123. Sea X1 , . . . , Xn una muestra aleatoria y sea Xpiq la i-ésima estadı́stica
de orden, 1 ď i ď n. Determine si la estadı́stica T indicada es función
de la estadı́stica S.

a) S “ X1 ´ X2 , T “ X1 ` X2 .
b) S “ X1 ` X2 , T “ X1 .
c) S “ X1 ` X2 , T “ X1 ` X2 ` X3 .
d ) S “ X1 ` ¨ ¨ ¨ ` Xn , T “ pX1 ` ¨ ¨ ¨ ` Xn q2 .
e) S “ X1 ` ¨ ¨ ¨ ` Xn , T “ Xpnq .
f ) S “ pX1 , . . . , Xn q, T “ Xpnq .
g) S “ pX1 , . . . , Xn q, T “ Xp1q .
h) S “ X1 ` ¨ ¨ ¨ ` Xn , T “ pXp1q , Xpnq q.
i ) S “ pX1 , . . . , Xn q, T “ pXp1q , Xpnq q.
j ) S “ X1 ` ¨ ¨ ¨ ` Xk , T “ X1 ` ¨ ¨ ¨ ` Xn , 1 ď k ď n ´ 1.

124. Sea X1 , . . . , Xn una muestra aleatoria y sean S, T y U tres estadı́sticas.

Demuestre que

a) (Transitividad) Si U es función de T y T es función de S, entonces

U es función de S.
b) (Simetrı́a) T es siempre función de T .
c) (No reflexividad) Si T es función de S, no necesariamente S es
función de T .

125. El estimador máximo verosı́mil es función de cualquier estadı́stica su-

ficiente. Sea X1 , . . . , Xn una muestra aleatoria de una distribución
f px; θq, con θ desconocido. Suponga que T pX1 , . . . , Xn q es una es-
tadı́stica suficiente para θ y que existe un único estimador θ̂ para
θ por el método de máxima verosimilitud. Demuestre que θ̂ es una
función de T .

126. Sea X1 , . . . , Xn una muestra aleatoria de la distribución especificada

abajo, en donde θ es un parámetro desconocido. Suponga que cualquier
108 2. Estimación puntual

otro parámetro que pudiera aparecer en la distribución es conocido.

Demuestre directamente que la estadı́stica U “ X1 ` ¨ ¨ ¨ ` Xn es
suficiente minimal.

a) binpk, θq. d ) Npθ, σ 2 q.

b) Poissonpθq. e) gammapγ, θq.
c) geopθq.

127. Sea X1 , . . . , Xn una muestra aleatoria de la distribución unifp0, θq.

Demuestre que la última estadı́stica de orden T “ Xpnq es suficiente
minimal para θ.
128. Sea X1 , . . . , Xn una muestra aleatoria de la distribución unifpθ ´ 1, θ `
1q. Defina las estadı́sticas T1 “ Xp1q y Tn “ Xpnq Demuestre que
pT1 , T2 q es suficiente minimal para θ.
129. Suficiencia pero no minimalidad. Sea X1 , . . . , Xn una muestra alea-
toria de la distribución Npθ, σ 2 q. Suponga que n es par y defina la
estadı́stica
T “ X1 ` ¨ ¨ ¨ ` Xn ,
junto con las siguientes estadı́sticas definidas como la suma de las
variables con ı́ndice impar y con ı́ndice par,
T1 “ X1 ` X3 ` ¨ ¨ ¨ ` Xn´1 ,
T2 “ X 2 ` X 4 ` ¨ ¨ ¨ ` X n .
Claramente T “ T1 ` T2 y es inmediato comprobar que T es suficiente
para θ. Demuestre que
a) pT1 , T2 q es suficiente para θ.
b) pT1 , T2 q no puede ser suficiente minimal para θ.
130. Distribución geométrica. Sea X1 , . . . , Xn una muestra aleatoria de la
distribución geopθq, con 0 ă θ ă 1 desconocido, como se muestra
abajo. Demuestre que T “ X1 ` ¨ ¨ ¨ ` Xn es una estadı́stica suficiente
minimal para θ.
#
θp1 ´ θqx si x “ 0, 1, . . .
f px; θq “
0 en otro caso.
2.14 Esperanza condicional 109

131. Distribución uniforme. Sea X1 , . . . , Xn una muestra aleatoria de la

distribución unifpθ ´ 1{2, θ ` 1{2q, en donde θ es desconocido. Deter-
mine si

a) la variable Xp1q es suficiente para θ.

b) la variable Xpnq es suficiente para θ.

c) las variables Xp1q y Xpnq son suficientes minimales conjuntamente

para θ.

132. Distribución uniforme. Sea X1 , . . . , Xn una muestra aleatoria de la

distribución unifp0, θq, con θ ą 0 desconocido. Demuestre que la es-
tadı́stica de orden Xpnq es suficiente minimal para θ.

2.14. Esperanza condicional

Esta sección contiene una revisión breve sobre el concepto de esperanza

condicional de una variable aleatoria respecto de una sigma álgebra. Los
resultados que se mencionan se proporcionan sin demostración y pueden
consultarse, por ejemplo, en el texto de David Williams [8]. Aplicaremos el
concepto de esperanza condicional en las siguiente secciones de este capı́tulo.

Sea pΩ, F , P q un espacio de probabilidad y sea X una variable aleatoria

definida sobre este espacio. Supondremos que la esperanza de X es finita.
Consideremos que G Ď F es una sub σ-álgebra de F .
110 2. Estimación puntual

Definición 2.26 La esperanza condicional de X dado G es una variable

aleatoria denotada por el sı́mbolo EpX | G q y que se define mediante las
siguientes tres propiedades:

1. Es G -medible, esto significa que EpX | G q es una variable aleatoria

respecto de la sub σ-álgebra G .

2. Tiene esperanza finita.

3. Para cualquier evento G en G ,

EpEpX | G q ¨ 1G q “ EpX ¨ 1G q.

Una de las dificultades para entender el concepto de esperanza condicional es

que ésta no se define de manera explı́cita, sino a través de las propiedades
mencionadas. En cursos avanzados de probabilidad se demuestra que la
esperanza condicional existe y es la única variable aleatoria en el sentido casi
seguro que satisface estas tres propiedades. En este trabajo vamos a usar
la esperanza condicional en el caso cuando la sub σ-álgebra G es generada
por una variable aleatoria Y , es decir, G “ σpY q, esto significa que G es la
mı́nima σ-álgebra respecto de la cual Y es variable aleatoria. En este caso
en lugar de escribir EpX | G q se escribe EpX | Y q.

Notación. Cuando G “ σpY q, en donde Y es una variable aleatoria, la

esperanza condicional EpX | G q se escribe EpX | Y q.

Debido a la propiedad de unicidad casi segura, las igualdades o desigual-

dades entre una esperanza condicional y otra variable aleatoria son en el
sentido casi seguro (c.s.), y a menudo omitiremos tal especificación. En ge-
neral no es sencillo encontrar expresiones explı́citas para la esperanza condi-
cional o para su distribución, ni tampoco la definición implı́cita que hemos
dado lı́neas arriba permite su manejo directo. La manera de trabajar con
la esperanza condicional es a través de sus propiedades. Mencionaremos a
continuación algunas de ellas.
2.14 Esperanza condicional 111

1. La esperanza condicional es única casi seguramente. Esto significa que

si existe una variable aleatoria W que cumple las tres condiciones de
la Definición 2.26, entonces W “ EpX | G q c.s.

2. La esperanza condicional es lineal, es decir, si X y Y son variables

aleatorias con esperanza finita y a es una constante, entonces

EpaX ` Y | G q “ a EpX | G q ` EpY | G q.

3. Esta es la propiedad de monotonı́a: si X ď Y son dos variables alea-

torias con esperanzas finitas, entonces

EpX | G q ď EpY | G q.

4. La esperanza de la variable aleatoria EpX | G q es idéntica a la espe-

ranza de X, es decir,

EpEpX | G qq “ EpXq.

5. Si X es G -medible, entonces es inmediato comprobar que X mismo

cumple las tres condiciones de la Definición 2.26 y por la propiedad
de unicidad tenemos que

EpX | G q “ X.

6. Si X es independiente de G , entonces

EpX | G q “ EpXq.

7. Si Y es G -medible y acotada, entonces

EpX ¨ Y | G q “ Y ¨ EpX | G q.

8. Si G1 Ď G2 entonces

EpEpX | G1 q | G2 q “ EpEpX | G2 q | G1 q “ EpX | G1 q.

112 2. Estimación puntual

9. Si Y es discreta con valores 0, 1, . . . entonces

8
ÿ
EpX | Y q “ EpX | Y “ yq ¨ 1pY “yq
y“0
$
’
’ EpX | Y “ 0q si Y “ 0,
&
“ EpX | Y “ 1q si Y “ 1,
% .. ..
’
’
. .

El siguiente ejemplo es un caso particular de la última propedad y ayuda a

entender mejor el concepto de esperanza condicional.

Ejemplo 2.51 Sea Y una variable aleatoria con distribución Berpθq. En-
tonces

EpX | Y q “ EpX | Y “ 0q ¨ 1pY “0q ` EpX | Y “ 1q ¨ 1pY “1q ,

en donde las esperanzas condicionales respecto a eventos, que aquı́ aparecen,

son las usuales de probabilidad elemental. Más explı́citamente,
#
EpX | Y “ 0q si Y pωq “ 0,
EpX | Y qpωq “
EpX | Y “ 1q si Y pωq “ 1.

De esta manera, la variable aleatoria EpX | Y q es dicotómica y su distribu-

ción es

P p EpX | Y q “ EpX | Y “ 0q q “ 1 ´ θ,
P p EpX | Y q “ EpX | Y “ 1q q “ θ.

Ejercicios
133. A partir de la Definición 2.26, demuestre las siguientes propiedades de
la esperanza condicional.
2.15 Teorema de Rao-Blackwell 113

a) EpEpX | G qq “ EpXq.
b) Si X es G -medible entonces EpX | G q “ X.

134. Sea X una variable aleatoria con esperanza finita y sea Y una variable
aleatoria discreta con valores 0, 1, . . . Demuestre directamente que

EpEpX | Y qq “ EpXq.

135. Sea X una variable aleatoria con esperanza finita e independiente de

la variable aleatoria discreta Y con valores 0, 1, . . . Demuestre direc-
tamente que
EpX | Y q “ EpXq.

136. Sea pX, Y q un vector aleatorio discreto con función de probabilidad

como aparece abajo. Encuentre EpX | Y q.

xzy ´1 1

a) 1 1{8 1{4
2 1{8 1{8
3 1{4 1{8

xzy ´1 0 1

b) 1 1{9 1{9 1{9

2 1{9 1{9 1{9
3 1{9 1{9 1{9

2.15. Teorema de Rao-Blackwell

El siguiente resultado establece un procedimiento para mejorar un estimador
insesgado a través de una estadı́stica suficiente. La mejorı́a consiste en que
se propone un nuevo estimador insesgado con varianza menor o igual a la
varianza del estimador insesgado original teniendo como base el cálculo de
una esperanza condicional.
114 2. Estimación puntual

Teorema 2.7 (Rao-Blackwell5 ) Sea T un estimador insesgado para

una función parametral unidimensional τ pθq y sea U una estadı́stica
suficiente para θ. Entonces la variable aleatoria EpT | U q

1. Es una estadı́stica.

2. Es función de la estadı́stica U .

3. Es insesgado para τ pθq.

4. Es tal que se cumple la desigualdad que aparece abajo, con igual-

dad si y sólo si T “ EpT | U q c.s.

VarpEpT | U qq ď VarpT q.

Demostración.

1. Como U es suficiente, la variable aleatoria EpT | U q resulta ser una

función de la muestra aleatoria que no depende de θ, pues para cada
valor u de U ,

EpT | U “ uq “ EpT pX1 , . . . , Xn q | U “ uq

ż
“ T px1 , . . . , xn q f px1 , . . . , xn | U “ uq dx1 ¨ ¨ ¨ dxn ,
Rn

en donde ambos factores de este integrando no dependen de θ.

2. Sean ω1 y ω2 dos puntos muestrales tales que U pω1 q “ U pω2 q. Demos-

traremos que la estadı́stica EpT | U q también toma un mismo valor en
estos dos puntos muestrales. Tenemos que

EpT | U qpω1 q “ EpT | U “ U pω1 qq

“ EpT | U “ U pω2 qq
“ EpT | U qpω2 q.
5
Calyampudi Radhakrishna Rao (1920-), matemático y estadı́stico hindú.
5
David Harold Blackwell (1919–2010), estadı́stico estadounidense.
2.15 Teorema de Rao-Blackwell 115

3. EpEpT | U qq “ EpT q “ τ pθq.

VarpT q “ EpT ´ τ pθqq2

Usando las propiedades de la esperanza condicional, es inmediato com-

probar que el doble producto que aparece en la última lı́nea se anula.
Por lo tanto,

VarpT q “ EpT ´ EpT | U qq2 ` VarpEpT | U qq

ě VarpEpT | U qq.

Además, esta desigualdad es una igualdad si y sólo si EpT ´EpT | U qq2 “

0. Pero la esperanza de esta variable aleatoria no negativa es cero si y
sólo si la variable misma es cero c.s., esto es, T “ EpT | U q c.s.

De esta manera, un estimador insesgado T puede mejorarse en el sentido

de producir a través de él otro estimador insesgado de varianza menor o
igual a la varianza de T , calculando su esperanza condicional respecto de
alguna estadı́stica suficiente. En lo que resta de esta sección daremos varios
ejemplos de aplicación de este procedimiento.

Ejemplo 2.52 Sea X1 , . . . , Xn una muestra aleatoria de la distribución

Berpθq con θ desconocido. Es inmediato comprobar que la estadı́stica T “
X1 es un estimador insesgado para θ. Por otro lado, sabemos que U “
X1 ` ¨ ¨ ¨ ` Xn es suficiente para θ. Calcularemos EpT | U q encontrando ası́
un mejor estimador insesgado para θ. Sea u P t1, 2, . . . , nu un posible valor
116 2. Estimación puntual

de U . Entonces

EpT | U “ uq “ 1 ¨ P pT “ 1 | U “ uq ` 0 ¨ P pT “ 1 | U “ uq
“ P pX1 “ 1 | X1 ` ¨ ¨ ¨ ` Xn “ uq
P pX1 “ 1q P pX2 ` ¨ ¨ ¨ ` Xn “ u ´ 1q
“
P pX1 ` ¨ ¨ ¨ ` Xn “ uq
`n´1˘ u´1
θ u´1 θ p1 ´ θqpn´1q´pu´1q
“ ` n u
˘
θ p1 ´ θqn´u
ˆ ˙u ˆ ˙
n´1 n
“ {
u´1 u
“ u{n.

De la identidad anterior se obtiene que EpT | U q “ U {n “ X̄. Observemos

que VarpT q “ θp1 ´ θq, mientras que VarpEpT | U qq “ θp1 ´ θq{n. Se verifica
la desigualdad
1
θp1 ´ θq “ VarpEpT | U qq ď VarpT q “ θp1 ´ θq.
n
‚

La siguiente es una situación general que incluye el ejemplo anterior.

Ejemplo 2.53 Sea X1 , . . . , Xn una muestra aleatoria de una distribución

dependiente de un parámetro desconocido θ y tal que su media es θ mismo.
Las distribuciones Poissonpθq y Npθ, σ 2 q son ejemplos de esta situación. Es
claro que la estadı́stica T “ X1 es un estimador insesgado para θ. Suponga-
mos que U “ X1 ` ¨ ¨ ¨ ` Xn es suficiente para θ. Entonces, para cualquier
posible valor u de U , por la hipótesis de idéntica distribución

EpT | U “ uq “ EpX1 | X1 ` ¨ ¨ ¨ ` Xn “ uq
1
“ EpX1 ` ¨ ¨ ¨ ` Xn | X1 ` ¨ ¨ ¨ ` Xn “ uq
n
u
“ .
n
Esto demuestra que EpT | U q “ U {n “ X̄. Este es el estimador inses-
gado mejorado por el procedimiento de Rao-Blackwell y su varianza es
2.15 Teorema de Rao-Blackwell 117

1
VarpEpT | U qq “ n VarpT q. Se verifica la desigualdad
1
VarpT q “ VarpEpT | U qq ď VarpT q.
n
‚

Ejemplo 2.54 Supongamos nuevamente que X1 , . . . , Xn es una muestra

aleatoria de la distribución Berpθq, con θ desconocido. Sea τ pθq “ θp1 ´ θq.
La estadı́stica T “ X1 p1 ´ X2 q es un estimador insesgado para la función
parametral τ pθq pues, por la hipótesis de independencia,
EpT q “ EpX1 p1 ´ X2 qq “ EpX1 q Ep1 ´ X2 q “ θp1 ´ θq.
Sea U “ X1 ` ¨ ¨ ¨ ` Xn . Sabemos que U es suficiente para θ y por lo tanto
también lo es para τ pθq. Encontraremos el estimador insesgado mejorado por
el procedimiento de Rao-Blackwell para τ pθq usando el estimador insesgado
inicial T y la estadı́stica suficiente U . Sea u P t0, 1, . . . , nu un posible valor
de U . Entonces
EpT | U “ uq “ EpX1 p1 ´ X2 q | U “ uq
“ EpX1 | U “ uq ´ EpX1 X2 | U “ uq
u
“ ´ 1 ¨ P pX1 “ 1, X2 “ 1 | U “ uq
n
u P pX1 “ 1, X2 “ 1, X3 ` ¨ ¨ ¨ ` Xn “ u ´ 2q
“ ´
n P pX1 ` ¨ ¨ ¨ ` Xn “ uq
2
`n´2˘ u´2
u θ u´2 θ p1 ´ θqn´u
“ ´ `n˘
n θu p1 ´ θqn´u
`n´2˘u
u
“ ´ u´2
`n˘
n u
u upu ´ 1q
“ ´
n npn ´ 1q
n u u
“ p1 ´ q.
n´1n n
n U U
Por lo tanto, EpT | U q “ n´1 n p1 ´ n q. Este es el estimador insesgado me-
jorado para τ pθq “ θp1 ´ θq. Sin mucha dificultad puede comprobarse que
VarpT q “ θp1 ´ θqp1 ´ θ ` θ2 q.
118 2. Estimación puntual

y, haciendo el cálculo adicional, se comprueba que

VarpEpT | U qq ď VarpT q.
‚

Ejemplo 2.55 Sea X1 , . . . , Xn una muestra aleatoria de la distribución

Npµ, σ 2 q con µ desconocido pero σ 2 conocida. El estimador T “ X1 es
insesgado para µ. Por otro lado, U “ X̄ es suficiente. Deseamos encontrar
el estimador insesgado mejorado EpT | U q. Para cualquier valor t de T y
cualquier valor u de U ,
fT,U pt, uq
fT | U pt | uq “
fU puq
fX1 ,pX1 `¨¨¨`Xn q{n pt, uq
“
fU puq
fX1 ,X1 `¨¨¨`Xn pt, nuq
“
fU puq
fX1 ,X2 `¨¨¨`Xn pt, nu ´ tq
“
fU puq
fX1 ptq fX2 `¨¨¨`Xn pnu ´ tq
“ .
fU puq
Las tres funciones de densidad que aparecen en la última expresión son nor-
males con ciertos parámetros. Substituyendo estas funciones y simplificando
se encuentra que esta función de densidad es Npu, p1´1{nqσ 2 q. Por lo tanto,
la esperanza de esta función de densidad condicional es EpT | U “ uq “ u “
x̄, de donde se concluye que EpT | U q “ X̄. La varianza de esta variable
aleatoria es VarpEpT | U qq “ σ 2 {n. Se verifica entonces la desigualdad
1 2
σ “ VarpEpT | U qq ď VarpT q “ σ 2 .
n
‚

Ejercicios
137. —
2.16 Completez 119

2.16. Completez
Sea X1 , . . . , Xn una muestra aleatoria de una distribución con función de
densidad o de probabilidad f px; θq, dependiente de un parámetro descono-
cido θ. Supongamos que θ toma valores en un cierto espacio parametral Θ.
Sea T una estadı́stica y sea fT pt; θq su función de densidad o de probabili-
dad, que también depende de θ. En esta sección definiremos el concepto de
completez para la familia de funciones de densidad o de probabilidad

t fT pt; θq : θ P Θ u.

Definición 2.27 Se dice que una estadı́stica T o su familia de funciones

de densidad o de probabilidad

t fT pt; θq : θ P Θ u

es completa si para cualquier función h se cumple la implicación

EphpT qq “ 0 ñ hpT q “ 0 c.s. (2.18)

Observe que no hemos especificado el dominio de la función h, pero éste

debe contener al conjunto de valores de la estadı́stica T , de tal forma que la
composición hpT q tiene sentido. Supondremos que tal composición es tam-
bién una variable aleatoria y que tiene esperanza finita. Otra observación
importante es que, en general, la esperanza EphpT qq depende del paráme-
tro desconocido θ, ası́ es que la condición EphpT qq “ 0 que aparece en la
definición anterior debe cumplirse para todo valor posible del parámetro θ.

En la siguiente sección veremos la utilidad de la propiedad de completez de

una estadı́stica cuando se conjunte con la propiedad de suficiencia. Estas
propiedades para una estadı́stica aparecen como hipótesis en el bastante
útil teorema de Lehmann-Scheffé. Regresando a la definición de completez,
en general no es fácil comprobar su cumplimiento. El siguiente ejemplo, sin
embargo, es particularmente sencillo.
120 2. Estimación puntual

Ejemplo 2.56 (Caso discreto) Sea X1 , . . . , Xn una muestra aleatoria de

la distribución Berpθq, en donde 0 ă θ ă 1 es desconocido. Demostraremos
que la estadı́stica T “ X1 ` ¨ ¨ ¨ ` Xn es completa. Sea h una función cual-
quiera tal que EphpT qq “ 0. Como T tiene distribución binpn, θq, tenemos
que
n ˆ ˙
ÿ n t
EphpT qq “ hptq θ p1 ´ θqn´t
t“0
t
n ˆ ˙
n
ÿ n
“ p1 ´ θq hptq pθ{p1 ´ θqqt .
t“0
t

La última suma indicada corresponde a un polinomio en la variable α “

θ{p1 ´ θq. Para que este polinomio en α sea cero para cualquier posible valor
de α, sus coeficientes deben ser todos forzosamente cero, esto es, para cada
t “ 0, 1, . . . ˆ ˙
n
hptq “ 0.
t
Esto implica que hptq “ 0 para cada t “ 0, 1, . . ., es decir, hpT q “ 0. De esta
manera hemos comprobado que T es una estadı́stica completa. ‚

Veamos otro ejemplo, esta vez cuando la distribución de probabilidad invo-

lucrada es continua.

Ejemplo 2.57 (Caso continuo) Sea X1 , . . . , Xn una muestra aleatoria de

la distribución unifp0, θq, en donde θ ą 0 es desconocido. Demostraremos
que la estadı́stica T “ máxtX1 , . . . , Xn u es completa. Observemos primero
que T tiene como posibles valores el intervalo p0, θq y recordemos que su
función de distribución es

FT ptq “ P pmáxtX1 , . . . , Xn u ď tq
“ pP pX1 ď tqqn
$
’
’ 0 si t ď 0,
& ˆ t ˙n
’
“ si 0 ă t ă θ,
’
’ θ
’
1 si t ě 1.
%
2.16 Completez 121

Por lo tanto, $ ˆ ˙
n´1
& n t
’
si 0 ă t ă θ,
fT ptq “ θ θ
’
% 0 en otro caso.
Sea entonces h una función cualquiera tal que EphpT qq “ 0. Para cualquier
valor θ ą 0,
żθ ˆ ˙n´1
n θ
ż
n t
0“ hptq dt “ n hptq tn´1 dt.
0 θ θ θ 0

Esto implica que la integral se anula para cualquier θ ą 0. Derivando esta

integral respecto de θ y suponiendo continuidad para la función h, se obtiene
que hpθq θn´1 “ 0 para cualquier θ ą 0. Esto se cumple cuando hpθq “ 0
para cualquier θ ą 0, es decir, hpT q “ 0. Esto demuestra que T es completa.
‚

Observemos que para demostrar la no completez de una estadı́stica T es

suficiente dar una función h que no sea idénticamente cero en el conjunto
de valores de T y tal que ErhpT qs “ 0. Veremos a continuación un ejemplo
de esta situación.

Ejemplo 2.58 (No completez) Supongamos que una estadı́stica T tiene

función de densidad f pt; θq dada por la distribución Np0, θq, es decir,

1 2
f pt; θq “ ? e´t {2θ , ´8 ă t ă 8,
2πθ
en donde el parámetro θ ą 0 es la varianza de la distribución y la media es
cero. Entonces es fácil comprobar que T , o la familia de densidades

t f pt; θq : 0 ă θ ă 8 u,

no es completa pues para la función hptq “ t, que es distinta de cero, se

cumple la condición ż8
hptq f pt; θq dt “ 0.
´8
‚
122 2. Estimación puntual

Es interesante observar que la propiedad de completez de una estadı́stica de-

pende fuertemente del espacio parametral Θ que se considere como conjunto
de posibles valores para θ. En efecto, la implicación (2.18) que aparece en la
Definición 2.27 debe cumplirse para todo valor de θ en Θ. Si este conjunto
se reduce la completez puede perderse.

Completez para vectores de estadı́sticas

La definición de completez para una estadı́stica T es también válida para
un vector de estadı́sticas T “ pT1 , . . . , Tk q. En este caso la función real h
que se utiliza debe tener como dominio un subconjunto de Rk .
Como en el caso unidimensional, se pueden dar ejemplos de vectores de
estadı́sticas que no satisfacen la propiedad de completez.

Preservación de la completez bajo biyecciones

Demostraremos a continuación que la propiedad de completez permanece
invariante bajo transformaciones biyectivas.

Teorema 2.8 Toda función biyectiva de una estadı́stica (o vector de

estadı́sticas) completa(s) también es completa.

Demostración. Consideremos el caso vectorial. Sea T “ pT1 , . . . , Tk q un

vector de estadı́sticas completo. Es decir, para cualquier función real h con
dominio adecuado, la condición EphpT qq “ 0 implica que hpT q “ 0 c.s. Sea
ϕ una función biyectiva tal que ϕpT q es un vector aleatorio de dimensión k
y con esperanza finita. Sea g una función real cualquiera con dominio en un
subconjunto de Rk tal que EpgpϕpT qqq “ 0. Es decir, Eppg ˝ ϕqpT qq “ 0. La
completez de T implica que pg ˝ ϕqpT q “ 0 c.s., es decir, gpϕpT qq “ 0 c.s.
Esto demuestra la completez de ϕpT q. ‚

Para concluir esta sección mencionaremos que un apéndice se presenta un

ejemplo general de completez para cierta estadı́stica en la familia exponen-
cial.
2.16 Completez 123

Ejercicios
138. Sea X1 , . . . , Xn una muestra aleatoria de la distribución especificada
abajo, en donde θ es un parámetro desconocido. Suponga que cualquier
otro parámetro que pudiera aparecer en la distribución es conocido.
Demuestre directamente que la estadı́stica U “ X1 ` ¨ ¨ ¨ ` Xn es
completa.

a) binpk, θq. d ) Npθ, σ 2 q.

b) Poissonpθq. e) gammapγ, θq.
c) geopθq.

139. Distribución uniforme. Sea T “ |X1 |, en donde X1 es una muestra

aleatoria de tamaño n “ 1 de la distribución unifp´θ, θq, con θ ą 0
desconocido. Determine si T es una estadı́stica completa.

140. Sea X1 , . . . , Xn una muestra aleatoria de la distribución Poissonpθq

con θ ą 0 desconocido. Demuestre que la estadı́stica

a) T “ X1 ` ¨ ¨ ¨ ` Xk es completa, 1 ď k ď n.
b) T “ pX1 , . . . , Xk q no es completa, 2 ď k ď n.

141. Sea f px; θq la función de densidad de la distribución unifp´θ, θq, con

θ ą 0. Demuestre que la familia de densidades tf px; θq : 0 ă θ ă 8u
no es completa.

142. Sea f px; θq la función de densidad de la distribución Np0, θq, con θ ą 0.

Demuestre que la familia de densidades tf px; θq : 0 ă θ ă 8u no es
completa.

143. Demuestre que cada una de las siguientes familias de distribuciones

no son completas.

a) unifp´θ, θq con θ ą 0.
b) Np0, θq con θ ą 0.
124 2. Estimación puntual

2.17. Teorema de Lehmann-Scheffé

Finalmente llegamos al siguiente resultado importante que nos permite cons-
truir insesgadores insesgados de varianza mı́nima a partir de ciertos elemen-
tos.

Teorema 2.9 (Teorema de Lehmann-Scheffé6 ) Sea T un estimador

insesgado para la función parametral unidimensional τ pθq, en donde θ
puede ser un vector de parámetros. Sea U una estadı́stica suficiente y
completa para θ. Entonces el estimador EpT | U q

1. es único en el sentido casi seguro, que es función de U y es insesgado

para τ pθq.

2. tiene varianza mı́nima dentro del espacio de todos los estimadores

insesgados para τ pθq que son funciones de U .

3. tiene varianza mı́nima, es decir, es el UMVUE para τ pθq.

Demostración.
1. Unicidad. Por el teorema de Rao-Blackwell sabemos que EpT | U q es
función de U y es insesgado para τ pθq. Sea W otro estimador para τ pθq
con estas dos caracterı́sticas. Defina la función hpU q “ W ´ EpT | U q.
Entonces
EphpU qq “ EpW q ´ EpEpT | U qq “ τ pθq ´ τ pθq “ 0.
Como U es completa, hpU q “ 0 c.s. Es decir, W “ EpT | U q c.s.
2. Demostraremos primero que EpT | U q tiene varianza mı́nima dentro
del espacio de todos los estimadores insesgados para τ pθq que son
funciones de U . Sea W cualquier estimador para τ pθq con estas dos
caracterı́sticas. Por el teorema de Rao-Blackwell,
VarpEpW | U qq ď VarpW q,
6
Erich Leo Lehmann (1917-2009), estadı́stico estadounidense.
6
Henry Scheffé (1907-1977), matemático y estadı́stico estadounidense.
2.17 Teorema de Lehmann-Scheffé 125

pero por la propiedad de unicidad demostrada en el inciso anterior,

tenemos que W “ EpT | U q c.s. Esto es,

VarpEpEpT | U q | U qq ď VarpW q.

De aquı́ se obtiene que VarpEpT | U qq ď VarpW q, es decir, el estima-

dor EpT | U q tiene varianza mı́nima dentro del espacio de todos los
estimadores insesgados para τ pθq que son funciones de U .

3. Sea W cualquier estimador insesgado para τ pθq pero que no necesa-

riamente es función de U . Sin embargo, EpW | U q es función de U , de
modo que por el teorema de Rao-Blackwell primero y después por lo
demostrado en el inciso anterior tenemos que

VarpW q ě VarpEpW | U qq
ě VarpEpT | U qq.

Es decir, la varianza de W es por lo menos la varianza de EpT | U q. Su-

pongamos que la varianza de W alcanza este valor mı́nimo. Entonces
las desigualdades anteriores son en realidad igualdades. Esto implica
que VarpW q “ VarpEpW | U qq. Por el teorema de Rao-Blackwell nue-
vamente, W “ EpW | U q c.s., es decir, resulta que W es realmente
función de U c.s. Por el inciso anterior, W “ EpT | U q c.s.

Del resultado general anterior se desprenden los siguientes casos particulares

que permiten encontrar el UMVUE para una función parametral τ pθq.

Corolario 2.1 Sea U una estadı́stica suficiente y completa para θ. Si

la función gpU q es un estimador insesgado para τ pθq, entonces gpU q es
el UMVUE para τ pθq.

Demostración. Sea T “ gpU q. Entonces EpT | U q “ gpU q c.s. ‚

126 2. Estimación puntual

Corolario 2.2 Si T es un estimador insesgado para τ pθq, y suficiente

y completo para θ, entonces T es el UMVUE para τ pθq.

Demostración. EpT | T q “ T c.s. ‚

Ejercicios
144. Distribución Berpθq: UMVUE para τ pθq “ θ ` p1 ´ θqe2 .
Sea X1 , . . . , Xn una muestra aleatoria de la distribución Berpθq, con θ
desconocido. Defina la función parametral τ pθq “ θ ` p1 ´ θqe2 .

a) Encuentre un estimador insesgado T para τ pθq y compruebe que

lo es.
b) Considere la estadı́stica suficiente y completa U “ X1 ` ¨ ¨ ¨ ` Xn .
Para cada valor u de U , calcule EpT | U “ uq.
c) Use el teorema de Lehmann-Scheffé para encontrar el UMVUE
para τ pθq.

145. Distribución geo(θ): UMVUE para θ.

Sea X1 , . . . , Xn una muestra aleatoria de la distribución geopθq, con
θ desconocido. Nos interesa estimar el parámetro θ. Sabemos que la
estadı́stica U “ X1 ` ¨ ¨ ¨ ` Xn es suficiente y completa para θ y que
el estimador máximo verosı́mil es
1
T “ .
1 ` X̄
Demuestre los siguientes resultados que llevan a encontrar el UMVUE
para θ. Se verifica que la varianza del UMVUE alcanza la cota inferior
de Cramér-Rao.

a) Demuestre que T es insesgado para θ.

99K b) Calcule VarpT q.
c) Calcule EpT | U q. Este es el UMVUE para θ.
2.17 Teorema de Lehmann-Scheffé 127

d ) Calcule VarpEpT | U qq.

e) Calcule CICRpθq.
f ) Compruebe que CICRpθq “ VarpEpT | U qq ď VarpT q.

146. Distribución Poisson(θ): UMVUE para θ.

Sea X1 , . . . , Xn una muestra aleatoria de la distribución Poissonpθq,
con n ě 2 y θ ą 0 desconocido. Nos interesa estimar el parámetro θ.
Sabemos que la estadı́stica U “ X1 ` ¨ ¨ ¨ ` Xn es suficiente y completa
para θ. Defina el estimador
1
T “ pX1 ` X2 q.
2
Demuestre los siguientes resultados que llevan a encontrar el UMVUE
para θ. Se verifica que la varianza del UMVUE alcanza la cota inferior
de Cramér-Rao.

a) T es insesgado para θ.
b) VarpT q “ θ{2.
c) EpT | U q “ X̄. Este es el UMVUE para θ.
d ) VarpEpT | U qq “ θ{n.
e) CICRpθq “ θ{n.
f ) CICRpθq “ VarpEpT | U qq ď VarpT q.

147. Distribución Poissonpθq: UMVUE para τ pθq “ e´θ .

Sea X1 , . . . , Xn una muestra aleatoria de la distribución Poissonpθq,
con θ ą 0 desconocido.

a) Demuestre que la estadı́stica T “ 1t0u pX1 q es un estimador in-

sesgado para la función parametral τ pθq “ e´θ .
b) Demuestre que la estadı́stica U “ X1 `¨ ¨ ¨`Xn es suficiente para
θ.
c) Demuestre que U es una estadı́stica suficiente minimal para θ.
d ) El procedimiento de Rao-Blackwell sugiere encontrar EpT | U q.
Demuestre que
n´1 U
ˆ ˙
EpT | U q “ .
n
128 2. Estimación puntual

e) Demuestre que VarpT q “ e´θ p1 ´ e´θ q.

f ) Recuerde que si X es una variable aleatoria con distribución
Poissonpθq, entonces su f.g.p. está dada por

Gptq “ EptX q “ eθpt´1q .

Use la expresión anterior para demostrar que

VarpEpT | U qq “ e´2θ peθ{n ´ 1q.

g) Demuestre que para la función parametral τ pθq “ e´θ ,

θ ´2θ
CICRpθq “ e .
n

h) Demuestre que

CICRpθq ă VarpEpT | U qq ď VarpT q.

i ) Con únicamente la información anterior, ¿qué puede decir de

EpT | U q?
j ) Demuestre que U es una estadı́stica completa.
k ) ¿Qué puede decir ahora de EpT | U q?

148. Distribución Poisson(θ): UMVUE para θ e´θ .

Sea X1 , . . . , Xn una muestra aleatoria de la distribución Poissonpθq,
con θ ą 0 desconocido. Nos interesa estimar la función parametral
τ pθq “ θ e´θ . Sabemos que la estadı́stica U “ X1 `¨ ¨ ¨`Xn es suficiente
y completa para θ. Defina el estimador

T “ 1t1u pX1 q.

Demuestre los siguientes resultados que llevan a encontrar el UMVUE

para τ pθq. Se verifica que la varianza del UMVUE alcanza la cota
inferior de Cramér-Rao.

a) T es insesgado para τ pθq.

b) VarpT q “ θ e´θ p1 ´ θ e´θ q.
2.17 Teorema de Lehmann-Scheffé 129

` n´1 ˘nX̄´1
c) EpT | U q “ n X̄. Este es el UMVUE para τ pθq.
d ) VarpEpT | U qq “ e´2θ`θ{n θ
n p1 ` pn ´ 1q2 nθ q ´ e´2θ θ2 .
θp1 ´ θq2
e) CICRpθq “ e´2θ , para τ pθq “ θ e´θ .
n
f ) CICRpθq ď VarpEpT | U qq ď VarpT q.

149. Distribución exppθq: UMVUE para θ.

Sea X1 , . . . , Xn una muestra aleatoria de la distribución exppθq, con
θ ą 0 desconocido. Sabemos que la estadı́stica T “ X1 ` ¨ ¨ ¨ ` Xn es
suficiente y completa para θ.

a) Demuestre que la estadı́stica pn´1q{T es un estimador insesgado

para θ.
b) Concluya que pn ´ 1q{T es el UMVUE para θ.
c) Calcule la varianza del UMVUE encontrado en el inciso anterior
y compare con la cota inferior de Cramér-Rao.

150. Distribución Npθ, σ 2 q: UMVUE para θ.

Sea X1 , . . . , Xn una muestra aleatoria de la distribución Npθ, σ 2 q, con
θ desconocido y σ 2 conocido. Nos interesa estimar el parámetro θ.
Sabemos que la estadı́stica U “ X1 ` ¨ ¨ ¨ ` Xn es suficiente y completa
para θ. Defina el estimador

T “ X1 .

Demuestre los siguientes resultados que llevan a encontrar el UMVUE

para θ. Se verifica que la varianza del UMVUE alcanza la cota inferior
de Cramér-Rao.

a) Demuestre que T es insesgado para θ.

b) Calcule VarpT q.
c) Calcule EpT | U q. Este es el UMVUE para θ.
d ) Calcule VarpEpT | U qq.
e) Calcule CICRpθq.
f ) Compruebe que CICRpθq ď VarpEpT | U qq ď VarpT q.
130 2. Estimación puntual

151. Distribución Npθ, σ 2 q: UMVUE para θ2 .

Sea X1 , . . . , Xn una muestra aleatoria de la distribución Npθ, σ 2 q, con θ
desconocido y σ 2 conocido. Nos interesa estimar la función parametral
τ pθq “ θ2 . Sabemos que la estadı́stica U “ X1 ` ¨ ¨ ¨ ` Xn es suficiente
y completa para θ. Defina el estimador

T “ X12 ´ σ 2 .

Demuestre los siguientes resultados que llevan a encontrar el UMVUE

para θ2 . Se verifica que la varianza del UMVUE alcanza la cota inferior
de Cramér-Rao.

a) Demuestre que T es insesgado para θ2 .

b) Calcule VarpT q.
c) Calcule EpT | U q. Este es el UMVUE para θ2 .
d ) Calcule VarpEpT | U qq.
e) Calcule CICRpθq.
f ) Compruebe que CICRpθq ď VarpEpT | U qq ď VarpT q.

152. Distribución Npθ, σ 2 q: UMVUE para P pX1 ą aq.

Sea X1 , . . . , Xn una muestra aleatoria de la distribución Npθ, σ 2 q, con
θ desconocido y σ 2 conocido. Sea a una constante cualquiera. Nos
interesa estimar la función parametral τ pθq “ P pX1 ą aq. Sabemos
que la estadı́stica U “ X1 ` ¨ ¨ ¨ ` Xn es suficiente y completa para θ.
Defina el estimador
T “ 1pa,8q pX1 q.
Demuestre los siguientes resultados que llevan a encontrar el UMVUE
para P pX1 ą aq. Se verifica que la varianza del UMVUE alcanza la
cota inferior de Cramér-Rao.

a) Demuestre que T es insesgado para τ pθq “ P pX1 ą aq.

b) Calcule VarpT q.
c) Calcule EpT | U q. Este es el UMVUE para τ pθq “ P pX1 ą aq.
d ) Calcule VarpEpT | U qq.
e) Calcule CICRpθq.
2.17 Teorema de Lehmann-Scheffé 131

f ) Compruebe que CICRpθq ď VarpEpT | U qq ď VarpT q.

153. Distribución Npθ, σ 2 q: UMVUE para P p|X1 | ď aq.
Sea X1 , . . . , Xn una muestra aleatoria de la distribución Npθ, σ 2 q, con
θ desconocido y σ 2 conocido. Sea a ą 0 una constante. Nos interesa
estimar la función parametral τ pθq “ P p|X1 | ď aq. Sabemos que la
estadı́stica U “ X1 ` ¨ ¨ ¨ ` Xn es suficiente y completa para θ. Defina
el estimador
T “ 1p0,aq p|X1 |q.
Demuestre los siguientes resultados que llevan a encontrar el UMVUE
para P p|X1 | ď aq. Se verifica que la varianza del UMVUE alcanza la
cota inferior de Cramér-Rao.
a) Demuestre que T es insesgado para τ pθq “ P p|X1 | ď aq.
b) Calcule VarpT q.
c) Calcule EpT | U q. Este es el UMVUE para τ pθq “ P p|X1 | ď aq.
d ) Calcule VarpEpT | U qq.
e) Calcule CICRpθq.
f ) Compruebe que CICRpθq ď VarpEpT | U qq ď VarpT q.
154. Sea X1 , . . . , Xn una muestra aleatoria de la distribución f px; θq que se
especifica abajo, en donde θ ą 0 es desconocido.
#
e´px´θq si x ą θ,
f px; θq “
0 en otro caso.

a) Demuestre que la estadı́stica Xp1q ´ 1{n es suficiente, completa e

insesgada para θ.
b) Encuentre el UMVUE para θ.
155. Sea X1 , . . . , Xn una muestra aleatoria de la distribución f px; θq que
se especifica abajo, en donde řn θ ą 0 es desconocido. Sabemos que la
estadı́stica T “ ´pn ´ 1q{ i“1 ln Xi es un estimador insesgado para
θ (Ejercicio 50).
#
θxθ´1 si 0 ă x ă 1; θ ą 0,
f px; θq “
0 en otro caso.
132 2. Estimación puntual

a) Demuestre que la media geométrica pX1 ¨ ¨ ¨ Xn q1{n es una es-

tadı́stica suficiente y completa para θ.
b) Encuentre el UMVUE para θ.

156. Sea X1 , . . . , Xn una muestra aleatoria de la distribución f px; θq que se

especifica abajo, en donde θ ą 0 es desconocido.
#
θ2 xe´θx si x ą 0,
f px; θq “
0 en otro caso.

a) Demuestre que la estadı́stica U “ X1 ` ¨ ¨ ¨ ` Xn es suficiente y

completa para θ.
b) Calcule Ep1{U q.
c) Encuentre una función de U que sea insesgada para θ. Use el
teorema de Lehmann-Scheffé para concluir que esta función es el
UMVUE para θ.
Capı́tulo 3

Estimación por intervalos

En algunos casos es preferible no dar un número como estimación de un

parámetro desconocido, sino un intervalo de posibles valores. En este tipo
de estimación se busca un intervalo de tal forma que se pueda afirmar, con
cierto grado de confiabilidad, que dicho intervalo contiene el verdadero valor
del parámetro desconocido. A este tipo de intervalos se les llama intervalos
de confianza y fueron introducidos por Jerzy Neyman1 en 1937.

En este capı́tulo se estudia brevemente el tema de estimación de parámetros

usando intervalos. Explicaremos los conceptos básicos y proporcionaremos
algunos ejemplos particulares de la forma en la que pueden encontrarse
intervalos de confianza.

3.1. Definiciones
Como antes, consideraremos que tenemos una cierta variable aleatoria de
nuestro interés y que ésta tiene función de densidad o de probabilidad co-
nocida f px; θq, pero dependiente de un parámetro desconocido θ, el cual
deseamos estimar con base en una muestra aleatoria X1 , . . . , Xn de esta
distribución. Aquı́ tenemos la definición de intervalo de confianza.

1
Jerzy Neyman (1894-1981), matemático y estadı́stico polaco.

133
134 3. Estimación por intervalos

Definición 3.1 Sea α P p0, 1q un número fijo dado. Un intervalo de

confianza para un parámetro desconocido θ de una distribución de pro-
babilidad es un intervalo aleatorio de la forma pθ̂1 , θ̂2 q, en donde θ̂1 y θ̂2
son estadı́sticas (funciones de una muestra aleatoria) tales que

P pθ̂1 ă θ ă θ̂2 q “ 1 ´ α. (3.1)

A las estadı́sticas θ̂1 y θ̂2 se les conoce como lı́mites inferior y superior,
respectivamente, del intervalo de confianza. Al número 1 ´ α se le conoce
como grado o coeficiente de confianza. En general, se toma el valor de α
cercano a cero de tal forma que el grado de confianza, 1 ´ α, sea cercano
a uno. En la práctica es común tomar α “ 0.05, de modo que el grado de
confianza es 1´α “ 0.95 . Decimos entonces que el grado de confianza es del
95 %. Observe que las estadı́sticas θ̂1 y θ̂2 dependen de una muestra aleatoria
X1 , . . . , Xn , de modo que al tomar estas variables aleatorias distintos valores
se generan distintos intervalos de confianza. Esta situación se ilustra en la
Figura 3.1.

Muestra 1
Muestra 2
Muestra 3
Muestra 4
Muestra 5

Figura 3.1

Observe además que no es correcto decir “la probabilidad de que θ perte-

nezca al intervalo pθ̂1 , θ̂2 q es 1 ´ α”, pues, en nuestra perspectiva clásica, el
parámetro θ no es un elemento aleatorio. En cambio, se dice “la probabi-
3.2 Distribución Bernoulli 135

lidad de que el intervalo pθ̂1 , θ̂2 q contenga el valor de θ es 1 ´ α”. De esta

forma se entiende que θ es constante, aunque desconocido, y el intervalo es el
que cambia dependiendo de la muestra aleatoria. Naturalmente el problema
fundamental es el siguiente.

¿Cómo encontrar θ̂1 y θ̂2 de tal forma que la igualdad (3.1) se cumpla?

El método pivotal es una manera general de resolver este problema. Este

método supone poder encontrar una función de la muestra y del parámetro
desconocido, qpX1 , . . . , Xn ; θq, con distribución de probabilidad completa-
mente conocida (no dependiente de θ), de tal manera que puedan determi-
narse dos números a ă b tales que
P pa ă qpX1 , . . . , Xn ; θq ă bq “ 1 ´ α.
Después, a partir de esta expresión, se debe buscar desprender el término θ
del evento determinado por las dos desigualdades anteriores y encontrar una
expresión de la forma (3.1). A la función qpX1 , . . . , Xn ; θq se le llama canti-
dad pivotal pues de ella debe poder obtenerse el término θ. En las siguientes
secciones mostraremos la forma de resolver este problema en algunos casos
particulares.

3.2. Distribución Bernoulli

Supongamos que una cierta variable de interés X tiene distribución Berpθq,
en donde el parámetro θ es desconocido. Deseamos estimar este parámetro
mediante un intervalo de confianza. Sea X1 , . . . , Xn una muestra aleatoria
de esta distribución. Haremos uso del hecho de que un estimador puntual
para θ es X̄, en donde EpX̄q “ θ y VarpX̄q “ θp1 ´ θq{n. Por el teorema
central del lı́mite, de manera aproximada,
X̄ „ Npθ, θp1 ´ θq{nq.
Puede entonces encontrarse un valor zα{2 ą 0 tal que se cumple lo siguiente.
Véase la Figura 3.2.
X̄ ´ θ
P p´zα{2 ă a ă zα{2 q « 1 ´ α. (3.2)
θp1 ´ θq{n
136 3. Estimación por intervalos

φpxq

1´α
α{2 α{2
x
´zα{2 zα{2

Figura 3.2

El problema aquı́ es resolver para θ estas dos desigualdades. Presentamos a

continuación tres formas en que tal tarea puede llevarse a cabo de manera
aproximada.

Primera solución
Una simplificación al problema planteado consiste en substituir el denomi-
nador θp1 ´ θq{n por la estimación puntual X̄p1 ´ X̄q{n. Esta substitución
producirá una aproximación al intervalo buscado pero la dificultad del pro-
blema se reduce considerablemente. Tenemos entonces la expresión

X̄ ´ θ
P p´zα{2 ă a ă zα{2 q « 1 ´ α.
X̄p1 ´ X̄q{n
Resolviendo las dos desigualdades para θ se obtiene el intervalo aproximado
? ?
X̄p1´X̄q X̄p1´X̄q
P pX̄ ´ zα{2 n ă θ ă X̄ ` zα{2 n q « 1 ´ α.

Segunda solución
Otra alternativa para desprender el parámetro θ es usar la desigualdad
θp1 ´ θq ď 1{4 para el denominador que aparece en (3.2). De esta forma se
tiene la siguiente cota superior
a 1
θp1 ´ θq{n ď ? .
2 n
3.2 Distribución Bernoulli 137

Utilizando esto en (3.2) se obtiene

´zα{2 zα{2
P p ? ă X̄ ´ θ ă ? q « 1 ´ α.
2 n 2 n
En consecuencia, tenemos el siguiente intervalo aproximado

zα{2 zα{2
P p X̄ ´ ? ă θ ă X̄ ` ? q « 1 ´ α.
2 n 2 n

Tercera solución
Como una tercera alternativa, observemos
a que el evento en cuestión pue-
de escribirse como p|X̄ ´ θ| ă zα{2 θp1 ´ θq{nq. Elevando al cuadrado y
desarrollando se llega a la desigualdad

θ2 p1 ` zα{2
2 2
{nq ` θp´2X̄ ´ zα{2 {nq ` X̄ 2 ă 0.

Considerando la igualdad, las raı́ces de esta ecuación cuadrática en θ son

2
θ1 “ X̄{p1 ` zα{2 {nq,
2 2
θ2 “ pX̄ ` zα{2 {nq{p1 ` zα{2 {nq.

Por lo tanto, la ecuación cuadrática es negativa cuando θ1 ă θ ă θ2 , es

decir, se tiene entonces el intervalo de confianza no simétrico

2 {n
X̄ ` zα{2
X̄
Pp 2 {n ă θ ă 1 ` z 2 {n q « 1 ´ α.
1 ` zα{2 α{2

El intervalo encontrado sigue siendo una aproximación pues tiene como pun-
to de partida la expresión (3.2).

Ejemplo 3.1 Se han inspeccionado 92 artı́culos producidos por una cierta

maquinaria de los cuales 7 artı́culos resultaron con algún tipo de defecto.
Encontraremos un intervalo de confianza al 90 % para la proporción desco-
nocida de artı́culos defectuosos que se producen por esta maquinaria. Cla-
ramente este problema puede modelarse mediante la distribución Berpθq, en
138 3. Estimación por intervalos

donde el parámetro θ es la proporción desconocida que deseamos estimar.

Usaremos el intervalo aproximado dado por
b b
P pX̄ ´ zα{2 X̄p1 ´ X̄q{n ď θ ď X̄ ` zα{2 X̄p1 ´ X̄q{nq « 1 ´ α,

en donde n “ 92, X̄ “ 7{92 “ 0.0760, α “ 0.1 y por lo tanto zα{2 “ 1.64.

Substituyendo estos valores en la fórmula mencionada se obtiene que
b
X̄ ´ zα{2 X̄p1 ´ X̄q{n “ 0.0307,
b
X̄ ` zα{2 X̄p1 ´ X̄q{n “ 0.1214,

ası́, con probabilidad 0.9, la verdadera proporción de artı́culos defectuosos

producidos por la maquinaria está contenido en el intervalo p0.0307, 0.1214q.
Esto equivale a un porcentaje de artı́culos defectuosos entre 3.07 % y 12.14 %.
‚

3.3. Distribución uniforme continua

En esta sección encontraremos un intervalo de confianza para cada paráme-
tro de la distribución unifpa, bq, considerando siempre un parámetro cono-
cido y el otro desconocido. Empezaremos con un caso particular.

Primer caso
Sea X una variable aleatoria con distribución unifp0, θq, en donde θ ą 0 es
un parámetro desconocido. Encontraremos un intervalo de confianza para
θ a partir de una muestra aleatoria X1 , . . . , Xn de esta distribución. Puede
comprobarse que la máxima estadı́stica de orden Xpnq es una estadı́stica
suficiente para θ y que la variable p1{θqXpnq tiene función de densidad
#
nxn´1 si 0 ă x ă 1,
f pxq “
0 en otro caso.

La gráfica de esta función de densidad se muestra en la Figura 3.3. Entonces,

dado un valor de α P p0, 1q, se pueden encontrar c1 y c2 tales que 0 ă c1 ă
3.3 Distribución uniforme continua 139

c2 ă 1 con

1 α
Pp X ă c1 q “ ,
θ pnq 2
1 α
P p Xpnq ą c2 q “ .
θ 2

Véase la Figura 3.3. De hecho, puede comprobarse que c1 “ pα{2q1{n y

c2 “ p1 ´ α{2q1{n . Por lo tanto, tenemos que

1
P p c1 ă X ă c2 q “ 1 ´ α,
θ pnq
de donde se obtiene el intervalo de confianza

1 1
Pp Xpnq ă θ ă X q “ 1 ´ α.
c2 c1 pnq

f pxq
n

1´α
x
c1 c2 1

Figura 3.3

Segundo caso
Consideremos ahora la distribución unifpa, θq con a conocido y θ descono-
cido. Encontraremos un intervalo de confianza para θ. Sea X1 , . . . , Xn una
muestra aleatoria de esta distribución. Entonces X1 ´ a, . . . , Xn ´ a es una
140 3. Estimación por intervalos

muestra aleatoria de la distribución unifp0, θ ´ aq. Puede comprobarse que

la estadı́stica
máx tX1 ´ a, . . . , Xn ´ au “ Xpnq ´ a
es suficiente para θ ´ a y el cociente pXpnq ´ aq{pθ ´ aq tiene función de
densidad #
nxn´1 si 0 ă x ă 1,
f pxq “
0 en otro caso.
Entonces, dado un valor de α P p0, 1q, se pueden encontrar constantes c1 y
c2 tales que 0 ă c1 ă c2 ă 1 con
Xpnq ´ a α
Pp ă c1 q “ ,
bá 2
Xpnq ´ a α
Pp ą c2 q “ .
bá 2
Esta situación corresponde nuevamente a la que se muestra en la Figura 3.3,
en donde c1 “ pα{2q1{n y c2 “ p1 ´ α{2q1{n . Por lo tanto,
Xpnq ´ a
P p c1 ă ă c2 q “ 1 ´ α,
bá
de donde se obtiene el intervalo de confianza

Xpnq ´ a Xpnq ´ a
Ppa ` ăbăa` q “ 1 ´ α.
c2 c1

Cuando a “ 0 esta expresión se reduce a la encontrada antes.

Tercer caso
Finalmente consideremos esta misma distribución unifpθ, bq, pero esta vez
con b conocido y θ desconocido. Encontraremos un intervalo de confianza
para θ. Sea X1 , . . . , Xn una muestra aleatoria de esta distribución. Entonces
X1 ´ b, . . . , Xn ´ b es una muestra aleatoria de la distribución unifpθ ´
b, 0q. Multiplicando por ´1 tenemos que b ´ X1 , . . . , b ´ Xn es una muestra
aleatoria de la distribución unifp0, b ´ θq. Procedemos como antes. Puede
comprobarse que la estadı́stica
máx tb ´ X1 , . . . , b ´ Xn u “ b ´ Xp1q
3.4 Distribución exponencial 141

es suficiente para b ´ θ y el cociente pb ´ Xp1q q{pb ´ θq tiene función de

densidad #
nxn´1 si 0 ă x ă 1,
f pxq “
0 en otro caso.

Entonces, dado un valor de α P p0, 1q, se pueden encontrar constantes c1 y

c2 tales que 0 ă c1 ă c2 ă 1 con

b ´ Xp1q α
Pp ă c1 q “ ,
b´θ 2
b ´ Xp1q α
Pp ą c2 q “ .
b´θ 2

Véase nuevamente la Figura 3.3, en donde c1 “ pα{2q1{n y c2 “ p1´α{2q1{n .

Por lo tanto,
b ´ Xp1q
P p c1 ă ă c2 q “ 1 ´ α,
b´θ
de donde se obtiene el intervalo de confianza

b ´ Xp1q b ´ Xp1q
Ppb ´ ăθ ăb´ q “ 1 ´ α.
c1 c2

3.4. Distribución exponencial

Sea X una variable aleatoria con distribución exppθq, en donde θ ą 0 es
desconocido. Encontraremos un intervalo de confianza para este parámetro
a partir de una muestra aleatoria X1 , . . . , Xn de esta distribución. Sabemos
que
X1 ` ¨ ¨ ¨ ` Xn „ gammapn, θq.
Por otro lado, para cualquier constante c ą 0 y para cualquier variable
aleatoria continua X con función de distribución F pxq y función de densidad
f pxq, se cumple

FcX pxq “ FX px{cq,

1
fcX pxq “ fX px{cq.
c
142 3. Estimación por intervalos

Se pueden usar estos resultados para comprobar que, para el caso en estudio,

c pX1 ` ¨ ¨ ¨ ` Xn q „ gammapn, θ{cq.

Tomando c “ θ se encuentra que

θ pX1 ` ¨ ¨ ¨ ` Xn q „ gammapn, 1q.

Esta variable aleatoria involucra al parámetro θ y su distribución está ahora

completamente especificada. Entonces existen valores 0 ă a ă b tales que

P pa ă θ pX1 ` ¨ ¨ ¨ ` Xn q ă bq “ 1 ´ α,

para algún valor α P p0, 1q, y de manera óptima se busca que b ´ a sea
mı́nimo. De aquı́ se obtiene el intervalo de confianza

a b
Pp ăθă q “ 1 ´ α.
nX̄ nX̄
¿Cómo encontrar los valores a y b?

3.5. Distribución normal

En esta sección estudiaremos algunas formas en las que pueden encontrarse
intervalos de confianza para los parámetros de la distribución normal.

Intervalo para la media cuando la varianza es conocida

Sea X1 , . . . , Xn una muestra aleatoria de una población normal con media
desconocida θ y varianza conocida σ 2 . Encontraremos un intervalo de con-
fianza para el parámetro θ. Como cada una de las variables de la muestra
tiene distribución Npθ, σ 2 q, la media muestral X̄ “ n1 ni“1 Xi tiene distri-
ř
bución Npθ, σ 2 {nq. De modo que, estandarizando,

X̄ ´ θ
? „ Np0, 1q.
σ{ n

En esta situación, esta es la cantidad pivotal que nos ayudará a encontrar un

intervalo de confianza para θ. Explicaremos a continuación el procedimiento.
3.5 Distribución normal 143

Para cualquier valor de α P p0, 1q podemos encontrar un valor zα{2 en tablas

de probabilidad normal estándar, véase la Figura 3.4, tal que

X̄ ´ θ
P p ´zα{2 ă ? ă zα{2 q “ 1 ´ α.
σ{ n

φpxq

1´α
α{2 α{2
x
´zα{2 zα{2

Figura 3.4

Despejando la constante desconocida θ se obtiene el siguiente resultado.

Proposición 3.1 Un intervalo de confianza al p1 ´ αq100 % para la

media θ de una distribución normal con varianza conocida σ 2 está dado
por
σ σ
P p X̄ ´ zα{2 ? ă θ ă X̄ ` zα{2 ? q “ 1 ´ α. (3.3)
n n

De esta forma, el intervalo pX̄ ´ zα{2 ?σn , X̄ ` zα{2 ?σn q es un intervalo de

confianza para el parámetro desconocido θ, pues contiene a dicho parámetro
?
con probabilidad 1´α. Su longitud es 2¨zα{2 ¨σ{ n. Observe que los términos
que aparecen en los lı́mites inferior y superior de este intervalo son conocidos.
Ilustraremos la aplicación de esta fórmula mediante un ejemplo.

Ejemplo 3.2 Suponga que la vida promedio útil, medida en horas, de focos
de 100 watts producidos por cierta compañı́a, puede ser modelada mediante
una variable aleatoria con distribución normal de media θ y varianza σ 2 .
144 3. Estimación por intervalos

Suponga que la desviación estándar σ es conocida y es igual a 30 horas.

El objetivo es encontrar un intervalo de confianza para la vida promedio
útil θ de los focos producidos por esta compañı́a. Para ello se toma una
muestra de 20 focos y mediante pruebas de laboratorio se determina la
vida útil de cada uno de ellos. Los resultados x1 , . . . , x20 arrojan una media
muestral x̄ de 1050 horas. Si consideramos un nivel de confianza del 95 %,
es decir, α “0.05, de la tabla de probabilidad normal se encuentra que
zα{2 “ z0.025 “1.96, y entonces puede ahora calcularse el intervalo

σ σ 30 30
px̄ ´ zα{2 ? , x̄ ` zα{2 ? q “ p1050 ´ 1.96 ? , 1050 ` 1.96 ˆ ? q
n n 20 20
“ p1050 ´ 13.148, 1050 ` 13.148q
“ p1036.852, 1063.148q.

De esta forma, con una confianza del 95 %, podemos afirmar que la vida
promedio útil de este tipo de focos es de 1050 ˘ 13.148 horas. ‚

Observe que la longitud del intervalo aleatorio que aparece en (3.3) es

σ
2zα{2 ? .
n

De aquı́ pueden obtenerse varias observaciones interesantes:

a) La longitud del intervalo decrece conforme el tamaño de la muestra

crece, es decir, mientras mayor información se tenga más preciso es
el intervalo. En el lı́mite cuando n Ñ 8, el intervalo se colapsa en el
estimador puntual x̄.

b) Si la confianza requerida crece, es decir, si 1 ´ α aumenta, entonces

zα{2 crece, véase la Figura 3.4, y por lo tanto la longitud del intervalo
también crece.

c) Si la dispersión de los datos es alta, es decir, desviación estándar σ

grande, entonces la longitud del intervalo tiende a ser grande.
3.5 Distribución normal 145

Ejemplo 3.3 Un intervalo de confianza al 90 % para la media de una po-

blación normal con σ “ 5 cuando se ha tomado una muestra de tamaño 25
cuya media muestral es 60 está dado por

σ σ 5 5
p x̄ ´ zα{2 ? , x̄ ` zα{2 ? q “ p60 ´ 1.65 ? , 60 ` 1.65 ? q
n n 25 25
“ p58.35, 61.65q.

Intervalo para la media cuando la varianza es desconocida

Sea X1 , . . . , Xn una muestra aleatoria de una distribución normal con media
desconocida θ pero ahora con varianza desconocida σ 2 . El resultado teórico
fundamental en la siguiente derivación es que la variable aleatoria

X̄ ´ θ
T “ ?
S{ n

tiene una distribución t con n ´ 1 grados de libertad. Observe que esta es la

distribución exacta de la variable T , sin importar el tamaño de la muestra y
sobre todo, sin suponer que la varianza de la muestra es conocida. A partir de
lo anterior podemos construir un intervalo de confianza para el parámetro
desconocido θ de forma análoga al caso normal mencionado antes. Para
cualquier valor de α P p0, 1q podemos encontrar un valor tα{2 ą 0 en tablas
de probabilidad de la distribución t de n ´ 1 grados de libertad (véase la
Figura 3.5) tal que

X̄ ´ θ
P p ´tα{2 ă ? ă tα{2 q “ 1 ´ α.
S{ n

Despejando la constante desconocida θ de la ecuación anterior se obtiene el

siguiente resultado.
146 3. Estimación por intervalos

f pxq

1´α
α{2 α{2
x
´tα{2 tα{2

Figura 3.5

Proposición 3.2 Un intervalo de confianza al p1 ´ αq100 % para la

media θ de una distribución normal está dado por la siguiente expresión
S S
P p X̄ ´ tα{2 ? ă θ ă X̄ ` tα{2 ? q “ 1 ´ α. (3.4)
n n

De este modo, el intervalo p X̄ ´ tα{2 ?Sn , X̄ ` tα{2 ?Sn q es un intervalo de

confianza para la media θ de una población normal sin suponer la varianza
conocida. No lo hemos escrito de manera explı́cita en la fórmula anterior pero
el valor tα{2 corresponde a la distribución t con n ´ 1 grados de libertad.
Para mayor precisión se escribe también tα{2,n´1 .

Intervalo para la varianza

Sea X1 , . . . , Xn una muestra aleatoria de una distribución normal con am-
bos parámetros desconocidos. Deseamos encontrar un intervalo de confianza
para la varianza, la cual denotaremos por θ2 ą 0. En este caso el resultado
teórico de utilidad es el siguiente

S2
pn ´ 1q „ χ2 pn ´ 1q.
θ2

Esta es la cantidad pivotal que nos ayudará a encontrar el intervalo buscado.

3.5 Distribución normal 147

f pxq

1´α
α{2 α{2
x
χ21´α{2 χ2α{2

Figura 3.6

Se pueden encontrar dos valores 0 ă χ21´α{2 ă χ2α{2 tales que

S2 α
P ppn ´ 1q ă χ21´α{2 q “ ,
θ2 2
S2 α
P ppn ´ 1q 2 ą χ2α{2 q “ .
θ 2
Véase la Figura 3.6. En consecuencia,
S2
P pχ21´α{2 ă pn ´ 1q ă χ2α{2 q “ 1 ´ α
θ2
Despejando la constante desconocida θ2 de las dos desigualdades anteriores
se obtiene el siguiente intervalo de confianza.

Proposición 3.3 Un intervalo de confianza al p1 ´ αq100 % para la

varianza desconocida θ2 de una distribución normal está dado por

pn ´ 1qS 2 pn ´ 1qS 2
Pp 2 ă θ2 ă q “ 1 ´ α. (3.5)
χα{2 χ21´α{2

De este resultado puede derivarse un intervalo de confianza para la desvia-

ción estándar θ. Por simplicidad hemos escrito χ2α{2 , la expresión completa,
148 3. Estimación por intervalos

incluyendo los grados de libertad, debe ser χ2α{2, n´1 . Análogamente para
χ21´α{2, n´1 .

Intervalo para la diferencia de dos medias

cuando las varianzas son conocidas
Sea X1 , . . . , Xn una muestra aleatoria de una distribución Npθ1 , σ12 q y sea
Y1 , . . . , Ym otra muestra aleatoria, independiente de la primera, de una dis-
tribución Npθ2 , σ22 q. Consideraremos que las medias θ1 y θ2 son desconocidas
y deseamos encontrar un intervalo de confianza para la diferencia θ1 ´ θ2 .
En esta sección consideraremos el caso cuando las varianzas σ12 y σ22 son
conocidas. Como X̄ „ Npθ1 , σ12 {nq y Ȳ „ Npθ2 , σ22 {mq, tenemos que

pX̄ ´ Ȳ q ´ pθ1 ´ θ2 q
a „ Np0, 1q
σ12 {n ` σ22 {m

Puede entonces encontrarse un valor zα{2 de la distribución normal estándar

tal que
pX̄ ´ Ȳ q ´ pθ1 ´ θ2 q
P p´zα{2 ă a 2 ă zα{2 q “ 1 ´ α,
σ1 {n ` σ22 {m
se donde se puede obtener el intervalo de confianza buscado.

Proposición 3.4 Un intervalo de confianza al p1 ´ αq100 % para la

diferencia de medias θ1 ´ θ2 de dos poblaciones normales Npθ1 , σ12 q y
Npθ2 , σ22 q, cuando las varianzas son conocidas está dado por
c
σ12 σ22
pX̄ ´ Ȳ q ˘ zα{2 `
n m

Intervalo para la diferencia de dos medias

cuando las varianzas son desconocidas pero iguales
Considere nuevamente que X1 , . . . , Xn es una muestra aleatoria de una dis-
tribución Npθ1 , σ 2 q y sea Y1 , . . . , Ym otra muestra aleatoria, independiente de
3.5 Distribución normal 149

la primera, de una distribución Npθ2 , σ 2 q. Observe que estamos considerando

el caso cuando la varianza σ 2 es común a ambas distribuciones. Conside-
raremos que estos tres parámetros θ1 , θ2 y σ 2 son desconocidos. Deseamos
encontrar un intervalo de confianza para la diferencia θ1 ´ θ2 . Definamos las
siguientes varianzas muestrales.

n
2 1 ÿ
SX “ pXi ´ X̄q2 ,
n ´ 1 i“1
m
1 ÿ
SY2 “ pYi ´ Ȳ q2 ,
m ´ 1 i“1
1
S2 “ 2
r pn ´ 1qSX ` pm ´ 1qSY2 s.
n`m´2

El último término es una varianza muestral combinada de las dos muestras.

Recordemos entonces los siguientes resultados.

X̄ ´ θ1
a) ? „ tpn ´ 1q.
SX { n

Ȳ ´ θ2
b) ? „ tpm ´ 1q.
SY { m

pX̄ ´ Ȳ q ´ pθ1 ´ θ2 q
c) a „ tpn ` m ´ 2q.
S 1{n ` 1{m

El último de estos resultados es el que tomaremos como cantidad pivotal.

Se puede encontrar un valor tα{2 ą 0 de la distribución tpn ` m ´ 2q tal que

pX̄ ´ Ȳ q ´ pθ1 ´ θ2 q
P p´tα{2 ă a ă tα{2 q “ 1 ´ α,
S 1{n ` 1{m

de donde se obtiene el intervalo de confianza buscado.

150 3. Estimación por intervalos

Proposición 3.5 Un intervalo de confianza al p1 ´ αq100 % para la

diferencia de medias θ1 ´ θ2 de dos poblaciones normales Npθ1 , σ 2 q y
Npθ2 , σ 2 q está dado por
c c
1 1 1 1
P p pX̄´Ȳ q´tα{2 S ` ă θ1 ´θ2 ă pX̄´Ȳ q`tα{2 S ` q “ 1´α.
n m n m

3.6. Intervalo para la media de una distribución

cualquiera
Sea X1 , . . . , Xn una muestra aleatoria de una distribución cualquiera con
media desconocida θ. Supongamos que el tamaño n de la muestra es grande,
por ejemplo, n ě 30. Entonces, por el teorema central del lı́mite, de manera
aproximada,
X̄ ´ θ
? „ Np0, 1q.
S{ n
Ahora, para cualquier valor de α P p0, 1q podemos encontrar un valor zα{2
en tablas de probabilidad normal estándar tal que

X̄ ´ θ
P p ´zα{2 ă ? ă zα{2 q « 1 ´ α.
S{ n

Resolviendo para la constante desconocida θ se obtiene

S S
P p X̄ ´ zα{2 ? ă θ ă X̄ ` zα{2 ? q « 1 ´ α.
n n

De esta forma, el intervalo pX̄ ´ zα{2 ?Sn , X̄ ` zα{2 ?Sn q es un intervalo de

confianza aproximado para el parámetro desconocido θ pues contiene a di-
cho parámetro con probabilidad 1 ´ α. Observe nuevamente que todas las
expresiones que aparecen en este intervalo son conocidas.

A manera de resumen se tiene la siguiente tabla.

3.6 Intervalo para la media de una distribución cualquiera151

Hipótesis Intervalo para la media θ

Distribución normal
varianza σ 2 conocida P p X̄ ´ zα{2 ?σ ă θ ă X̄ ` zα{2 ?σ q “ 1 ´ α.
n n

Distribución normal
varianza σ 2 desconocida P p X̄ ´ tα{2,n´1 ?S ă θ ă X̄ ` tα{2,n´1 ?S q “ 1 ´ α.
n n

Cualquier distribución Intervalo aproximado:

muestra grande, n ě 30 P p X̄ ´ zα{2 ?Sn ă θ ă X̄ ` zα{2 ?Sn q « 1 ´ α.

Ejercicios
157. Distribución uniforme. Sea X1 , . . . , Xn una muestra aleatoria de la
distribución unifp´θ, θq, en donde θ ą 0 es desconocido. Considerando
la cantidad pivotal máx1ďiďn |Xi |, encuentre un intervalo de confianza
para θ al p1 ´ αq100 %.

158. Sea X1 , . . . , Xn una muestra aleatoria de la distribución f px; θq espe-

cificada abajo, en donde a es una constante conocida y θ ą 0 es des-
conocido. Encuentre un intervalo de confianza para θ al p1 ´ αq100 %.

& 1 e´px´aq{θ si x ą a,
$

f pxq “ θ
% 0 en otro caso.

159. Sea X1 una muestra aleatoria de tamaño n “ 1 de la distribución

f px; θq especificada abajo, en donde θ ą 0 es desconocido. Consideran-
do la cantidad pivotal U “ X1 {θ, encuentre un intervalo de confianza
para θ al p1 ´ αq100 %.
$
& 2pθ ´ xq
si 0 ă θ ă x,
f px; θq “ θ2
0 en otro caso.
%
152 3. Estimación por intervalos

160. Sea X1 , . . . , Xn una muestra aleatoria de la distribución unifp0, θq,

con θ ą 0 desconocido. Demuestre que Xpnq {θ es una cantidad pivotal
y compruebe que el intervalo pXpnq , Xpnq {α1{n q es el intervalo más
pequeño para θ con nivel de confianza 1 ´ α.
Capı́tulo 4

Pruebas de hipótesis

En este capı́tulo daremos una breve introducción al tema de pruebas de

hipótesis.

4.1. Introducción
Ilustraremos las ideas básicas de una prueba de hipótesis mediante un ejem-
plo sencillo. Consideremos una situación en la que se efectúa sólo uno de
los siguientes dos experimentos aleatorios: se lanza un dado equilibrado y
se registra el número x obtenido, o bien se lanza una moneda cinco veces y
se registra el número x de cruces totales que se obtienen (suponiendo que
los lados de cada moneda se denominan cara y cruz). Véase la Figura 4.1.

Figura 4.1

Supongamos que únicamente conocemos el resultado x y se nos pide deter-

153
154 4. Pruebas de hipótesis

minar cuál de los dos experimentos se realizó con base en este número x
reportado. Tenemos entonces una situación de dos hipótesis:
H0 : “Se lanzó el dado” vs H1 : “Se lanzó la moneda”.
Como única información sobre este experimento tenemos un número x den-
tro del conjunto t0, 1, 2, 3, 4, 5, 6u, y con base en él debemos decidir si se
llevó a cabo un experimento o el otro. La pregunta que nos planteamos es
¿qué decisión tomar para cada valor de x reportado? Observemos que si el
número reportado es 0, entonces con seguridad se realizó el experimento de
la moneda. Si se reporta el número 6, entonces con seguridad el dado fue
lanzado. ¿Qué decisión tomar para cualquier otro valor de x? Una forma de
responder esta pregunta es usando la idea de máxima verosimiltud. En la
siguiente tabla se muestran las probabilidades de obtener los posibles valo-
res de x bajo cada uno de los dos experimentos.

x
0 1 2 3 4 5 6
Dado 0 1{6 1/6 1/6 1{6 1{6 1{6
Moneda 1{32 5/32 10{32 10{32 5/32 1/32 0

Es claro que cuando se efectúa el experimento de lanzar el dado, cada uno

de los resultados 1, 2, 3, 4, 5, 6 se obtiene con probabilidad 1{6. Por otro
lado, cuando se efectúa el experiemento de lanzar la moneda equilibrada,
la
`5˘probabilidad de obtener cualquiera de los números x “ 0, 1, 2, 3, 4, 5 es
p1{2qx p1{2q5´x . De esta manera se construye la tabla anterior. Debe ser
x
claro que una estrategia natural es decidir por el experimento que tenga
mayor probabilidad de producir el valor reportado. De esta forma se llega a
la siguiente regla de decisión:

Regla de decisión.
Si x P C “ t0, 2, 3u, se rechaza H0 ,
en caso contrario, no se rechaza H0 .

Por razones naturales al conjunto C se le llama región de rechazo de la

hipótesis H0 . La regla de decisión anterior es razonable, sin embargo, no
4.1 Introducción 155

está libre de errores, por ejemplo, si x “ 2, se decide por el experimento

de la moneda, pero el resultado bien pudo provenir del dado. Igualmente,
si x “ 1, se decide por el dado pero es factible que el resultado haya sido
obtenido por la moneda. De esta manera, cualquier regla de decisión no
está exenta de errores. Los dos tipos de errores que se pueden presentar se
muestran en la siguiente tabla.

H0 cierta H0 falsa
Rechazar H0 Error tipo I X
No rechazar H0 X Error tipo II

Se usan las letras α y β para denotar a las probabilidades de cometer los

errores tipo I y II, respectivamente. Para el ejemplo que estamos analizando
las probabilidades de estos errores se calculan de la siguiente manera.

α “ P p“Error tipo I”q

“ P p“Rechazar H0 ” | “H0 es verdadera”q
“ P pX P t0, 2, 3u | “Se lanzó el dado”q
“ 2{6.

Por otro lado,

β “ P p“Error tipo II”q

“ P p“No rechazar H0 ” | “H0 es falsa”q
“ P pX P t1, 4, 5, 6u | “Se lanzó la moneda”q
“ 11{32.

Naturalmente, si se modifica la región de rechazo, entonces cambian las

probabilidades de los errores. Por ejemplo,

a) Si se toma C “ t0, 1, 2, 3u, entonces puede comprobarse que

α “ P p“Error tipo I”q “ P px P C | “H0 es cierta”q “ 3{6,

β “ P p“Error tipo II”q “ P px P C c | “H1 es cierta”q “ 6{32.
156 4. Pruebas de hipótesis

b) Si se toma C “ t2, 3u, entonces puede comprobarse que

α “ P p“Error tipo I”q “ P px P C | “H0 es cierta”q “ 2{6,

β “ P p“Error tipo II”q “ P px P C c | “H1 es cierta”q “ 12{32.

Observe que las probabilidades α y β no son complementarias, es decir, no

necesariamente suman uno. En un problema de decisión de este tipo se desea
encontrar una regla de decisión que sea razonable y que tenga probabilida-
des de error pequeños. Por ejemplo, la regiones de rechazo C “ t0, 2, 3u y
C “ t2, 3u tienen ambas α “ 2{6, sin embargo para la primera β “ 11{32
y para la segunda β “ 12{32. Comparativamente, preferimos la primera
región de rechazo.

Nuestra perspectiva será fijar un valor de α y buscar la región de rechazo

C cuya probabilidad de error tipo I sea α y la probabilidad de error tipo II
sea la más pequeña posible. Por ejemplo, en la siguiente tabla se muestran
distintas regiones de rechazo C con el mismo nivel de significancia α “ 2{6
y para las cuales se ha calculado la probabilidad β. El renglón sombreado,
y que corresponde al obtenido usando máxima verosimilitud, es la mejor
región de rechazo para α “ 2{6 pues la probabilidad β es la menor posible.
4.1 Introducción 157

Región de rechazo α β

C “ t0, 1, 2u 2{6 16{32

C “ t0, 1, 3u 2{6 16{32
C “ t0, 1, 4u 2{6 21{32
C “ t0, 1, 5u 2{6 25{32
C “ t0, 1, 6u 2{6 26{32
C “ t0, 2, 3u 2{6 11{32
C “ t0, 2, 4u 2{6 16{32
C “ t0, 2, 5u 2{6 20{32
C “ t0, 2, 6u 2{6 21{32
C “ t0, 3, 4u 2{6 16{32
C “ t0, 3, 5u 2{6 20{32
C “ t0, 3, 6u 2{6 21{32
C “ t0, 4, 5u 2{6 25{32
C “ t0, 4, 6u 2{6 26{32
C “ t0, 5, 6u 2{6 30{32

Vamos ahora a estudiar pruebas de hipótesis en el contexto de la estimación

de parámetros en las distribuciones de probabilidad.

Ejercicios
161. Para la prueba vista en esta sección encuentre la mejor región de
rechazo con α “ 1{6.
162. Suponga que se tiene una moneda en donde la probabilidad de obtener
una de las caras es un parámetro desconocido θ, aunque se conoce que
sólo puede haber dos casos: θ “ 1{2 ó θ “ 7{12. Con base en los
resultados x1 , . . . , xn de n lanzamientos de la moneda se desea llevar
a cabo la prueba de hipótesis
H0 : θ “ 1{2 vs H1 : θ “ 7{12,
158 4. Pruebas de hipótesis

en donde se ha convenido en definir la región de rechazo como

R “ tpx1 , . . . , xn q : x̄ ď 13{14u.

Use el teorema central del lı́mite para aproximar las probabilidades de

error tipo I y II

163. Sea X1 , . . . , X4 una muestra aleatoria de tamaño n “ 4 de la distribu-

ción Npθ, 4q, en donde θ es desconocido. Encuentre las probabilidades
de cometer los errores tipo I y II para la prueba

H0 : θ “ 2 vs H1 : θ “ 5,

considerando como región de rechazo

a) R “ tpx1 , . . . , x4 q : x1 ą 4.7u.
b) R “ tpx1 , . . . , x4 q : px1 ` 2x2 q{3 ą 4.5u.
c) R “ tpx1 , . . . , x4 q : px1 ` x3 q{2 ą 4.2u.
d ) R “ tpx1 , . . . , x4 q : x̄ ą 4.1u.

4.2. Definiciones
En esta sección se formalizan algunas definiciones sobre pruebas de hipótesis.

Definición 4.1 Una hipótesis estadı́stica, o simplemente hipótesis, es

una afirmación o conjetura acerca de la distribución de una o mas va-
riables aleatorias.

Por ejemplo, si X es una variable aleatoria con distribución binpk, pq, enton-
ces la afirmación “p “ 0.2” es una hipótesis. Del mismo modo, si X es una
variable aleatoria con distribución Npµ, σ 2 q, entonces la afirmación “µ ą 0”
es otro ejemplo de una hipótesis estadı́stica.
4.2 Definiciones 159

Definición 4.2 Una hipótesis es simple si especifica por completo la

distribución de probabilidad en cuestión, en caso contrario, la hipótesis
se llama compuesta.

Por ejemplo, si X es una variable aleatoria con distribución exppλq, enton-

ces la afirmación “λ “ 5” es una hipótesis simple. Si X tiene distribución
Npµ, 1q, entonces la afirmación “µ “ 0” es otro ejemplo de hipótesis simple.
En cambio, si X tiene distribución Poissonpλq, entonces “λ ą 20” es una
hipótesis compuesta pues no se especifica completamente la distribución de
la variable aleatoria. Si X tiene distribución χ2 pnq, entonces “n ‰ 5” es
otro ejemplo de una hipótesis compuesta. En general, contrastaremos dos
hipótesis de acuerdo al siguiente esquema y notación.

H0 : phipótesis nulaq vs H1 : phipótesis alternativaq.

Tanto la hipótesis nula H0 como la hipótesis alternativa H1 pueden ser

simples o compuestas. De este modo tenemos cuatro diferentes tipos de
contraste de hipótesis: simple vs simple, simple vs compuesta, compuesta
vs simple, y compuesta vs compuesta.

Definición 4.3 Llevar a cabo una prueba de hipótesis significa aplicar

una regla para decidir si se acepta la hipótesis nula o se rechaza en favor
de la hipótesis alternativa.

Como hemos mencionado, al tomar una decisión en una prueba de hipótesis

se corre el riesgo de cometer errores. Rechazar la hipótesis nula cuando ésta
es verdadera es el error tipo I y la probabilidad de cometer este tipo de error
se le denota por la letra α. En cambio, no rechazar la hipótesis nula cuando
ésta es falsa es el error tipo II y a la probabilidad de cometer este segundo
tipo de error se le denota por la letra β. Estas dos formas de cometer errores
al efectuar una toma de decisión en una prueba de hipótesis se formalizan
160 4. Pruebas de hipótesis

en la siguiente definición.

Definición 4.4

a) El error tipo I se obtiene cuando se rechaza la hipótesis H0 siendo

ésta verdadera. A la probabilidad de cometer el error tipo I se le
denota por la letra α, esto es,

α “ P p“Error tipo I”q

“ P p“Rechazar H0 ” | “H0 es verdadera”q.

b) El error tipo II se obtiene cuando no se rechaza la hipótesis H0

siendo ésta falsa. A la probabilidad de cometer el error tipo II se
le denota por la letra β, esto es,

β “ P p“Error tipo II”q

“ P p“No rechazar H0 ” | “H0 es falsa”q.

H0 cierta H0 falsa

Rechazar H0 Error Decisión

tipo I correcta
No rechazar H0 Decisión Error
correcta tipo II

La información para obtener una regla de decisión que nos lleve a rechazar o
no rechazar un hipótesis estadı́stica provendrá de una muestra aleatoria de
la distribución de que se trate. Observe además que al aceptar una hipótesis
no se afirma que ésta sea absolutamente cierta, sino simplemente que es
consistente con los datos de la muestra aleatoria y la regla de decisión. Si la
información de la muestra cambia, posiblemente la decisión de rechazar o no
rechazar también cambie. Antes de presentar algunas pruebas de hipótesis
4.2 Definiciones 161

particulares mencionaremos algunos términos adicionales que se usan en

estos procedimientos.

Definición 4.5 Se le llama región crı́tica a la región de rechazo de H0

y a la probabilidad de cometer el error tipo I, esto es α, se le llama
tamaño de la región crı́tica. A esta probabilidad se le conoce también
con el nombre de nivel de significancia.

Sinónimos Sinónimos
Nivel de significancia
Región crı́tica
Tamaño de la región crı́tica
Región de rechazo de H0
Prob. del error tipo I

Figura 4.2

Notación:

C “ “Región crı́tica”
“ “Región de rechazo de H0 ”

Notación:

α “ P p“Error tipo I”q

“ “Nivel de significancia”
“ “Tamaño de la región crı́tica”
162 4. Pruebas de hipótesis

Notación:

1 ´ β “ 1 ´ P p“Error tipo II”q

“ “Potencia de la prueba”

Utilizaremos el siguiente ejemplo para ilustrar nuevamente las ideas gene-

rales y el procedimiento de llevar a cabo una prueba de hipótesis.

Ejemplo 4.1 ¿Moneda equilibrada? Suponga que tenemos una moneda

y que deseamos saber si está equilibrada o no lo está. Para ello lanzamos la
moneda 100 veces y con base en esta información habremos de tomar una
decisión respecto a si la moneda tiene la misma probabilidad de caer cara o
cruz.

Figura 4.3

Por ejemplo, si de los cien lanzamientos se obtienen cincuenta cruces, en-

tonces podemos decir que tenemos evidencias para creer que la moneda está
equilibrada, aunque tal resultado puede también obtenerse con una moneda
no equilibrada (error tipo II). Pero, ¿qué decisión tomar si únicamente se
obtienen 45 cruces? ¿y si se obtienen 60 cruces? Es claro que en estos últi-
mos casos la decisión no es tan inmediata. Denotemos por X1 , X2 , . . . , X100
los resultados de estos lanzamientos, en donde para el i-ésimo lanzamiento
#
1 si la moneda cae cruz,
Xi “
0 si la moneda cae cara.
Es decir, cada variable Xi tiene distribución Bernoulli de parámetro θ, en
donde θ es la probabilidad desconocida de obtener cruz en cada lanzamiento.
Deseamos llevar a cabo la prueba de hipótesis
H0 : θ “ 1{2 vs H1 : θ ‰ 1{2.
4.2 Definiciones 163

Denotemos por θ̂ a la media muestral pX1 `¨ ¨ ¨`X100 q{100. Por la ley de los
grandes números, este estimador se acerca al verdadero valor de θ cuando
el número de lanzamientos es cada vez más grande, y por lo tanto es una
aproximación de θ. Cuando θ̂ diste mucho de 1{2 es natural pensar que la
moneda no está equilibrada. Es por ello que se propone como criterio de
decisión rechazar la hipótesis H0 cuando
| θ̂ ´ 1{2 | ě c,
para algún valor numérico de c que encontraremos a continuación estable-
ciendo un valor particular para la probabilidad del error tipo I. En el caso
cuando H0 es cierta, pero se toma la decisión de rechazar H0 , se está en la
situación de cometer el error tipo I, y establecemos que la probabilidad de
que ello ocurra es α, igual 0.01 por ejemplo, es decir,
P p| θ̂ ´ 1{2 | ě cq “ 0.01 .
A partir de esta ecuación encontraremos el valor de d haciendo uso del
hecho de que, cuando H0 es verdadera, es decir, θ “ 1{2, el estimador θ̂ tiene
? de media 1{2, varianza p1{2qp1´1{2q{100 “
distribución aproximada normal
0.025, y desviación estándar 0.025 “ 0.05 . Por lo tanto, pθ̂´1{2q{0.05 tiene
distribución aproximada normal estándar. Con esta información podemos
ahora encontrar un valor aproximado para c.
0.01 “ P p| θ̂ ´ 1{2 | ě c | θ “ 1{2q
“ 1 ´ P p| θ̂ ´ 1{2 | ă c | θ “ 1{2q
“ 1 ´ P p´d ă θ̂ ´ 1{2 ă c | θ “ 1{2q
´c θ̂ ´ 1{2 c
“ 1 ´ Pp ă ă | θ “ 1{2q
0.05 0.05 0.05
c
« 2p1 ´ Φp qq.
0.05
Es decir, Φpc{0.05q “ 0.995. De la tabla de probabilidades de la distribución
normal se encuentra que c{0.05 “ 2.57 y por lo tanto c “ 0.128 . De esta
forma la estadı́stica de la prueba es la variable aleatoria θ̂, y cuando el
valor de esta variable cumpla la condición | θ̂ ´ 1{2 | ě 0.128, se rechaza la
hipótesis H0 . Esta región de rechazo se puede escribir como la unión de los
intervalos
r0, 1{2 ´ 0.128s Y r1{2 ` 0.128, 1s,
164 4. Pruebas de hipótesis

Región de rechazo

0 0.372 0.5 0.628 1

Figura 4.4

o bien r0, 0.372s Y r0.628, 1s, y se muestra gráficamente en la Figura 4.4.

Ası́, si θ̂ es menor o igual a 0.372 o mayor o igual 0.628, decidimos que
la diferencia entre θ̂ y 1{2 no es debido a fluctuaciones azarosas, sino que
es debido a que la moneda no está equilibrada y por lo tanto rechazamos
H0 . La probabilidad de un error al tomar tal decisión es 0.01, de modo
que se está tomando un riesgo del 1 % de clasificar una moneda equilibrada
como no equilibrada. Por otro lado, podemos calcular la probabilidad del
error tipo II de la siguiente forma: sea θ0 una probabilidad distinta de 1{2,
calcularemos la probabilidad del error tipo II dado que el verdadero valor
de θ es θ0 , y escribimos esto como βpθ0 q. Tenemos entonces que

βpθ0 q “ P p |θ̂ ´ 1{2| ă c | θ “ θ0 q

“ P p ´c ă θ̂ ´ 1{2 ă c | θ “ θ0 q
“ P p 1{2 ´ c ă θ̂ ă 1{2 ` c | θ “ θ0 q
1{2 ´ c ´ θ0 1{2 ` c ´ θ0
« Pp a ăZă a q
θ0 p1 ´ θ0 q{100 θ0 p1 ´ θ0 q{100
1{2 ` c ´ θ0 1{2 ´ c ´ θ0
“ Φp a q ´ Φp a q.
θ0 p1 ´ θ0 q{100 θ0 p1 ´ θ0 q{100

Observe que hemos aplicado nuevamente el teorema central del lı́mite al

hacer la aproximación. De esta forma el error tipo II queda expresado como
una función del valor de θ0 distinto de 1{2. ‚

Habiendo establecido las ideas principales y la notación que usaremos, po-

demos ahora mostrar la forma en la que se pueden encontrar algunas reglas
de decisión para ciertas pruebas de hipótesis en estadı́stica.
4.3 Pruebas sobre la distribución normal 165

4.3. Pruebas sobre la distribución normal

4.3.1. Prueba para la media con varianza conocida
Sea X1 , . . . , Xn una muestra aleatoria de una población normal con media
desconocida µ y varianza conocida σ 2 . Sabemos que X̄ tiene distribución
Npµ, σ 2 {nq. Por lo tanto,

X̄ ´ µ
? „ N p0, 1q.
σ{ n
Sea µ0 un número real particular. Deseamos contrastar las hipótesis

H0 : µ “ µ0 vs H1 : µ ‰ µ0 .

El problema es encontrar una regla para decidir cuándo rechazar H0 en favor

de H1 con base en los datos de la muestra aleatoria. Cuando H0 es cierta,
esto es, cuando µ es efectivamente µ0 , tenemos que X̄ „ N pµ0 , σ 2 {nq y por
lo tanto
X̄ ´ µ0
? „ N p0, 1q.
σ{ n
La estadı́stica Z “ X̄´µ
? 0 es una medida natural de la distancia entre X̄ (un
σ{ n
estimador de µ), y su valor esperado µ0 cuando H0 es cierta. Es entonces
razonable rechazar H0 cuando la variable Z sea grande. Es por ello que
tomamos como criterio de decisión rechazar H0 cuando |Z| ě k, para cierta
constante k. ¿Cómo encontramos el número k? En una tabla de la distri-
bución normal podemos encontrar un valor zα{2 tal que P p|Z| ě zα{2 q “ α,
en donde α lo determina la persona que lleva a cabo la prueba de hipótesis,
tı́picamente α “ 0.1 . Véase la Figura 4.5. Este valor zα{2 es precisamente
la constante k buscada pues con ello se logra que la región de rechazo sea
de tamaño α.
A la variable aleatoria Z se le llama la estadı́stica de la prueba, y la prueba
se denomina prueba de dos colas pues la región de rechazo consta de las dos
colas de la distribución normal que se muestran en la Figura 4.5. Llevar a
cabo esta prueba de hipótesis consiste simplemente en usar los datos de la
muestra para encontrar el valor de Z, si resulta que |Z| ě zα{2 , entonces
se rechaza H0 , en caso contrario no se rechaza H0 . En la siguiente tabla se
muestra resumida la información de esta prueba.
166 4. Pruebas de hipótesis

f pxq

α{2 α{2

x
´zα{2 zα{2

Región de rechazo

Figura 4.5

Prueba: H0 : µ “ µ0 vs H1 : µ ‰ µ0
Estadı́stica de prueba: Z “ X̄´µ
?0
σ{ n
Región de rechazo: |Z| ě zα{2 , (prueba de dos colas)
Error tipo I: α
? 1 q ´ Φp´zα{2 ` µ0 ´µ
0 ´µ
Error tipo II: Φpzα{2 ` µσ{ n
? 1 q, µ1 ‰ µ0 .
σ{ n

Vamos a comprobar la fórmula que aparece en la tabla anterior acerca del

error tipo II. Sea µ1 cualquier número tal que µ1 ‰ µ0 . Calcularemos la
probabilidad del error tipo II dado que el verdadero valor de µ es µ1 .

βpµ1 q “ P p “No rechazar H0 cuando µ “ µ1 ” q

“ P p |Z| ă zα{2 | µ “ µ1 q
X̄ ´ µ0
“ Pp| ? | ă zα{2 | µ “ µ1 q
σ{ n
σ σ
“ P p µ0 ´ zα{2 ? ă X̄ ă µ0 ` zα{2 ? | µ “ µ1 q
n n
µ0 ´ µ1 X̄ ´ µ1 µ ´µ
“ P p ´zα{2 ` ? ă ? ă zα{2 ` 0 ? 1 q
σ{ n σ{ n σ{ n
µ0 ´ µ1 µ ´µ
“ Φpzα{2 ` ? q ´ Φp´zα{2 ` 0 ? 1 q.
σ{ n σ{ n
4.3 Pruebas sobre la distribución normal 167

Ejemplo 4.2 En ciertas zonas de la ciudad y durante varios años se ha cal-

culado el pago por el consumo de agua suponiendo un consumo promedio
de 20,000 litros mensuales en cada casa. Para determinar si tal cantidad ha
cambiado, se han medido los consumos mensuales de 15 casas obteniéndose
los siguientes resultados: 23456, 18325, 21982, 22371, 13292, 25073, 22601,
20930, 18788, 19162, 21442, 23935, 20320, 19095, 17421. ¿Debe cambiar el
consumo promedio mensual estimado para el cálculo de los pagos o perma-
necer igual? Suponga σ “ 2000.
Solución. Supondremos un modelo normal para el consumo de agua con
media desconocida µ y varianza conocida σ 2 “ p2000q2 . Llevaremos a cabo
la prueba de hipótesis

H0 : µ “ 20, 000 vs H1 : µ ‰ 20, 000.

Los datos proporcionados corresponden a los valores de una muestra alea-

toria de tamaño 15, y haciendo el promedio de estos valores se obtiene una
media muestral X̄ “ 20546.2. La estadı́stica de prueba toma entonces el
valor

X̄ ´ µ0 20546.2 ´ 20000
Z“ ? “ ? “ 1.0577.
σ{ n 2000{ 15

Por otro lado, tomando α “ 0.1, de la tabla de probabilidades de la distribu-

ción normal se encuentra que zα{2 “ 1.65. Como no se cumple la condición
|Z| ě zα{2 , la estadı́stica de prueba Z cae fuera de la región de rechazo y
por lo tanto no se rechaza la hipótesis H0 , es decir, no existen evidencias
para afirmar que el consumo de agua por casa en la zona de estudio haya
cambiado. ‚

Puede también considerarse la prueba H0 : µ “ µ0 contra H1 : µ ă µ0

llamada prueba de cola inferior pues la región de rechazo consta de la cola
izquierda de la distribución normal como se muestra en la Figura 4.6. Se
rechaza la hipótesis H0 sólo cuando los datos de la muestra son tales que X̄
se encuentra muy a la izquierda de µ0 .
168 4. Pruebas de hipótesis

Prueba: H0 : µ “ µ0 vs H1 : µ ă µ0
Estadı́stica de prueba: Z “ X̄´µ
?0
σ{ n
Región de rechazo: Z ď ´zα , (prueba de cola inferior)
Error tipo I: α ´ ¯
µ0 ´µ
Error tipo II: 1 ´ Φ ´zα ` ?1
σ{ n
, µ1 ă µ0

f pxq

x
´zα
Región de rechazo

Figura 4.6

Las caracterı́sticas de la prueba H0 : µ “ µ0 contra H1 : µ ą µ0 llamada

prueba de cola superior se muestran en la siguiente tabla, y la región de
rechazo se presenta en la Figura 4.7. Se rechaza la hipótesis H0 sólo cuando
la muestra provee evidencia de que X̄ se encuentra muy a la derecha de µ0 .

Prueba: H0 : µ “ µ0 vs H1 : µ ą µ0
Estadı́stica de prueba: Z “ X̄´µ
?0
σ{ n
Región de rechazo: Z ě zα , (prueba de cola superior)
Error tipo I: α´ ¯
µ0 ´µ
Error tipo II: Φ zα ` ?1
σ{ n
, µ1 ą µ0 .
4.3 Pruebas sobre la distribución normal 169

f pxq

x
zα
Región de rechazo

Figura 4.7

4.3.2. Prueba para la media con varianza desconocida

Sea nuevamente X1 , . . . , Xn una muestra aleatoria de una distribución nor-
mal con media desconocida µ, pero ahora con varianza desconocida σ 2 . Dado
un valor numérico para la constante µ0 , nos interesa nuevamente encontrar
una regla de decisión para llevar a cabo los siguientes tipos de pruebas de
hipótesis
H0 : µ “ µ0 vs H1 : µ ‰ µ0 ,
¨¨¨ vs H1 : µ ă µ0 ,
¨¨¨ vs H1 : µ ą µ0 .
El resultado teórico que hemos usado antes es que la variable aleatoria
X̄ ´ µ
T “ ? ,
S{ n
tiene una distribución t con n ´ 1 grados de libertad, en donde, recordemos,
S 2 es la varianza muestral
n
1 ÿ
S2 “ pXi ´ X̄q2 .
n ´ 1 i“1

El razonamiento para resolver este problema es completamente análogo al

realizado en la sección anterior, sólo que ahora en lugar de usar la distri-
bución normal se usa la distribución t. Por ejemplo, la prueba H0 : µ “
170 4. Pruebas de hipótesis

µ0 vs H1 : µ ‰ µ0 , se denomina prueba de dos colas y nuevamente es ra-

zonable rechazar la hipótesis nula H0 cuando la diferencia entre µ y µ0 es
grande. Los detalles de la prueba se encuentran en el recuadro siguiente y
la región de rechazo se muestra gráficamente en la Figura 4.8.

Prueba: H0 : µ “ µ0 vs H1 : µ ‰ µ0
Estadı́stica de prueba: t “ X̄´µ
?0
S{ n
Región de rechazo: |t| ě tα{2,n´1 , (prueba de dos colas)
Error tipo I: α
0 ´µ
? 1 q ´ F p´tα{2,n´1 ` µ0 ´µ
Error tipo II: F ptα{2,n´1 ` µS{ n
? 1 q,
S{ n
para µ1 ‰ µ0 .

El número tα{2,n´1 corresponde a aquel valor real tal que el área bajo la
función de densidad de la distribución t con n ´ 1 grados de libertad a la
derecha de ese valor es α{2, véase la Figura 4.8.

f pxq

α{2 α{2

x
´tα{2,n´1 tα{2,n´1

Región de rechazo

Figura 4.8

El error tipo I lo establece la persona que lleva a cabo la prueba y el error

tipo II puede calcularse de manera análoga al caso cuando la varianza es
conocida. Comprobaremos ahora la fórmula del error tipo II para la prueba
de dos colas. Sea µ1 cualquier número real distinto de µ0 . Calcularemos la
4.3 Pruebas sobre la distribución normal 171

probabilidad del error tipo II dado que el verdadero valor de la media es µ1 .

βpµ1 q “ P p “No rechazar H0 cuando µ “ µ1 ” q

“ P p |t| ă tα{2,n´1 | µ “ µ1 q
X̄ ´ µ0
“ Pp| ? | ă tα{2,n´1 | µ “ µ1 q
S{ n
S S
“ P p µ0 ´ tα{2,n´1 ? ă X̄ ă µ0 ` tα{2,n´1 ? | µ “ µ1 q
n n
µ0 ´ µ1 X̄ ´ µ1 µ ´µ
“ P p ´tα{2,n´1 ` ? ă ? ă tα{2,n´1 ` 0 ? 1 q
S{ n S{ n S{ n
µ0 ´ µ1 µ0 ´ µ1
“ F ptα{2,n´1 ` ? q ´ F p´tα{2,n´1 ` ? q,
S{ n S{ n

en donde F es la función de distribución t con n ´ 1 grados de libertad. La

prueba H0 : µ “ µ0 vs H1 : µ ă µ0 se llama nuevamente prueba de cola
inferior y tiene las siguientes caracterı́sticas:

Prueba: H0 : µ “ µ0 vs H1 : µ ă µ0
Estadı́stica de prueba: t “ X̄´µ
?0
S{ n
Región de rechazo: t ď ´tα,n´1 , (prueba de cola inferior)
Error tipo I: α
0 ´µ
Error tipo II: 1 ´ F p´tα,n´1 ` µS{ ? 1 q, µ1 ă µ0
n

Y finalmente para la prueba de cola superior H0 : µ “ µ0 vs H1 : µ ą µ0 se

conocen los siguientes resultados.

Prueba: H0 : µ “ µ0 vs H1 : µ ą µ0
Estadı́stica de prueba: t “ X̄´µ
?0
S{ n
Región de rechazo: t ě tα,n´1 , (prueba de cola superior)
Error tipo I: α
0 ´µ
Error tipo II: F ptα,n´1 ` µS{ ? 1 q, µ1 ą µ0 .
n
172 4. Pruebas de hipótesis

Ejemplo 4.3 Se desea determinar si la aplicación de un cierto medicamen-

to afecta la presión arterial sistólica en el ser humano. Para ello se escogen
al azar diez personas, se les mide la presión aterial, después se les aplica
el medicamento y una vez que éste ha tenido efecto se mide muevamente
la presión de las personas. Se calcula entonces la diferencia entre la prime-
ra medición de la presión y la segunda. Los número obtenidos fueron los
siguientes:
2, ´1, 0, ´5, 3, 2, 5, ´3, 0, 4.
Supondremos que la diferencia calculada puede modelarse mediante una
variable aleatoria con distribución normal con media µ y varianza σ 2 des-
conocidas. Deseamos llevar a cabo la prueba de hipótesis
H0 : µ “ 0 vs H1 : µ ‰ 0.
La primera hipótesis establece que el medicamento no influye significativa-
mente en la presión arterial de las personas. La segunda hipótesis indica
que el medicamento sı́ afecta la presión arterial. Con los datos obtenidos
podemos calcular la media y la varianza muestral
x̄ “ 0.7,
s2 “ 9.7888,
y entonces el valor de la estadı́stica de la prueba es
x̄ ´ µ0
t“ ? “ 0.6712.
s{ n
Para llevar a cabo la prueba tenemos que comparar este valor con tα{2,n´1 .
Tomaremos α “ 0.1, y de la tabla de la distribución t encontramos que
tα{2,n´1 “ 1.833. La regla de decisión es rechazar H0 cuando |t| ą tα{2,n´1 ,
pero ello no sucede, por lo tanto concluimos que con base en la muestra
obtenida y la prueba estadı́stica aplicada, no existen evidencias para afirmar
que el medicamento afecte la presión arterial de las personas. ‚

4.3.3. Prueba para la diferencia entre dos medias con va-

rianza conocida
Sean X11 , . . . , Xn11 y X12 , . . . , Xn22 dos muestras aleatorias independientes de
dos poblaciones, ambas con distribución normal, pero con distintos pará-
metros, la primera con media desconocida µ1 y varianza conocida σ12 , y la
4.3 Pruebas sobre la distribución normal 173

segunda con media desconocida µ2 y varianza conocida σ22 . Observe que el

tamaño de las muestras puede ser distinto. En esta sección encontraremos
un criterio para llevar a cabo las siguientes pruebas de hipótesis

H0 : µ1 ´ µ2 “ δ vs H1 : µ1 ´ µ2 ‰ δ,
¨¨¨ vs H1 : µ1 ´ µ2 ă δ,
¨¨¨ vs H1 : µ1 ´ µ2 ą δ,

en donde δ es una constante. Mediante estas pruebas se puede decidir si las

medias de las dos poblaciones normales difieren en la constante δ o en una
cantidad diferente. Consideraremos primero el caso

H0 : µ1 ´ µ2 “ δ vs H1 : µ1 ´ µ2 ‰ δ.

Denotaremos por X̄1 a la media muestral de la primera muestra, y por

X̄2 a la media de la segunda muestra. Sabemos que X̄1 tiene distribución
Npµ1 , σ12 {n1 q y X̄2 tiene distribución Npµ2 , σ22 {n2 q. Entonces

σ12 σ22
X̄1 ´ X̄2 „ Npµ1 ´ µ2 , ` q.
n1 n2

Este es el resultado que nos llevará a encontrar una regla para decidir cuándo
rechazar H0 en favor de H1 , con base en los datos de la muestra aleatoria.
Cuando H0 es cierta, esto es, cuando µ1 ´ µ2 “ δ, tenemos que X̄1 ´ X̄2
tiene distribución Npδ, σ12 {n1 ` σ22 {n2 q, y por lo tanto

X̄1 ´ X̄2 ´ δ
Z“ b 2 „ N p0, 1q.
σ1 σ22
n1 ` n2

La estadı́stica Z es nuevamente una medida natural de la distancia entre

X̄1 ´ X̄2 y δ. Es entonces razonable rechazar H0 : µ1 ´ µ2 “ δ cuando la
variable Z sea grande. Es por ello que tomamos como criterio de decisión
rechazar H0 cuando |Z| ě k, para cierta constante k. En una tabla de
la distribución normal estándar podemos encontrar un valor zα{2 tal que
P p|Z| ě zα{2 q “ α, en donde α es el error tipo I. Este valor zα{2 es la
constante k buscada y con ello se logra que la región de rechazo sea de
tamaño α. Los detalles de esta prueba se resumen en la siguiente tabla.
174 4. Pruebas de hipótesis

Prueba: H0 : µ1 ´ µ2 “ δ vsb H1 : µ1 ´ µ2 ‰ δ
σ2 σ2
Estadı́stica de prueba: Z “ pX̄1 ´ X̄2 ´ δq{ n11 ` n22
Región de rechazo: |Z| ě zα{2 , (prueba de dos colas)
Error tipo I: α b
σ12 σ2
Error tipo II: Φpzα{2 ` pδ ´ δ1 q{ nb1
` n22 q
σ2 σ2
´Φp´zα{2 ` pδ ´ δ1 q{ n11 ` n22 q, δ1 ‰ δ.

Comprobaremos la fórmula que aparece en la tabla anterior acerca del error

tipo II. Sea δ1 cualquier número distinto de δ. Calcularemos la probabilidad
del error tipo II dado que el verdadero valor de la diferencia µ1 ´ µ2 es δ1 .

βpδ1 q “ P p “No rechazar H0 cuando µ1 ´ µ2 “ δ1 ” q

“ P p |Z| ă zα{2 | µ1 ´ µ2 “ δ1 q
X̄1 ´ X̄2 ´ δ
“ Pp| b 2 | ă zα{2 | µ1 ´ µ2 “ δ1 q
σ1 σ22
n1 ` n2
d d
σ1 2 σ 2 σ12 σ22
“ P p δ ´ zα{2 ` 2 ă X̄1 ´ X̄2 ă δ ` zα{2 `
n1 n2 n1 n2
| µ1 ´ µ 2 “ δ 1 q
δ ´ δ1 X̄1 ´ X̄2 ´ δ1 δ ´ δ1
“ P p ´zα{2 ` b 2 ă b 2 ă zα{2 ` b 2 q
σ1 σ22 σ1 2
σ2 σ1 σ22
n1 ` n2 n1 ` n2 n1 ` n2
δ ´ δ1 δ ´ δ1
“ Φpzα{2 ` b 2 q ´ Φp´zα{2 ` b 2 q.
σ1 σ22 σ1 σ22
n1 ` n2 n1 ` n2

Para la prueba

H0 : µ1 ´ µ2 “ δ vs H1 : µ1 ´ µ2 ă δ,

los detalles se muestran en el siguiente cuadro.

4.3 Pruebas sobre la distribución normal 175

Prueba: H0 : µ1 ´ µ2 “ δ vsb H1 : µ1 ´ µ2 ă δ
σ2 σ2
Estadı́stica de prueba: Z “ pX̄1 ´ X̄2 ´ δq{ n11 ` n22
Región de rechazo: Z ď ´zα , (prueba de cola inferior)
Error tipo I: α b
σ12 σ22
Error tipo II: 1 ´ Φpzα ` pδ ´ δ1 q{ n1 ` n2 q, δ1 ă δ.

Y para la prueba

H0 : µ1 ´ µ2 “ δ vs H1 : µ1 ´ µ2 ą δ,

los detalles se muestran a continuación.

Prueba: H0 : µ1 ´ µ2 “ δ vsb H1 : µ1 ´ µ2 ą δ
σ2 σ2
Estadı́stica de prueba: Z “ pX̄1 ´ X̄2 ´ δq{ n11 ` n22
Región de rechazo: Z ě zα , (prueba de cola superior)
Error tipo I: α b
σ12 σ22
Error tipo II: Φpzα ` pδ ´ δ1 q{ n1 ` n2 q, δ1 ą δ.

Ejemplo 4.4 En una muestra aleatoria, el tiempo promedio en el que 50

mujeres terminaron una prueba escrita fue de 30 minutos, mientras que 45
hombres terminaron la prueba en un promedio de 35 minutos. Para fines
ilustrativos supondremos una varianza de 9 unidades en ambas poblaciones.
¿Hay alguna diferencia entre hombres y mujeres en el tiempo promedio real
para concluir la prueba? Para contestar a esta pregunta podemos llevar a
cabo la prueba de hipótesis

H0 : µ1 ´ µ2 “ 0 vs H1 : µ1 ´ µ2 ‰ 0,

en donde µ1 corresponde a la media de la población de mujeres, y µ2 a la

media de la población de hombres. Con lo datos recabados la estadı́stica de
la prueba toma el valor
x̄1 ´ x̄2 ´ δ
z“ b 2 “ ´8.11 .
σ1 σ22
n1 ` n2
176 4. Pruebas de hipótesis

Con α “ 0.10 se tiene que zα{2 “ 1.65. Entonces |z| ě zα{2 y por lo tanto
se rechaza la hipótesis nula, es decir, las poblaciones de hombres y mujeres
muestran tiempos promedios diferentes para terminar la prueba escrita. ‚

4.3.4. Prueba para la varianza

Consideremos nuevamente una muestra aleatoria X1 , . . . , Xn proveniente de
n observaciones de una variable aleatoria con distribución normal con media
y varianza desconocidas. Nos interesa ahora encontrar un mecanismo para
probar la hipótesis de que la varianza σ 2 es igual a un valor especificado σ02
o no lo es. Es decir, las hipótesis que nos interesa contrastar son

H0 : σ 2 “ σ02 vs H1 : σ 2 ‰ σ02 ,
¨¨¨ vs H1 : σ 2 ă σ02 ,
¨¨¨ vs H1 : σ 2 ą σ02 .

Un mecanismo para encontrar una regla de decisión para estas pruebas hace
uso del resultado teórico que establece que la variable aleatoria

pn ´ 1qS 2
χ20 :“
σ02

tiene distribución χ2 pn ´ 1q cuando la varianza desconocida σ 2 es efectiva-

mente σ02 . Como antes, el término S 2 denota la varianza muestral, es decir,
n
2 1 ÿ
S “ pXi ´ X̄q2 .
n ´ 1 i“1

Para la prueba con hipótesis alternativa H1 : σ 2 ‰ σ02 , se rechaza la hipótesis

nula H0 cuando χ20 ą χ2α{2,n´1 o bien χ20 ă χ21´α{2,n´1 , en donde χ2α{2,n´1 es
el número real tal que la distribución ji-cuadrada con n´1 grados de libertad
acumula a la derecha probabilidad α{2. Análogamente, la probabilidad a
la derecha del número χ21´α{2,n´1 es 1 ´ α{2. Véase la Figura 4.9 para
una representación gráfica de estas cantidades, ası́ como de la región de
rechazo de esta prueba. En la página 208 aparece una tabla que muestra las
cantidades χ2α,n para algunos valores de los parámetros α y n. Los detalles
de esta prueba se encuentran en el recuadro siguiente:
4.3 Pruebas sobre la distribución normal 177

Prueba: H0 : σ 2 “ σ02 vs H1 : σ 2 ‰ σ02

Estadı́stica de prueba: χ20 “ pn ´ 1qS 2 {σ02
Región de rechazo: χ20 ą χ2α{2,n´1 o χ20 ă χ21´α{2,n´1
Error tipo I: α
Error tipo II: F pχ2α{2,n´1 ¨ σ02 {σ12 q ´ F pχ21´α{2,n´1 ¨ σ02 {σ12 q
para σ12 ‰ σ02 , en donde F es la función de
distribución de una v.a. χ2 pn ´ 1q.

f pxq

α{2 α{2
x
χ21´α{2,n´1 χ2α{2,n´1

Región de rechazo

Figura 4.9

Como antes, el error tipo I lo establece la persona que lleva a cabo la prueba
y es de magnitud α en las fórmulas anteriores. Comprobaremos ahora la
fórmula del error tipo II. Sea σ12 cualquier número positivo distinto de σ02 .
Calcularemos la probabilidad del error tipo II dado que el verdadero valor
de la varianza es σ12 .

βpσ12 q “ P p “No rechazar H0 ” | σ 2 “ σ12 q

pn ´ 1qS 2
“ P pχ21´α{2,n´1 ă ă χ2α{2,n´1 | σ 2 “ σ12 q
σ02
σ2 pn ´ 1qS 2 σ02 2
“ P pχ21´α{2,n´1 ¨ 02 ă ă χ 2
α{2,n´1 ¨ | σ “ σ12 q
σ1 σ12 σ12
“ F pχ2α{2,n´1 ¨ σ02 {σ12 q ´ F pχ21´α{2,n´1 ¨ σ02 {σ12 q,
178 4. Pruebas de hipótesis

en donde F es la función de distribución χ2 con n ´ 1 grados de libertad. La

prueba que tiene como hipótesis alternativa H1 : σ 2 ă σ02 tiene las siguientes
caracterı́sticas.

Prueba: H0 : σ 2 “ σ02 vs H1 : σ 2 ă σ02

Estadı́stica de prueba: χ20 “ pn ´ 1qS 2 {σ02
Región de rechazo: χ20 ă χ21´α,n´1
Error tipo I: α
Error tipo II: 1 ´ F pχ21´α,n´1 ¨ σ02 {σ12 q
para σ12 ă σ02 , en donde F es la función de
distribución de una v.a. χ2 pn ´ 1q.

Y finalmente para la prueba con hipótesis alternativa H1 : σ 2 ą σ02 se tienen

los siguientes resultados análogos.

Prueba: H0 : σ 2 “ σ02 vs H1 : σ 2 ą σ02

Estadı́stica de prueba: χ20 “ pn ´ 1qS 2 {σ02
Región de rechazo: χ20 ą χ2α,n´1
Error tipo I: α
Error tipo II: F pχ2α,n´1 ¨ σ02 {σ12 q
para σ12 ą σ02 , en donde F es la función de
distribución de una v.a. χ2 pn ´ 1q.

Con esto concluimos nuestra breve exposición sobre pruebas de hipótesis.

Existen muchas otras pruebas para rechazar o no rechazar muy diversas
hipótesis estadı́sticas que el lector interesado puede localizar en textos co-
mo [?] y [?] o en la literatura especializada en el área de interés.

Ejercicios
164. Se quiere estimar la estatura promedio de un grupo de personas supo-
niendo una distribución Npθ, σ 2 q, en donde θ es desconocido y σ 2 ą 0
es conocido. Se requieré un intervalo al 0.95 de confianza pero con una
longitud de 2 cm. ¿De qué tamaño debe ser la muestra para hacer esto
posible?
4.4 Lema de Neyman-Pearson 179

4.4. Lema de Neyman-Pearson

Sea X una variable aleatoria de interés para la cual se supone conocida su
función de densidad o de probabilidad f px; θq, pero ésta es dependiente de
un parámetro no conocido θ. Sea X1 , . . . , Xn una muestra aleatoria de esta
distribución. Nos interesa llevar a cabo la prueba

H0 : θ “ θ0 vs H1 : θ “ θ1 ,

en donde θ0 y θ1 son dos posibles valores del parámetro θ, y los cuales

suponemos fijos y conocidos. El siguiente resultado nos provee de la región
de rechazo óptima para esta prueba. La optimalidad se refiere a que, del
conjunto de todas las posibles regiones de rechazo de tamaño α, la que
establece el lemma de Neyman-Pearson es la que tiene probabilidad de error
tipo II más pequeña.

Proposición 4.1 (Lema de Neyman-Pearson1 ) Sea 0 ă α ă 1. La

región de rechazo de tamaño α más potente para el contraste de dos
hipótesis simples

H0 : θ “ θ0 vs H1 : θ “ θ1 ,

está dada por

Lpx1 , . . . , xn ; θ1 q
R “ tpx1 , . . . , xn q : ě cu, (4.1)
Lpx1 , . . . , xn ; θ0 q

en donde c es una constante que hace que esta región de rechazo sea de
tamaño α.

Demostración. Por brevedad en la escritura consideraremos únicamente

el caso continuo y escribiremos x en lugar del vector px1 , . . . , xn q. Conside-
rando la región de rechazo R definida en el enunciado, la probabilidad de
1
Jerzy Neyman (1894-1981), matemático y estadı́stico polaco.
1
Egon Sharpe Pearson (1895–1980), estadı́stico inglés. Hijo de Karl Pearson.
180 4. Pruebas de hipótesis

cometer el error tipo I es

ż
α “ P ppX1 , . . . , Xn q P R | θ “ θ0 q “ Lpx, θ0 q dx.
R

La probabilidad de cometer el error tipo II es

ż
β “ P ppX1 , . . . , Xn q P Rc | θ “ θ1 q “ Lpx, θ1 q dx.
Rc

Sea S cualquier otra región de rechazo de tamaño α y sea β 1 la corres-

R S

Figura 4.10

pondiente probabilidad de cometer el error tipo II. Véase la Figura 4.10.

Demostraremos que β 1 ě β. Por definición tenemos que

β 1 “ P ppX1 , . . . , Xn q P S c | θ “ θ1 q
ż
“ Lpx, θ1 q dx
Sc
ż
“ 1 ´ Lpx, θ1 q dx
„ż S ż  ż
“ Lpx, θ1 q dx ` Lpx, θ1 q dx ´ Lpx, θ1 q dx
R Rc
„ż ż  ż S
“ Lpx, θ1 q dx ´ Lpx, θ1 q dx ` Lpx, θ1 q dx
Rc
«żR S
ż ﬀ ż
“ Lpx, θ1 q dx ´ Lpx, θ1 q dx ` Lpx, θ1 q dx.
R´pRXSq S´pRXSq Rc
4.4 Lema de Neyman-Pearson 181

Como la primera integral se calcula para valores x dentro de la región de

rechazo R y la segunda se calcula fuera de esta región de rechazo, tenemos
que
«ż ż ﬀ ż
β1 ě c Lpx, θ0 q dx ´ Lpx, θ0 q dx ` Lpx, θ1 q dx
R´pRXSq S´pRXSq Rc
„ż ż  ż
“ c Lpx, θ0 q dx ´ Lpx, θ0 q dx ` Lpx, θ1 q dx.
R S Rc

Ahora observamos que las dos primeras integrales coinciden, con valor común
α, pues ésta es la probabilidad de cometer el error tipo I usando las regiones
de rechazo R y S. Por lo tanto,
ż
1
β ě Lpx, θ1 q dx “ β.
Rc

Observaciones:

a) El lema de Neyman-Pearsson se aplica tanto para distribuciones discretas

como continuas. Sin embargo, en el caso discreto podrı́a presentarse la
situación de no existencia de regiones de rechazo de tamaño exactamente
un valor particular de α.

b) El parámetro θ en el enunciado del lema de Neyman-Pearson puede ser

un vector de parámetros.

Ejemplo 4.5 Sea X una variable aleatoria con distribución Npµ, σ 2 q, en

donde µ es desconocido pero σ 2 es conocida. Supongamos que deseamos
tomar una decisión respecto del parámetro desconocido µ de acuerdo al
siguiente contraste de hipótesis simples

H0 : µ “ µ0 vs H1 : µ “ µ1 .

Supondremos que los valores µ0 y µ1 son fijos, conocidos y, sin pérdida de

generalidad, consideraremos que guardan la relación µ0 ă µ1 . Con base en
una muestra aleatoria X1 , . . . , Xn de esta distribución y usando el lema de
182 4. Pruebas de hipótesis

Neyman-Pearson, encontraremos la región de rechazo óptima de tamaño α.

Tenemos que
ˆ ˙n{2 n
1 1 ÿ
Lpx, µ0 q “ exp p´ pxi ´ µ0 q2 q,
2πσ 2 2σ 2 i“1
ˆ ˙n{2 n
1 1 ÿ
Lpx, µ1 q “ exp p´ 2 pxi ´ µ1 q2 q.
2πσ 2 2σ i“1

Por lo tanto, el cociente de verosimilitudes (4.1) es

˜ ˜ ¸¸
n
Lpx, µ1 q 1 ÿ
“ exp ´ 2 pxi ´ µ1 q2 ´ pxi ´ µ0 q2
Lpx, µ0 q 2σ i“1
ˆ ˙
1 ` 2 2
˘
“ exp ´ 2 npµ1 ´ µ0 q ´ 2nx̄pµ1 ´ µ0 q .
2σ

Después de algunos cálculos sencillos puede comprobarse que la condición

de que la expresión anterior sea mayor o igual a una constante es equivalente
a la condición x̄ ě c, para alguna constante c. La región de rechazo óptima
es entonces
R “ tpx1 , . . . , xn q : x̄ ě c u.
Ahora resta encontrar el valor de la constante c que hace que esta región de
rechazo sea de tamaño α, es decir, c debe ser tal que

α “ P pX̄ ě c | µ “ µ0 q
X̄ ´ µ0 c ´ µ0
“ Pp ? ě ? q
σ{ n σ{ n
c ´ µ0
“ P pZ ě ? q
σ{ n
c ´ µ0
“ 1 ´ Φp ? q.
σ{ n

Si z1´α denota el cuantil al 100p1 ´ αq % en la distribución normal estándar,

?
entonces tenemos que pc ´ µ0 q n{σ “ z1´α , es decir,
σ
c “ µ0 ` ? z1´α .
n
4.4 Lema de Neyman-Pearson 183

Por otro lado, la probabilidad de cometer el error tipo II es

c ´ µ1
β “ P pX̄ ă c | µ “ µ1 q “ Φp ? q.
σ{ n
En resumen, para llevar a cabo la prueba

H0 : µ “ µ0 vs H1 : µ “ µ1 ,

para una población Npµ, σ 2 q en donde σ 2 es conocida y µ0 ă µ1 , la región

de rechazo más potente al nivel α está dada por

R “ tpx1 , . . . , xn q : x̄ ě cu,
?σ c´µ
en donde c “ µ0 ` n
z1´α , con β “ Φp σ{ ? 1 q. Véase el Ejercicio 168 para
n
esta misma prueba pero cuando σ 2 es desconocida.

apθq bpxq cpθq

Hipótesis Región de rechazo α β

c´µ
`n˘
Npµ, σ 2 q R “ tpx1 , . . . , xn q : x̄ ě c u. x β “ Φp σ{ ? 1 q.
n

Ejemplo 4.6 (Distribución Poisson) Sea X una variable aleatoria con

distribución Poissonpθq, en donde el parámetro θ ą 0 es desconocido. Nos
interesa estimar el valor de θ mediante el contraste de hipótesis simples

H0 : θ “ θ0 vs H1 : θ “ θ1 ,

en donde 0 ă θ0 ă θ1 son dos valores fijos y conocidos. Usaremos el lema

de Neyman-Pearson para encontrar la región de rechazo de tamaño α más
potente. Tenemos que el cociente de verosimilitudes (4.1) es
Lpx, θ1 q e´θ1 θ1x1 {x1 ! ¨ ¨ ¨ e´θ1 θ1xn {xn !
“
Lpx, θ0 q e´θ0 θ0x1 {x1 ! ¨ ¨ ¨ e´θ0 θ0xn {xn !
“ e´npθ1 ´θ0 q pθ1 {θ0 qnx̄ .
184 4. Pruebas de hipótesis

Después de algunos cálculos sencillos puede comprobarse que la condición

de que la expresión anterior sea mayor o igual a una constante es equivalente
a la condición nx̄ ě c, para alguna constante c. La región de rechazo óptima
es entonces
R “ tpx1 , . . . , xn q : nx̄ ě c u,
en donde la constante c es tal que la probabilidad de cometer el error tipo
I es α, es decir, c es tal que

α “ P pnX̄ ě c | θ “ θ0 q
“ P pZ0 ě cq,

en donde Z0 tiene distribución Poissonpnθ0 q. Observe que, como Z0 es una

variable aleatoria discreta, es posible que la identidad anterior no se cumpla
de manera exacta, de modo que se toma el valor entero c más pequeño tal
que P pZ0 ě cq ď α. La probabilidad de cometer el error tipo II es

β “ P pnX̄ ă c | θ “ θ1 q
“ P pZ1 ă cq,

en donde, ahora, Z1 tiene distribución Poissonpnθ1 q. ‚

Ejercicios
165. Cambio de orden en las hipótesis. Suponiendo θ0 ă θ1 y un valor de
α P p0, 1q dado, el lemma de Neyman-Pearson establece la región de
rechazo R con probabilidad β mı́nima para el contraste de las hipótesis
simples
H0 : θ “ θ0 vs H1 : θ “ θ1 .
Suponga ahora el caso θ0 ą θ1 . Encuentre la región de rechazo óptima
para esta prueba y las probabilidades de error tipo I y II en términos
de α y β.

166. Distribución Bernoulli. Sea X1 , . . . , Xn una muestra aleatoria de la

distribución Berpθq, en donde θ P p0, 1q es desconocido. Sea α P p0, 1q.
4.4 Lema de Neyman-Pearson 185

Encuentre la región de rechazo óptima de tamaño α para el contraste

de hipótesis simples

H0 : θ “ θ 0 vs H1 : θ “ θ 1 ,

en donde θ0 y θ1 son dos valores parametrales fijos, conocidos y tales

que 0 ă θ0 ă θ1 ă 1. Calcule además la probabilidad de cometer el
error tipo II.

167. Distribución exponencial. Sea X1 , . . . , Xn una muestra aleatoria de la

distribución exppθq, en donde θ ą 0 es desconocido. Sea α P p0, 1q.
Encuentre la región de rechazo óptima de tamaño α para el contraste
de hipótesis simples

H0 : θ “ θ 0 vs H1 : θ “ θ 1 ,

en donde θ0 y θ1 son dos valores parametrales fijos, conocidos y tales

que 0 ă θ0 ă θ1 . Calcule además la probabilidad de cometer el error
tipo II.

168. Distribución normal. Sea X1 , . . . , Xn una muestra aleatoria de la

distribución Npµ, σ 2 q en donde µ es desconocido y supongamos que σ 2
es conocida. Sea α P p0, 1q. Encuentre la región de rechazo óptima de
tamaño α para el contraste de hipótesis simples

H0 : µ “ µ0 vs H1 : µ “ µ1 ,

en donde µ0 y µ1 son dos valores fijos, conocidos y tales que µ0 ă µ1 .

Calcule además la probabilidad de cometer el error tipo II.
Sugerencia: use el hecho de que

X̄ ´ µ
? „ tpn ´ 1q.
S{ n
186 4. Pruebas de hipótesis

4.5. Función potencia

Definición 4.6 La función potencia de una prueba de hipótesis sobre

un parámetro desconocido θ es la función

πpθq “ P pRechazar H0 | θq.

Es decir, la función potencia es la probabilidad de rechazar la hipótesis

nula H0 para cada posible valor del parámetro θ. Esta función sirve para
comparar dos pruebas o para ... Cuando se contrastan dos hipótesis simples
H0 : θ “ θ0 vs H1 : θ “ θ1 , las dos probabilidades de error se pueden
expresar en términos de la función potencia como sigue
α “ πpθ0 q,
β “ 1 ´ πpθ1 q.

Ejemplo 4.7 Para la distribución Berpθq con θ P p0, 1q consideremos nue-

vamente el contraste de hipótesis simples
H0 : θ “ 1{2 vs H1 : θ “ 7{12,
junto con la región de rechazo R “ tpx1 , . . . , xn q : x̄ ě 13{24u. La función
potencia de esta región de rechazo se puede aproximar usando el teorema
central del lı́mite de la siguiente manera
πpθq “ P pX̄ ě 13{24 | θq
13{24 ´ θ
« 1 ´ Φp a q.
θp1 ´ θq{n
La gráfica de esta función se muestra en la Figura 4.11.
‚

Ejercicios
169. —
4.5 Función potencia 187

πpθq

1 b
b

b
b
θ
1{2 1

Figura 4.11
188 4. Pruebas de hipótesis
Apéndice A

Distribuciones tipo
exponencial

En esta sección se define una colección amplia de distribuciones de pro-

babilidad llamada familia exponencial. Esta familia agrupa a varias de las
distribuciones de probabilidad discretas y continuas más conocidas, todas
ellas compartiendo una misma forma para la función de densidad o de pro-
babilidad. Se considera primero el caso cuando sólo hay un parámetro in-
volucrado θ y después cuando la distribución depende de varios parámetros
pθ1 , . . . , θk q. En la Proposición A.1 se muestra un resultado general e impor-
tante que establece la completez y suficiencia minimal para cierta estadı́stica
construida a partir de la expresión de una distribución en la familia expo-
nencial.

Definición A.1 Una variable aleatoria X tiene distribución tipo expo-

nencial si su función de probabilidad o de densidad, dependiente de un
parámetro θ, es de la forma

f px; θq “ apθq bpxq ecpθq dpxq , ´8 ă x ă 8, (A.1)

en donde apθq ě 0, bpxq ě 0, cpθq y dpxq son funciones reales que depen-
den únicamente de los argumentos indicados.

189
190 A. Distribuciones tipo exponencial

Como hemos señalado antes, la familia de distribuciones tipo exponencial

incluye distribuciones tipo discreto y continuo, y debido a que las funciones
apθq, bpxq, cpθq y dpxq dependen sólamente de los argumentos indicados, el
soporte de la distribución no depende del parámetro θ. Es claro que este
soporte está determinado únicamente por la función bpxq. La expresión de la
fórmula (A.1) justifica el término exponencial en el nombre de esta familia
de distribuciones En la siguiente tabla se muestran algunos ejemplos de
distribuciones particulares que pertenecen a la familia exponencial.

apθq bpxq cpθq dpxq

θ
Berpθq 1´θ 1 ln 1´θ x
`n˘ θ
binpn, θq p1 ´ θqn x ln 1´θ x
1
Poissonpθq e´θ x! ln θ x
geopθq θ 1 ln p1 ´ θq x
θ k
`k`x´1˘
bin negpk, θq p 1´θ q k´1 ln p1 ´ θq k`x
2 {2σ 2 2 {2σ 2
Npθ, σ 2 q ?1 e´θ 1
e´x θ
x
2π σ σ2
1 2 {2θ 2
Npµ, θq θ e´µ ?1
2π
1
θ2
´ 21 px ´ µq2
λθ 1
gammapθ, λq Γpθq x e´λx θ ln x
θγ
gammapγ, θq Γpγq xγ´1 ´θ x

Por simplicidad en las expresiones no hemos escrito la forma completa de

la función bpxq en cada caso. Por ejemplo, para la distribución Bernoulli se
˘ “ 1 ¨ 1t0,1u pxq, mientras que para la distribución bino-
debe escribir `bpxq
mial bpxq “ nx ¨ 1t0,1,...,nu pxq, indicando ası́ el soporte de la distribución.
Observemos que en la tabla anterior aparecen distribuciones que dependen
de dos parámetros. En estos casos se considera que la distribución depende
del parámetro θ, entendiendo que el segundo parámetro, indicado con otra
letra, es constante y conocido. Substituyendo las expresiones mostradas en
la tabla para las funciones apθq, bpxq, cpθq y dpxq puede comprobarse en
191

cada caso que se obtiene la función de probabilidad o de densidad f px; θq

correspondiente, de acuerdo a la notación usada en este texto.

Ejemplo A.1 (No unicidad en la representación.) Es interesante ob-

servar que la representación (A.1) no es única. Por ejemplo, para cada valor
k “ 0, 1, . . . las expresiones que aparecen abajo producen la función de pro-
babilidad geopθq.

apθq “ θ{p1 ´ θqk ,

bpxq “ 1,
cpθq “ ln p1 ´ θq,
dpxq “ k ` x.

Ejemplo A.2 Toda distribución dependiente de un parámetro θ cuyo so-

porte dependa de este parámetro no es de tipo exponencial. ‚

Ahora consideraremos el caso cuando la distribución tipo exponencial de-

pende de varios parámetros.

Definición A.2 Una variable aleatoria X tiene distribución tipo expo-

nencial si su función de probabilidad o de densidad, dependiente de un
vector de k parámetros θ “ pθ1 , . . . , θk q, es de la forma

f px; θq “ apθq bpxq ecpθq¨dpxq , ´8 ă x ă 8,

en donde apθq “ apθ1 , . . . , θk q ě 0 y bpxq ě 0 son funciones reales

que dependen únicamente de los argumentos indicados, y cpθq “
pc1 pθq, . . . , ck pθqq y dpxq “ pd1 pxq, . . . , dk pxqq son funciones vectoriales.
La expresión cpθq ¨ dpxq indica el producto punto de estos vectores y
f px; θq adquiere entonces la forma
řk
f px; θ1 , . . . , θk q “ apθ1 , . . . , θk q bpxq e j“1 cj pθ1 ,...,θk q dj pxq .
192 A. Distribuciones tipo exponencial

En la siguiente tabla se muestran algunos ejemplos de distribuciones tipo

exponencial dependientes de dos parámetros.

apθ1 , θ2 q bpxq c1 pθ1 , θ2 q c2 pθ1 , θ2 q d1 pxq d2 pxq

θ
θ2 1 1
gammapθ1 , θ2 q Γpθ1 q x θ1 ln x ´θ2 x
2 2 θ1
Npθ1 , θ2 q ?1 e´θ1 {2θ2 1 ´ 2θ12 x x2
2πθ22 θ22 2

Es inmediato comprobar que substituyendo las expresiones de las funciones

a, b, c1 , c2 , d1 y d2 indicadas en la tabla se obtiene la correspondiente función
de densidad, según la notación usada en este texto para estas distribuciones.
En particular, las distribuciones gamma y normal pertenecen a la familia
exponencial considerando un parámetro a la vez, o ambos parámetros al
mismo tiempo. Nuevamente, por simplicidad, hemos omitido la expresión
completa para bpxq. Tal función debe especificar el soporte de la distribución.

Ejemplo A.3 La distribución bin negpk, pq no pertenece a la familia expo-

nencial biparamétrica. ‚

El siguiente resultado muestra explı́citamente la existencia de una estadı́sti-

ca suficiente minimal y completa para el vector de parámetros de toda dis-
tribución dentro de la familia exponencial.

Proposición A.1 Sea X1 , . . . , Xn una muestra aleatoria de una distri-

bución tipo exponencial dependiente de k parámetros pθ1 , . . . , θk q. El
vector de estadı́sticas T especificado abajo es una estadı́stica suficiente
minimal y completa para pθ1 , . . . , θk q.
n
ÿ n
ÿ
T “p d1 pXi q, . . . , dk pXi qq
i“1 i“1
193

Demostración.
Suficiencia minimal. Observemos primero que se puede demostrar la su-
ficiencia (sin la propiedad de minimalidad) directamente de la definición,
o bien mediante el teorema de factorización. Conjuntamente, la suficiencia
y la minimalidad se obtienen del siguiente argumento: sean x1 , . . . , xn y
y1 , . . . , yn dos posibles valores de la muestra aleatoria, no necesariamente
distintos, y sea θ “ pθ1 , . . . , θk q. Es inmediato comprobar que
˜ ¸
n
f px1 , . . . , xn ; θq ź bpxi q řn řn
“ ecpθq r i“1 dpxi q´ i“1 dpyi qs
f py1 , . . . , yn ; θq bpyi q
˜ i“1 ¸
n
ź bpxi q
“ ecpθq rT px1 ,...,xn q´T py1 ,...,yn qs .
i“1
bpy i q

Esta cantidad no depende θ si y sólo si el exponente es nulo para cualquier

posible valor de θ. Esto lleva a la condición T px1 , . . . , xn q “ T py1 , . . . , yn q.
Por el Teorema 2.6 concluimos que T es suficiente minimal conjunta para θ.
Completez. Sea h una función tal que ErhpT qs “ 0. Siendo T un vector de k
entradas, la función h debe estar definida en aquella región de Rk en donde
T toma sus valores. Más explı́citamente,
ż
hptq
Rn

Ejemplo A.4

a) En el caso de Berpθq tenemos que dpxq “ x. Por lo tanto, la estadı́stica

T “ X1 ` ¨ ¨ ¨ ` Xn es suficiente minimal y completa para θ.

b) En el caso Npθ1 , θ2 q tenemos que d1 pxq “ x y d2 pxq “ x2 . Por lo tanto,

la estadı́stica T “ pX1 ` ¨ ¨ ¨ ` Xn , X12 ` ¨ ¨ ¨ ` Xn2 q es suficiente minimal
y completa para pθ1 , θ2 q.

‚
194 A. Distribuciones tipo exponencial

Ejercicios
170. Demuestre la propiedad de suficiencia de la estadı́stica que aparece en
la Proposición A.1 usando

a) la definición.
b) el teorema de factorización de Neyman.
195

-
196 A. Distribuciones tipo exponencial
Apéndice B

Fórmulas varias

Notación

N Conjunto de números naturales 1, 2, 3, . . .

Z Conjunto de números enteros 0, ˘1, ˘2, ˘3, . . .
Q Conjunto de números racionales a{b en donde a, b P Z con b ‰ 0.
R Conjunto de números reales.
x` máxtx, 0u.
x´ mı́ntx, 0u.
f px`q Lı́mite por la derecha de la función f en el punto x.
f px´q Lı́mite por la izquierda de la función f en el punto x.
x ÞÑ f pxq Función f pxq.
:“ Se define como.

197
198 B. Fórmulas varias

El alfabeto griego

Aα alfa Iι iota P ρ, ̺ ro
Bβ beta Kκ kapa Σ σ, ς sigma
Γγ gamma Λλ lambda T τ tau
∆δ delta M µ mu Υυ upsilon
E ǫ, ε epsilon Nν nu Φ φ, ϕ fi
Zζ zeta Ξξ xi X χ ji
H η eta Oo omicron Ψψ psi
Θ θ, ϑ teta Ππ pi Ωω omega

Exponentes
a) x1 “ x.

b) x0 “ 1, x ‰ 0.
1
c) x´1 “ , x ‰ 0.
x
d) xn xm “ xn`m .

xn
e) “ xn´m .
xm
f) pxn qm “ xnm .

g) pxyqn “ xn y n .
ˆ ˙n
x xn
h) “ n.
y y

1
i) x´n “ , x ‰ 0.
xn
?
j) xm{n “ n xm .
199

Logaritmos
a) log ab “ log a ` log b.
a
b) log “ log a ´ log b.
b
c) log an “ n log a.
? 1
d) log n
a“ log a.
n
e) log 1 “ 0.

f) loga a “ 1.

Identidades trigonométricas
a) sen2 x ` cos2 x “ 1.

b) senpx ˘ yq “ sen x cos y ˘ cos x sen y.

c) cospx ˘ yq “ cos x cos y ¯ sen x sen y.

?
d) cosparc sen xq “ senparc cos xq “ 1 ´ x2 si ´1 ď x ď 1.

Fórmulas para sumas

n
ÿ
a) xk “ xm ` xm`1 ` ¨ ¨ ¨ ` xn , m ď n.
k“m

n
ÿ
b) c “ nc, c constante.
k“1

n
ÿ npn ` 1q
c) k“ .
k“1
2
n
ÿ npn ` 1qp2n ` 1q
d) k2 “ .
k“1
6
200 B. Fórmulas varias

n „ 2
ÿ npn ` 1qp2n ` 1q
e) k3 “ .
k“1
2

n
ÿ am ´ an`1
f) ak “ , a ‰ 1.
k“m
1´a

8
ÿ xk
g) “ ex , x P R.
k“0
k!

n ˆ ˙
ÿ n k n´k
h) a b “ pa ` bqn , a, b P R, n P N.
k“0
k

8
ÿ 1
i) es divergente.
k“1
k

8
ÿ p´1qk`1
j) “ ln 2.
k“1
k

8
ÿ 1 π2
k) “ (Fórmula de Euler).
k“1
k2 6

8 ˆ ˙
ÿ a x
l) t “ p1 ` tqa , |t| ă 1, a P R.
x“0
x

Fórmulas de derivación
d
a) c “ 0, c constante.
dx
d
b) x “ 1.
dx
d n
c) x “ nxn´1 .
dx
d x
d) e “ ex .
dx
201

d 1
e) ln x “ .
dx x
d
f) sen x “ cos x.
dx
d
g) cos x “ ´ sen x.
dx
d
h) tan x “ ´ sec2 x.
dx
d 1
i) arc sen x “ ? .
dx 1 ´ x2
d 1
j) arc cos x “ ´ ? .
dx 1 ´ x2
d
k) rf pxq ˘ gpxqs “ f 1 pxq ˘ g 1 pxq.
dx
d
l) rf pxq gpxqs “ f pxq g 1 pxq ` f 1 pxq gpxq.
dx
d f pxq gpxqf 1 pxq ´ f pxqg 1 pxq
m) “ .
dx gpxq g 2 pxq
d
n) f pgpxqq “ f 1 pgpxqq g 1 pxq (Regla de la cadena).
dx

Fórmulas de integración
ż ż
a) df pxq “ f 1 pxq dx “ f pxq ` c.
ż ż
b) c dx “ c dx, c constante.

xn`1
ż
c) xn dx “ ` c, n ‰ ´1.
n`1
ż
dx
d) “ ln x ` c.
x
202 B. Fórmulas varias

1 ax
ż
e) eax dx “ e ` c.
a

ż
f) ln x dx “ x ln x ´ x ` c.

ż
g) sen x dx “ ´ cos x ` c.

ż
h) cos x dx “ sen x ` c.

ż ż
i) u dv “ uv ´ v du (Integración por partes).

El lema de Abel
ř8
Sea a0 , a1 , . . . una sucesión de números reales o complejos
ř8 tal que n“0 an
n
es convergente. Entonces la función real Gptq “ n“0 an t es continua por
la izquierda en t “ 1, es decir,

8
ÿ
lı́m Gptq “ an .
tÕ1
n“0

Fórmula de Stirling
Para n grande,
?
n! « 2π nn`1{2 e´n .
203

n n! Stirling
1 1 0.92
2 2 1.91
3 6 5.83
4 24 23.50
5 120 118.01
6 720 710.07
7 5040 4980.39
8 40320 39902.39
¨¨¨ ¨¨¨ ¨¨¨

Notación o-pequeña
Se dice que una función f pxq, definida en un intervalo no trivial alrededor
del cero, es o-pequeña de x cuando x Ñ 0 si
f pxq
lı́m “ 0.
xÑ0 x

Esto siginifca que la función f pxq tiende a cero cuando x Ñ 0 más rápi-
damente de lo que lo hace x Ñ 0. Las funciones f pxq “ xk con k ě 2 son
ejemplos de funciones opxq cuando x Ñ 0, y se escribe f pxq “ opxq cuando
x Ñ 0.

Puntos crı́ticos para funciones de varias variables

Sea f px, yq una función real definida sobre un rectángulo pa, bq ˆ pc, dq de
R2 y cuyas derivadas de segundo orden son continuas en pa, bq ˆ pc, dq. Se
dice que f px, yq tiene un punto crı́tico en px0 , y0 q si
Bf
px0 , y0 q “ 0,
Bx
Bf
px0 , y0 q “ 0.
By
Antes de explicar la manera en la que se determina si un punto crı́tico es
un máximo o un mı́nimo, vamos a definir primero los menores principales
204 B. Fórmulas varias

de una matriz cuadrada. Sea A “ paij q una matriz de n ˆ n y sea k un

entero tal que 1 ď k ď n. El menor principal de orden k se define como el
determinante de la submatriz cuadrada paij q, i, j “ 1, . . . , k, esto es
a11 “ Primer menor principal pk “ 1q
ˇ ˇ
ˇ a11 a12 ˇ
ˇ a21 a22 ˇ “ Segundo menor principal pk “ 2q
ˇ ˇ

..
.
|A| “ n-ésimo menor principal pk “ nq.
Para la función f px, yq considerada antes, se define la matriz hessiana como
la matriz simétrica
¨ 2
B2 f
˛
B f
˚ Bx2 px, yq BxBy px, yq ‹
Hpx, yq “ ˚ 2 ‹. (B.1)
˚ ‹
˝ B f 2
B f ‚
px, yq px, yq
ByBx By 2
Condiciones para un máximo. La función f px, yq tiene un máximo en px0 , y0 q
si la matriz Hpx0 , y0 q es tal que todos sus menores principales de orden impar
son negativos y todos sus menores principales de orden par son positivos.
Para la matriz (B.1) esto se reduce a las desigualdades
B2 f
px0 , y0 q ă 0 y |Hpx0 , y0 q| ą 0.
Bx2
Estas condiciones son equivalentes a solicitar que la matriz Hpx0 , y0 q sea
negativa definida. Ello significa que se debe cumplir lo siguiente:
a) px, yqHpx0 , y0 q p xy q ď 0 para todo px, yq P R2 .
b) px, yqHpx0 , y0 q p xy q “ 0 ô px, yq “ p0, 0q.
Condiciones para un mı́nimo. La función f px, yq tiene un mı́nimo en px0 , y0 q
si la matriz Hpx0 , y0 q es tal que todos sus menores principales son positivos.
En el caso de la matriz (B.1) esto se reduce a las desigualdades
B2 f
px0 , y0 q ą 0 y |Hpx0 , y0 q| ą 0.
Bx2
Estas condiciones son equivalentes a solicitar que la matriz Hpx0 , y0 q sea
positiva definida. Esto significa que se debe cumplir lo siguiente:
205

a) px, yqHpx0 , y0 q p xy q ě 0 para todo px, yq P R2 .

b) px, yqHpx0 , y0 q p xy q “ 0 ô px, yq “ p0, 0q.

206 B. Fórmulas varias

Tabla de la distribución normal estándar

x
żx
1 2 {2
Φpxq “ P pX ď xq “ ? e´t dt
2π ´8

x 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09

0.0 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359
0.1 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753
0.2 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.6141
0.3 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.6517
0.4 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.6879

0.5 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.7224
0.6 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.7549
0.7 0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 0.7852
0.8 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.8133
0.9 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 0.8399

1.0 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.8621
1.1 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 0.8830
1.2 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997 0.9015
1.3 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.9177
1.4 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319

1.5 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.9441
1.6 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545
1.7 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633
1.8 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706
1.9 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767

2.0 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.9817
2.1 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.9857
2.2 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.9890
2.3 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.9916
2.4 0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.9936

2.5 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.9952
2.6 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 0.9964
2.7 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.9974
2.8 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.9981
2.9 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.9986

3.0 0.9987 0.9987 0.9987 0.9988 0.9988 0.9989 0.9989 0.9989 0.9990 0.9990
3.1 0.9990 0.9991 0.9991 0.9991 0.9992 0.9992 0.9992 0.9992 0.9993 0.9993
3.2 0.9993 0.9993 0.9994 0.9994 0.9994 0.9994 0.9994 0.9995 0.9995 0.9995
3.3 0.9995 0.9995 0.9995 0.9996 0.9996 0.9996 0.9996 0.9996 0.9996 0.9997
3.4 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9998
207

Tabla de la distribución tpnq

tα,n
P pX ě tα,n q “ α

n z α 0.005 0.01 0.025 0.05 0.1

1 63.657 31.821 12.706 6.314 3.078

2 9.925 6.965 4.303 2.920 1.886
3 5.841 4.541 3.182 2.353 1.638
4 4.604 3.474 2.776 2.132 1.533
5 4.032 3.365 2.571 2.015 1.476
6 3.707 3.143 2.447 1.943 1.440
7 3.499 2.998 2.365 1.895 1.415
8 3.355 2.896 2.306 1.860 1.397
9 3.250 2.821 2.262 1.833 1.383
10 3.169 2.764 2.228 1.812 1.372
11 3.106 2.718 2.201 1.796 1.363
12 3.055 2.681 2.179 1.782 1.356
13 3.012 2.650 2.160 1.771 1.350
14 2.977 2.624 2.145 1.761 1.345
15 2.947 2.602 2.131 1.753 1.341
16 2.291 2.583 2.120 1.746 1.337
17 2.898 2.567 2.110 1.740 1.333
18 2.878 2.552 2.101 1.734 1.330
19 2.861 2.539 2.093 1.729 1.328
20 2.845 2.528 2.086 1.725 1.325
21 2.831 2.518 2.080 1.721 1.323
22 2.819 2.508 2.074 1.717 1.321
23 2.807 2.500 2.069 1.714 1.319
24 2.797 2.492 2.064 1.711 1.318
25 2.787 2.485 2.060 1.708 1.316
26 2.779 2.479 2.056 1.706 1.315
27 2.771 2.473 2.052 1.703 1.314
28 2.763 2.467 2.048 1.701 1.313
29 2.756 2.462 2.045 1.699 1.311
8 2.576 2.326 1.960 1.645 1.282
208 B. Fórmulas varias

Tabla de la distribución χ2 pnq

χ2α,n
P pX ě χ2α,n q “ α

n z α 0.995 0.990 0.975 0.950 0.900 0.100 0.050 0.025 0.010 0.005

1 0.0 0.0 0.0 0.0 0.02 2.71 3.84 5.02 6.63 7.88
2 0.01 0.02 0.05 0.10 0.21 4.61 5.99 7.38 9.21 10.60
3 0.07 0.11 0.22 0.35 0.58 6.25 7.81 9.35 11.34 12.84
4 0.21 0.30 0.48 0.71 1.06 7.78 9.49 11.14 13.28 14.86
5 0.41 0.55 0.83 1.15 1.61 9.24 11.07 12.83 15.09 16.75
6 0.68 0.87 1.24 1.64 2.20 10.65 12.59 14.45 16.81 18.55
7 0.99 1.24 1.69 2.17 2.83 12.02 14.07 16.01 18.48 20.28
8 1.34 1.65 2.18 2.73 3.49 13.36 15.51 17.53 20.09 21.96
9 1.73 2.09 2.70 3.33 4.17 14.68 16.92 19.02 21.67 23.59
10 2.16 2.56 3.25 3.94 4.87 15.99 18.31 20.48 23.21 25.19
11 2.60 3.05 3.82 4.57 5.58 17.28 19.68 21.92 24.72 26.76
12 3.07 3.57 4.40 5.23 6.30 18.55 21.03 23.34 26.22 28.30
13 3.57 4.11 5.01 5.89 7.04 19.81 22.36 24.74 27.69 29.82
14 4.07 4.66 5.63 6.57 7.79 21.06 23.68 26.12 29.14 31.32
15 4.60 5.23 6.27 7.26 8.55 22.31 25.00 27.49 30.58 32.80
16 5.14 5.81 6.91 7.96 9.31 23.54 26.30 28.85 32.00 34.27
17 5.70 6.41 7.56 8.67 10.09 24.77 27.59 30.19 33.41 35.72
18 6.26 7.01 8.23 9.39 10.87 25.99 28.87 31.53 34.81 37.16
19 6.84 7.63 8.91 10.12 11.65 27.20 30.14 32.85 36.19 38.58
20 7.43 8.26 9.59 10.85 12.44 28.41 31.41 34.17 37.57 40.00
21 8.03 8.90 10.28 11.59 13.24 29.62 32.67 35.48 38.93 41.40
22 8.64 9.54 10.98 12.34 14.04 30.81 33.92 36.78 40.29 42.80
23 9.26 10.20 11.69 13.09 14.85 32.01 35.17 38.08 41.64 44.18
24 9.89 10.86 12.40 13.85 15.66 33.20 36.42 39.36 42.98 45.56
25 10.52 11.52 13.12 14.61 16.47 34.28 37.65 40.65 44.31 46.93
26 11.16 12.20 13.84 15.38 17.29 35.56 38.89 41.92 45.64 48.29
27 11.81 12.88 14.57 16.15 18.11 36.74 40.11 43.19 46.96 46.95
28 12.46 13.57 15.31 16.93 18.94 37.92 41.34 44.46 48.28 50.99
29 13.12 14.26 16.05 17.71 19.77 39.09 42.56 45.72 49.59 52.34
30 13.79 14.95 16.79 18.49 20.60 40.26 43.77 46.98 50.89 53.67
40 20.71 22.16 24.43 26.51 29.05 51.81 55.76 59.34 63.69 66.77
50 27.99 29.71 32.36 34.76 37.69 63.17 67.50 71.42 76.15 79.49
60 35.53 37.48 40.48 43.19 46.46 74.40 79.08 83.30 88.38 91.95
70 43.28 45.44 48.76 51.74 55.33 85.53 90.53 95.02 100.42 104.22
80 51.17 53.54 57.15 60.39 64.28 96.58 101.88 106.63 112.33 116.32
90 59.20 61.75 65.65 69.13 73.29 107.57 113.14 118.14 124.12 128.30
100 67.33 70.06 74.22 77.93 82.36 118.50 124.34 129.56 135.81 140.17
209

Tabla de distribuciones discretas

Función de
Distribución probabilidad Parámetros Esperanza

1
řn
Uniforme f pxq “ 1{n x1 , . . . , xn P R n i“1 xi
discreta para x “ x1 , . . . , xn n “ 1, 2 . . .

Bernoulli f pxq “ px p1 ´ pq1´x 0ăpă1 p

para x “ 0, 1

f pxq “ nx px p1 ´ pq1´x
` ˘
Binomial n “ 1, 2, . . . np
para x “ 0, 1, . . . , n 0ăpă1

1´p
Geométrica f pxq “ pp1 ´ pqx 0ăpă1 p
para x “ 0, 1, . . .

rp1´pq
f pxq “ r`x´1
` ˘ r
Binomial x p p1 ´ pqx r “ 1, 2, . . . p
negativa para x “ 0, 1, . . . 0ăpă1

´K
pKx qpNn´x q nK
Hipergeométrica f pxq “ K “ 1, 2, . . .
pnq
N N

para x “ 0, 1, . . . , n N ´ K “ 1, 2, . . .
n ď mı́ntK, N ´ Ku

x
Poisson f pxq “ e´λ λx! λą0 λ
para x “ 0, 1, . . .
210 B. Fórmulas varias

Momentos Función generadora Función generadora

Varianza EpX k q de probabilidad EptX q de momentos EpetX q

1
řn 1
řn 1
řn 1
řn
n i“1 pxi ´ µq2 n i“1 xki n i“1 tx i n i“1 etxi

pp1 ´ pq p 1 ´ p ` pt 1 ´ p ` pet

npp1 ´ pq [1] p1 ´ p ` ptqn p1 ´ p ` pet qn

1´p p p
p2 [1] 1´p1´pqt 1´p1´pqet
si |t| ă 1{p1 ´ pq si |t| ă ´ lnp1 ´ pq

rp1´pq p p
p2 [1] p 1´p1´pqt qr p 1´p1´pqetq
r

si |t| ă 1{p1 ´ pq si |t| ă ´ lnp1 ´ pq

N ´K N ´n
nK
N N N ´1 [1] [2] [2]

t
´1q
λ [3] eλpt´1q eλpe

[1] No existe una fórmula compacta.

[2] La definición de esta función no produce una fórmula reducida.
[3] Vea una fórmula recursiva en la página —
211

Tabla de distribuciones continuas

Distribución Función de densidad Parámetros Esperanza

1 a`b
Uniforme f pxq “ b´a aăb 2
continua para x P pa, bq

1
Exponencial f pxq “ λe´λx λą0 λ
para x ą 0

pλxqα´1 ´λx α
Gamma f pxq “ Γpαq λe αą0 λ
para x ą 0 λą0

1 a´1 a
Beta f pxq “ Bpa,bq x p1 ´ xqb´1 aą0 a`b
para 0 ă x ă 1 bą0

α Γp1`1{αq
Weibull f pxq “ λαpλxqα´1 e´pλxq αą0 λ
para x ą 0 λą0

2 2
Normal f pxq “ ? 1 e´px´µq {2σ ´8 ă µ ă 8 µ
2πσ 2
2
para ´8 ă x ă 8 σ ą0

1
Ji-cuadrada f pxq “ 2n{2 Γpn{2q
xn{2´1 e´x{2 ną0 n
para x ą 0

Γppn`1q{2q x2 ´pn`1q{2
t f pxq “ ?
nπΓpn{2q
p1 ` n q ną0 0
para ´8 ă x ă 8 si n ą 1

Γppa`bq{2q a{2 b
F f pxq “ Γpa{2qΓpb{2q pa{bq ¨ aą0 b´2
a{2´1 a ´pa`bq{2
x p1 ` b xq bą0 si b ą 2
para x ą 0
212 B. Fórmulas varias

Momentos Función generadora

Varianza EpX k q de momentos EpetX q

pbáq2 bk`1 ák`1 ebt éat

12 pk`1qpb´aq tpb´aq
si t ‰ 0

1 k! λ
λ2 λk λ´t
si t ă λ

α αpα`1q¨¨¨pα`k´1q λ α
λ2 λk
p λ´t q
si t ă λ

ab Bpa`k,bq
pa`b`1qpa`bq2 Bpa,bq [1]

Γp1`2{αq´Γ2 p1`1{αq Γp1`k{αq

λ2 λk
[1]

σ2 [2] exp pµt ` σ 2 t2 {2q

2k Γpn{2`kq 1
2n Γpn{2q p 1´2t qn{2
si t ă 1{2

n
n´2 [3] No existe
si n ą 2

2b2 pa`b´2q
apb´2q2 pb´4q p ab qk Γpa{2`kq
Γpa{2q
Γpb{2´kq
Γpb{2q No existe
si b ą 4 si 2k ă b

[1] No hay fórmula reducida. [2] Vea los momentos de la distribución normal
213

centrada en la página — [3] Vea resultados en la página —

Bibliografı́a

[1] Casella G., Berger R. L. Statistical inference. Thomson Press, 2008.

[2] Hoel P. G., Port S. C., Stone C. J. Introduction to statistical theory.

Houghton Mifflin, 1971.

[3] Hogg R. V., McKean J., Craig A. T. Introduction to mathematical sta-

tistics. Seventh Edition. Pearson, 2013.

[4] Mood A. M., Graybill F. A., Boes D. C. Introduction to the theory of

statistics. McGraw Hill, 1983.

[5] Mukhopadhyay N. Introductory statistical inference. Chapman &

Hall/CRC, 2006.

[6] Miller I., Miller M. John E. Freund’s mathematical statistics. Prentice

Hall, 1999.

[7] [Link]

[8] Williams D. (1991) Probability with Martingales. Cambridge University

Press.

[9] [Link]

215
Índice analı́tico

Cantidad pivotal, 135 puntual, 9

CICR, 63 sesgado, 48
Consistencia, 52 sesgo de un, 48
Cota inferior
de Cramér-Rao, 63 Fórmula
Cramér-Rao -s de derivación, 200
cota inferior, 63 -s de integración, 200
-s para exponentes, 198
Distribuciones -s para logaritmos, 199
tipo exponencial, 189 -s para sumas, 199
de Stirling, 202
ECM, 59 Familia exponencial, 189
Eficiencia, 73 Función
Error cuadrático medio, 59 de verosimilitud, 22
Espacio parametral, 3 parametral, 28
Estadı́stica, 6
de orden, 7 Grado de confianza, 134
Estimación
por intervalos, 133 Identidades trigonométricas, 199
puntual, 3 Insesgamiento, 38
Estimador asintótico, 48
asintóticamente eficiente, 73 Intervalo
asintóticamente insesgado, 48 de confianza, 134
de máxima verosimilitud, 23 grado de confianza, 134
eficiencia de un, 73 lim inferior, 134
eficiente, 73 lim superior, 134
insesgado, 38
máximo verosı́mil , 23 Lema de Abel, 202

216
Índice analı́tico 217

Método
de máxima verosimilitud, 22
de momentos, 10
Media
muestral, 6
Momentos
método de, 10
muestrales, 8, 11
poblacionales, 11
Movimiento Browniano, 37, 48
Muestra aleatoria
tamaño de una, 5

Nivel de significancia, 161

Notación o pequeña, 203

Poisson
proceso de, 37, 48
Proceso de Poisson, 37, 48
Prueba de hipótesis, 153, 159
nivel de significancia, 161
para la varianza, 176
región crı́tica, 161
Puntos crı́ticos, 203

Región crı́tica, 161

tamaño de la, 161
Región de rechazo, 154

Sesgo, 48, 59
Stirling, 202

Varianza
muestral, 7
prueba de hipótesis, 176

También podría gustarte

Estimación y Máxima Verosimilitud en Estadística
Aún no hay calificaciones
Estimación y Máxima Verosimilitud en Estadística
15 páginas
Funciones Vectoriales y Parametrización
Aún no hay calificaciones
Funciones Vectoriales y Parametrización
30 páginas
Solucionario Econometría 2017-I San Marcos
Aún no hay calificaciones
Solucionario Econometría 2017-I San Marcos
32 páginas
Probabilidadyestadistica 10 ABR
Aún no hay calificaciones
Probabilidadyestadistica 10 ABR
269 páginas
Curva OC y PF
Aún no hay calificaciones
Curva OC y PF
4 páginas
Raíces Unitarias y Test HEGY
Aún no hay calificaciones
Raíces Unitarias y Test HEGY
6 páginas
Probabilidades-Función de Densidad Condicional
Aún no hay calificaciones
Probabilidades-Función de Densidad Condicional
9 páginas
Método Delta en Estadística y Varianza Asintótica
Aún no hay calificaciones
Método Delta en Estadística y Varianza Asintótica
12 páginas
Análisis del Estimador Kaplan-Meier
Aún no hay calificaciones
Análisis del Estimador Kaplan-Meier
5 páginas
Variación Aleatoria en Estadística
Aún no hay calificaciones
Variación Aleatoria en Estadística
138 páginas
Apuntes de Estadistica Especialidad Telematica PDF
100% (1)
Apuntes de Estadistica Especialidad Telematica PDF
310 páginas
Familias Exponenciales en Estadística
Aún no hay calificaciones
Familias Exponenciales en Estadística
67 páginas
Landro Gonzalez Elementos Econometria Fenomenos Dinamicos 1
Aún no hay calificaciones
Landro Gonzalez Elementos Econometria Fenomenos Dinamicos 1
627 páginas
Act02 - Investigación Operativa - GSF
Aún no hay calificaciones
Act02 - Investigación Operativa - GSF
7 páginas
Estimación por Intervalo en Estadística
Aún no hay calificaciones
Estimación por Intervalo en Estadística
42 páginas
Optimización Dinámica y Estática Además Programación Dinámica
Aún no hay calificaciones
Optimización Dinámica y Estática Además Programación Dinámica
75 páginas
Conjugatecosas Bayes
Aún no hay calificaciones
Conjugatecosas Bayes
68 páginas
Curso de Software Estadístico UNJFSC
Aún no hay calificaciones
Curso de Software Estadístico UNJFSC
10 páginas
Talleres de Cálculo Diferencial 2019
0% (1)
Talleres de Cálculo Diferencial 2019
27 páginas
Metodo de Expansion de Funciones Propias.
Aún no hay calificaciones
Metodo de Expansion de Funciones Propias.
10 páginas
Optimización Dinámica en Tiempo Continuo
Aún no hay calificaciones
Optimización Dinámica en Tiempo Continuo
24 páginas
Ecuacion Vectorial de Helmholtz
Aún no hay calificaciones
Ecuacion Vectorial de Helmholtz
23 páginas
Ejercicios de Probabilidades EPG3307
Aún no hay calificaciones
Ejercicios de Probabilidades EPG3307
2 páginas
Tarea Sesion 9 - Grupo 2
Aún no hay calificaciones
Tarea Sesion 9 - Grupo 2
88 páginas
Ejercicios de Serie de Taylor
Aún no hay calificaciones
Ejercicios de Serie de Taylor
16 páginas
Guia Integrales Impropias
Aún no hay calificaciones
Guia Integrales Impropias
19 páginas
Curso de Optimización Matemática
Aún no hay calificaciones
Curso de Optimización Matemática
31 páginas
Metodos Matematicos para Economia PDF
Aún no hay calificaciones
Metodos Matematicos para Economia PDF
213 páginas
Probabilidades en muestreo y despidos laborales
Aún no hay calificaciones
Probabilidades en muestreo y despidos laborales
2 páginas
Teorema del Límite Central en Estadística
Aún no hay calificaciones
Teorema del Límite Central en Estadística
4 páginas
Apuntes - 25!10!27 (Versión Extendida)
Aún no hay calificaciones
Apuntes - 25!10!27 (Versión Extendida)
122 páginas
Métodos Geométricos en Control Óptimo
Aún no hay calificaciones
Métodos Geométricos en Control Óptimo
186 páginas
Estadística Descriptiva y Probabilidades
Aún no hay calificaciones
Estadística Descriptiva y Probabilidades
253 páginas
Teorema de Stone-Weierstrass: Análisis
Aún no hay calificaciones
Teorema de Stone-Weierstrass: Análisis
5 páginas
Ejercicios de Lógica Proposicional
Aún no hay calificaciones
Ejercicios de Lógica Proposicional
5 páginas
Herramientas para Programación Lineal en GAMS
100% (1)
Herramientas para Programación Lineal en GAMS
31 páginas
Teorema Peano
Aún no hay calificaciones
Teorema Peano
9 páginas
Continuidad y Funciones Exponenciales
Aún no hay calificaciones
Continuidad y Funciones Exponenciales
3 páginas
Modelo Lotka-Volterra: Depredador-Presa
Aún no hay calificaciones
Modelo Lotka-Volterra: Depredador-Presa
4 páginas
Conjuntos
Aún no hay calificaciones
Conjuntos
24 páginas
Análisis del Proceso de Poisson en Transporte
0% (1)
Análisis del Proceso de Poisson en Transporte
43 páginas
Ecuaciones Diferenciales Parabólicas
Aún no hay calificaciones
Ecuaciones Diferenciales Parabólicas
16 páginas
Condiciones Blanchard Khan para Regla de Taylor
100% (1)
Condiciones Blanchard Khan para Regla de Taylor
3 páginas
Convexidad de Funciones
Aún no hay calificaciones
Convexidad de Funciones
14 páginas
Optimización Dinamica
100% (1)
Optimización Dinamica
31 páginas
Ilovepdf Merged
Aún no hay calificaciones
Ilovepdf Merged
102 páginas
Ecuaciones en Diferencias Simultáneas en Economía
Aún no hay calificaciones
Ecuaciones en Diferencias Simultáneas en Economía
7 páginas
HORARIOS
Aún no hay calificaciones
HORARIOS
16 páginas
Tarea de Cálculo Multivariado
Aún no hay calificaciones
Tarea de Cálculo Multivariado
32 páginas
Ortogonalización de Funciones en Matlab
Aún no hay calificaciones
Ortogonalización de Funciones en Matlab
7 páginas
Teorema de Hahn-Banach: Análisis y Aplicaciones
Aún no hay calificaciones
Teorema de Hahn-Banach: Análisis y Aplicaciones
29 páginas
Distribución Uniforme y Métodos de Monte Carlo
Aún no hay calificaciones
Distribución Uniforme y Métodos de Monte Carlo
17 páginas
Introducción A La Estadística Inferencial
100% (2)
Introducción A La Estadística Inferencial
412 páginas
Ei2019 PDF
Aún no hay calificaciones
Ei2019 PDF
416 páginas
Version Digital - Inferencia Estadistica para Estudiantes de Ciencias - Vazquez - 19-09-2020
100% (1)
Version Digital - Inferencia Estadistica para Estudiantes de Ciencias - Vazquez - 19-09-2020
385 páginas
Inferencia Estadistica para Estud. - Color - PP
100% (5)
Inferencia Estadistica para Estud. - Color - PP
382 páginas
Guía de Estadística Inferencial 2020
Aún no hay calificaciones
Guía de Estadística Inferencial 2020
35 páginas
Estadistica Inferencial - 2014 - Flores PDF
Aún no hay calificaciones
Estadistica Inferencial - 2014 - Flores PDF
127 páginas
Fundamentos de Estadística Descriptiva
Aún no hay calificaciones
Fundamentos de Estadística Descriptiva
157 páginas
Introducción a la Estadística Inferencial
Aún no hay calificaciones
Introducción a la Estadística Inferencial
221 páginas
Viso Elisa Introduccion A Ciencias de La Computacion PDF
Aún no hay calificaciones
Viso Elisa Introduccion A Ciencias de La Computacion PDF
544 páginas
Introducción a la Estadística Inferencial
Aún no hay calificaciones
Introducción a la Estadística Inferencial
221 páginas
Manual Prácticas Ciencias Computación
Aún no hay calificaciones
Manual Prácticas Ciencias Computación
186 páginas
Ensayo
Aún no hay calificaciones
Ensayo
3 páginas
Auditoria Forense
Aún no hay calificaciones
Auditoria Forense
22 páginas
Afiche del Día Mundial del Agua
Aún no hay calificaciones
Afiche del Día Mundial del Agua
4 páginas
La Radio según McLuhan: Impacto Social
Aún no hay calificaciones
La Radio según McLuhan: Impacto Social
4 páginas
Obligaciones Mancomunadas en Derecho
100% (1)
Obligaciones Mancomunadas en Derecho
12 páginas
Poema y Cancion Sexto
Aún no hay calificaciones
Poema y Cancion Sexto
2 páginas
UC 2 Peligros y Riesgos en La Construcción PDF
Aún no hay calificaciones
UC 2 Peligros y Riesgos en La Construcción PDF
11 páginas
Versión 01
Aún no hay calificaciones
Versión 01
181 páginas
Ética y Cultura Ciudadana en SENA
Aún no hay calificaciones
Ética y Cultura Ciudadana en SENA
9 páginas
Evaluación del Desempeño en Enfermería
Aún no hay calificaciones
Evaluación del Desempeño en Enfermería
26 páginas
Test de Wonderlic Hojas de Preguntas
50% (2)
Test de Wonderlic Hojas de Preguntas
6 páginas
Guía para trabajos de investigación SEM
Aún no hay calificaciones
Guía para trabajos de investigación SEM
63 páginas
Clasificacion de Los Adjetivos en Ingles
100% (1)
Clasificacion de Los Adjetivos en Ingles
6 páginas
Biografía de Jose Maria Arguedas para Cuarto de Secundaria
100% (1)
Biografía de Jose Maria Arguedas para Cuarto de Secundaria
5 páginas
Actividades para Tercer Grado
Aún no hay calificaciones
Actividades para Tercer Grado
12 páginas
Diagnóstico Educativo en Rucapeñihue
Aún no hay calificaciones
Diagnóstico Educativo en Rucapeñihue
52 páginas
La Casa Dorada
100% (1)
La Casa Dorada
10 páginas
Ventajas del Control Administrativo
Aún no hay calificaciones
Ventajas del Control Administrativo
6 páginas
Evolución de Teorías de Medios Poderosos
Aún no hay calificaciones
Evolución de Teorías de Medios Poderosos
3 páginas
Educación Física en pandemia 2020
Aún no hay calificaciones
Educación Física en pandemia 2020
17 páginas
Microscopia de Minerales Opacos
Aún no hay calificaciones
Microscopia de Minerales Opacos
13 páginas
En Qué Lugar Se Come El Mejor Pollo A La Brasa Del Mundo
Aún no hay calificaciones
En Qué Lugar Se Come El Mejor Pollo A La Brasa Del Mundo
2 páginas
Friedrich Nietzsche Poemas Edicion Bilingue Poesia Hiperion
100% (1)
Friedrich Nietzsche Poemas Edicion Bilingue Poesia Hiperion
135 páginas
Análisis del Comportamiento del Consumidor
Aún no hay calificaciones
Análisis del Comportamiento del Consumidor
3 páginas
Crisis y recuperación en la Baja Edad Media
Aún no hay calificaciones
Crisis y recuperación en la Baja Edad Media
4 páginas
EL MAÑANA DE LA HUMANIDAD de Benjamín Solari Parravicini y Fray José de Aragón
89% (9)
EL MAÑANA DE LA HUMANIDAD de Benjamín Solari Parravicini y Fray José de Aragón
197 páginas
Leyenda Del Mucaro. Puerto Puerto Rico
Aún no hay calificaciones
Leyenda Del Mucaro. Puerto Puerto Rico
3 páginas
Castillo Tarea 4
0% (1)
Castillo Tarea 4
11 páginas
Estación 1
Aún no hay calificaciones
Estación 1
10 páginas
Data Ra
Aún no hay calificaciones
Data Ra
194 páginas