0% encontró este documento útil (0 votos)
46 vistas92 páginas

Fundamentos de Estadística: Análisis y Modelos

Este capítulo introduce conceptos básicos de estadística como datos, modelos, parámetros, poblaciones y muestras. Explica diferentes enfoques como el análisis de datos, la inferencia clásica y el análisis bayesiano. También presenta ejemplos simples de cómo modelar datos estadísticamente.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
46 vistas92 páginas

Fundamentos de Estadística: Análisis y Modelos

Este capítulo introduce conceptos básicos de estadística como datos, modelos, parámetros, poblaciones y muestras. Explica diferentes enfoques como el análisis de datos, la inferencia clásica y el análisis bayesiano. También presenta ejemplos simples de cómo modelar datos estadísticamente.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Índice general

1 Fundamentos de Estadística 3
1.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Datos, Modelos, Parámetros y Estadísticas . . . . . . . . . . 5
1.2.1 Datos y Modelos . . . . . . . . . . . . . . . . . . . . 5
1.2.2 Modelos paramétricos y no-paramétricos . . . . . . . 13
1.3 Poblaciones y Muestras . . . . . . . . . . . . . . . . . . . . . 17
1.4 Ejercicios Resueltos . . . . . . . . . . . . . . . . . . . . . . 24
1.5 Estadísticos como funciones en el espacio muestral . . . . . . 28
1.6 Propiedades de la muestra y sus distribuciones . . . . . . . . 34
1.7 Función característica de la media
muestral, X . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
1.8 Más Ejemplo sobre muestreo . . . . . . . . . . . . . . . . . . 81

1
2 Cirilo alvarez R.
Capítulo 1

Fundamentos de Estadística

1.1 Introducción
La estadística se ocupa de la recopilación de datos y de su análisis e inter-
pretación. No consideraremos el problema de la recopilación de datos en
este libro, pero tomaremos los datos como dados y preguntaremos qué tie-
nen que informarnos estos datos. La respuesta depende no solo de los datos,
de lo que se está observando, sino también del conocimiento previo de la
situación; este último se formaliza en los supuestos con los que se ingresa al
análisis. Por lo general, ha habido tres líneas principales de enfoque:

Análisis de datos: Aquí los datos se analizan en sus términos generales,


esencialmente sin supuestos extraños. El objetivo principal es la or-
ganización y el resumen de los datos de manera que resalten sus prin-
cipales características y aclaren su estructura subyacente.
La Inferencia Clásica y la Teoría de Decisión: Aquí se postula que las
observaciones son valores que toman las variables aleatorias que se su-
pone que siguen una distribución de probabilidad conjunta P pertene-

3
4 Cirilo alvarez R.

ciente a alguna clase conocida Pθ . Frecuentemente, las distribuciones


están indexadas por un parámetro, digamos θ (no necesariamente de
valor real), que toma valores en un conjunto, Θ de modo que,
Pθ = {Pθ : θ ∈ Θ} (1.1)
El objetivo del análisis es entonces especificar un valor plausible para θ
(este es el problema de la estimación puntual), o al menos determinar
un subconjunto de θ del cual podemos posiblemente afirmar que sí
contiene, o no, θ (estimación por intervalo de confianza establecida por
la prueba de hipótesis). Tal afirmación sobre θ puede ser vista como
un resumen de la información proporcionada por los datos y puede ser
utilizado como una guía para tomar una determinada acción.
Análisis Bayesiano La aproximación Bayesiana está basada en los si-
guientes postulado:
(1) La probabilidad describe el grado de creencia, no limitando la fre-
cuencia. Como tal, podemos hacer afirmaciones de probabilidad
sobre un montón de cosas, no solo de datos que están sujetos a va-
riación aleatoria. Por ejemplo, podría decirse que “la probabilidad
de que Albert Einstein tomara una taza de té el 1 de agosto de
1948” es de 0, 35. Esto no se refiere a ninguna frecuencia límite.
Refleja mi fuerza de creencia de que la proposición es verdadera.
(2) Se puede hacer afirmaciones de probabilidad sobre parámetros,
aunque sean constantes fijas.
(3) Se hace inferencias sobre un parámetro θ, produciendo una distri-
bución de probabilidad para θ. Las inferencias, tales como estima-
ciones puntuales y estimaciones de intervalos, pueden ser extraídas
de esta distribución.

La inferencia Bayesiana es un enfoque polémico porque inherentemente


abarca una noción subjetiva de probabilidad. En general, los métodos Ba-
yesianos no proporcionan garantías sobre el rendimiento a largo plazo. El
Cirilo alvarez R. 5

campo de la estadística pone más énfasis en los métodos de frecuentistas,


aunque los métodos Bayesianos ciertamente tienen una presencia. Algu-
nas comunidades de minería de datos y máquinas de aprendizaje parecen
sostener los métodos Bayesianos con mucha fuerza.

Estos tres métodos de enfoque permiten conclusiones cada vez más sólidas,
pero lo hacen al precio de suposiciones que son correspondientemente más
detalladas y posiblemente menos confiables. A menudo es deseable usar
diferentes formulaciones en conjunto; por ejemplo, planificando un estudio
(p. ej., determinando el tamaño de la muestra) bajo suposiciones bastante
detalladas pero realizando el análisis bajo un conjunto más débil que parece
más confiable. En la práctica, a menudo es útil modelar un problema de
varias maneras diferentes. Entonces uno puede estar satisfecho si hay un
acuerdo razonable entre las conclusiones; en caso contrario, se indicará un
examen más detenido de los diferentes conjuntos de supuestos.

1.2 Datos, Modelos, Parámetros y Estadísti-


cas
1.2.1 Datos y Modelos
La mayoría de los estudios y experimentos, científicos o industriales, grandes
o pequeñas, producen datos cuyo análisis es el objeto último de la empresa.

Los datos pueden consistir en:

(1) Vectores de escalares, mediciones, y / o caracteres, por ejemplo, una sola


vez serie de mediciones.
(2) Las matrices de escalares y/o caracteres, por ejemplo, imágenes digita-
lizadas o más rutinaria mediciones de las covariables y la respuesta a un
conjunto de n individuos que ver
6 Cirilo alvarez R.

(3) Las matrices de escalares y/o caracteres como en las tablas de contin-
gencia o más en generalmente, factores múltiples con datos de respuesta
múltiple sobre una serie de personas.
(4) Todo lo anterior y más, en particular, las funciones como en el pro-
cesamiento de señales, árboles como en las filogenias evolutivas, y así
sucesivamente.

Los objetivos de la ciencia y de la sociedad, que los estadísticos contribuyen,


son para extraer información útil de los datos utilizando todo lo que se
sabe. La visión particular de la estadística matemática es para ver los
datos como el resultado de un experimento aleatorio que se puede modelar
matemáticamente.

En palabras de George Box (1979), “Los modelos en curso, no son ciertas,


pero, afortunadamente, sólo es necesario que sean útil.”

En esta sección se estudia cómo, comenzar con modelos tentativos:

(1) Podemos conceptualizar la estructura de datos y nuestros objetivos con


mayor precisión. Comenzamos esto con los ejemplos simples.
(2) Podemos derivar métodos para extraer información útil de los datos
y, en particular, proporcionar métodos que evalúen la posibilidad de
generalizar los resultados experimentales. Por ejemplo, si observamos
un efecto en nuestros datos, ¿en qué medida podemos esperar el mismo
efecto de manera más general? La estimación, las pruebas, las regiones
de confianza y los procedimientos más generales se pueden analizar.
(3) Podemos evaluar la eficacia de los métodos que proponemos. Comen-
zamos esta discusión con la teoría de la decisión continuamos con los
principios de optimización.
(4) Podemos decidir si los modelos que proponemos son aproximaciones al
mecanismo que genera los datos adecuados para nuestros propósitos.
Cirilo alvarez R. 7

Las pruebas de bondad de ajuste, la solidez y los diagnósticos se pueden


analizar.
(5) Podemos guiarnos hacia descripciones alternativas o más generales que
podrían encajar mejor.

Aquí están unos ejemplos:

(a) Tratamos una población de N elementos, por ejemplo, un cargamento


de artículos fabricados. Un número desconocido Nθ de estos artículos es
defectuoso. Es demasiado caro para examinar todos los elementos. Así
que para obtener la información acerca de θ, se extrae una muestra de
n sin reemplazo y se inspecciona. Los datos recogidos son los números
de artículos defectuosos encontrados en la muestra.
(b) Queremos estudiar cómo una característica física o económica, por ejem-
plo, alturas o ingresos, se distribuye en una población grande. Un censo
exhaustivo es imposible por lo que el estudio se basa en las mediciones
y una muestra de n individuos se extraerá al azar de la población. La
población es tan grande que, para fines de modelamiento, aproximamos
el proceso real de toma de muestras sin reemplazo por muestreo con
reemplazo.
(c) Un experimentador hace determinaciones independientes de n de valores
de una constante física µ. Sus medidas están sujetas a las fluctuaciones
aleatorias (errores) y los datos pueden ser considerados como µ, más
algunos errores aleatorios.
(d) Queremos comparar la eficacia de dos formas de hacer algo bajo condi-
ciones similares tales como la elaboración de la cerveza de café, reducción
de la contaminación, el tratamiento de una enfermedad, la producción
de energía, el aprendizaje de un laberinto, y así sucesivamente. Esto
puede ser conceptualizado como un problema de comparar la eficacia de
dos métodos aplicados a los miembros de una determinada población.
8 Cirilo alvarez R.

Realizamos m + n experimentos independientes como sigue: m + n ele-


mentos de la población son recogidos al azar y m de éstos se asignan
al primera método y los restante n se asignan al segunda método. De
esta manera, se obtiene una o más medidas cuantitativas o cualitativas
de la eficacia de cada experimento. Por ejemplo, podemos asignar dos
tipos de medicinas. Aplicamos la medicina A a los m pacientes, y la
medicina B a los n pacientes, pacientes seleccionado aleatoriamente y
luego medimos la temperatura y la presión arterial, así tenemos los pa-
cientes calificados para la mejora cualitativamente por los médicos, y
así sucesivamente. La variabilidad aleatoria aquí podría provenir princi-
palmente de diferentes respuestas entre los pacientes a la misma droga,
pero también de errores en las mediciones y las variaciones en la pureza
de los medicamentos.

Usaremos estos ejemplos para formular modelos estadísticos y para indicar


algunas de las dificultades en la construcción de tales modelos. Considere-
mos en primer lugar la situación del item (a), lo que nos referimos como:

Ejemplo 1.1. (Muestro de inspección) El modelo matemático pro-


puesto por la descripción está bien definido. Un experimento aleatorio se
ha realizado. El espacio muestral se compone de los números 0, 1, . . . , n
correspondiente al número de artículos defectuosos encontrados. En es-
te espacio muestral podemos definir una variable aleatoria X dada por
X(k) = k, k = 0, 1, . . . , n. Si N θ es el número de artículos defectuosos en
la población muestreada, entonces, la función masa de probabilidad (fmp)
resulta:
N θ N −N θ
 
P [X = k] = k
N
n−k
 (1.2)
n

si max(n − N (1 − θ), 0) ≤ k ≤ min(N θ, n)


Cirilo alvarez R. 9

Así X tiene una distribución hipergeométrica, H(N θ, N, n).

La diferencia principal del modelo expuesto del modelo ordinario de proba-


bilidad es que N θ es desconocido y, en principio, puede tomar cualquier
valor entre 0 y N . Así, aunque el espacio muestral está bien definido, no
se puede especificar la estructura de probabilidad completamente sino solo
dar una familia de distribuciones de probabilidad {H(N θ, N, n)} para X,
cualquiera uno de los cuales podrían haber generado los datos realmente
observados.

Ejemplo 1.2. Muestra de una población. Modelos de una mues-


tra La situación del item (b) se puede considerar como una generalización
del item (a) en cual se toma una medida cuantitativa en lugar de registrar
simplemente como “defectuoso” o “no-defectuosos”. También se puede con-
siderar como un caso límite en el cual, el tamaño de la población, N , sea
infinito (N = ∞), por lo que el muestreo con reemplazo reemplaza el mues-
treo sin reemplazo. Formalmente, si las medidas son escalares, se observa
x1 , x2 , . . . , xn , que se modelan como las realizaciones de X1 , X2 , . . . , Xn va-
riables aleatorias independientes, idénticamente distribuidos (iid), con fun-
ción de distribución común desconocida F . A menudo nos referimos a tales
X1 , X2 , . . . , Xn como una muestra aleatoria de F , y también escriben
que X1 , X2 , . . . , Xn son iid como X con X ∼ F , donde “∼” significa “que se
distribuye como.” El modelo está completamente descrita por el conjunto
F de distribuciones que especificamos. El mismo modelo también surge
de forma natural en la situación del item (c). Aquí podemos escribir las n
mediciones de µ, como

Xi = µ + ϵi 1≤i≤n (1.3)

donde ϵt = (ϵ1 , ϵ2 , . . . , ϵn ) es el vector de errores aleatorios. ¿Qué debemos


asumir sobre la distribución de ϵ, que junto con µ, especifican completamen-
te la distribución conjunta de X1 , X2 , . . . , Xn ? Por supuesto, eso depende de
10 Cirilo alvarez R.

cómo se lleva acabo el experimento. Dada la descripción en (c), postulamos:

La distribución del error en una determinación es la misma que en otra.

(1) El valor del error cometido en una medición no afecta al valor del error
cometido en las mediciones en otros momentos. Es decir, ϵ1 , ϵ2 . . . ,ϵn son
independientes.
(2) La distribución del error en una medición es la misma que el error en
otra medición. Así ϵ1 , ϵ2 . . . ,ϵn son idénticamente distribuidos.
(3) La distribución de ϵ es independiente de µ.
De manera equivalente X1 , X2 , . . . , Xn es una muestra aleatoria y, si
consideramos que G es la función de distribución de ϵ1 y F el de X1 ,
entonces
F (x) = G(x − µ) (1.4)
y el modelo se especifica alternativamente por F, el conjunto de F ′ s que
postulamos, o por {(µ, G) : µ ∈ IR, G ∈ G} donde G es el conjunto de
todas las distribuciones de los errores permitidos que postulamos. Las
G ′ s comúnmente considerados son todas las distribuciones con centro de
simetría 0, o alternativamente, todas las distribuciones con esperanza 0.
El modelo clásico por defecto es:
(4) La distribución común de los errores es N (0, σ 2 ), donde σ 2 se desconoce.
Es decir, las Xi son una muestra de una población N (µ, σ 2 ) o equiva-
lentemente F = {Φ( x−µ σ
) : µ ∈ IR, σ > 0} donde Φ es la distribución
normal estándar.

El modelo por defecto también se postula con frecuencia para las medicio-
nes realizadas en unidades obtenidas por muestreo aleatorio de poblaciones,
por ejemplo, las alturas de los individuos o los ingresos logarítmicos. Es
importante recordar que, en el mejor de los casos, se trata de suposiciones
Cirilo alvarez R. 11

que sólo tienen una validez aproximada. Todas las mediciones reales son
discretas y no continuas. La mayoría de las cantidades tienen límites ab-
solutos: los hombres de 30 metros de altura son imposibles. Las alturas
siempre son no negativas. La distribución gaussiana, sean cuales sean µ y
σ, no tendrá nada de esto.

Ahora consideremos la situación del item (d).

Ejemplo 1.3. Modelos de dos muestras. Sean x1 , x2 , . . . , xm y y1 , y2 , . . . , yn ,


respectivamente, las respuestas de los m sujetos que tienen una determinada
enfermedad dado el medicamento A y otros n sujetos igualmente enfermos
dado el medicamento B. Por convención, si el medicamento A es estándar
o placebo, se refiere a las x′ s como las observaciones de control. Un placebo
es una sustancia tal como el agua que se espera que no tenga ningún efec-
to sobre la enfermedad y se utiliza para corregir el efecto del placebo bien
documentado, es decir, los pacientes mejoran incluso si solo piensan que
están siendo tratados. Consideremos que las y ′ s denotan las respuestas de
los sujetos dado que se imparte un nuevo medicamento o tratamiento que
está siendo evaluada comparando su efecto con el del placebo. Llamamos a
las y ′ s observaciones de tratamiento.

A continuación se dan los supuestos iniciales naturales:

(1) Los x′ s y los y ′ s son realizaciones de X1 , X2 , . . . , Xm una muestra de F ,


y Y1 , Y2 , . . . , Yn una muestra de G, de manera que el modelo se especifica
por el conjunto de pares posibles (F, G).
Para especificar este conjunto con mayor precisión, se suele hacer la
suposición crítica de efecto de tratamiento constante.
(2) Supongamos que si se hubiera administrado el tratamiento A a un sujeto,
se habría obtenido la respuesta x. Entonces, si se hubiera administrado el
tratamiento B al mismo sujeto en lugar del tratamiento A, se obtendría
12 Cirilo alvarez R.

la respuesta y = X + ∆ donde ∆ no depende de x. Este implica que si


F es la distribución de un control, entonces G(·) = F (· − ∆). Llamamos
a esto el modelo de desplazamiento con el parámetro ∆.
A menudo se hace la simplificación final.
(3) Las respuestas de control se distribuyen normalmente, Entonces, si F
es la distribución N (µ, σ 2 ) y G es la distribución N (µ + ∆, σ 2 ), he-
mos especificado el modelo Gaussiano para dos muestras con varianzas
iguales.

Utilizando los tres primeros ejemplos a título ilustrativo, definimos ahora


los elementos de un modelo estadístico.

Se nos da un experimento aleatorio con el espacio muestral Ω. En este


espacio muestral definimos un vector aleatorio X = (X1 , X2 , . . . , Xn . Cuan-
do ω es el resultado del experimento, X(ω) se denomina observaciones o
datos. A menudo es conveniente identificar el vector X con su realización,
los datos X(w). Dado que solo X es lo que observa, solo necesitamos con-
siderar su distribución de probabilidad. Esta distribución se asume que es
un miembro de una familia Pθ de distribuciones de probabilidad en IRn . A
Pθ se le conoce como modelo paramétrico. Por ejemplo, en el ejemplo
1.1, observamos X y la familia Pθ son todas las distribuciones Hipergeomé-
tricas con tamaño de muestra n y tamaño de población N . En el ejemplo
1.2, si los ítems del (1) - (4) se cumplen, Pθ es la familia de todas las distri-
buciones según la cual X1 , X2 , . . . , Xn son independientes e idénticamente
distribuidas con una distribución N (µ, σ 2 ) común.
Cirilo alvarez R. 13

1.2.2 Modelos paramétricos y no-paramétricos


A menudo se postula un modelo estadístico (un conjunto de suposiciones)
sobre la población Pθ en un problema dado para hacer posible o fácil el
análisis. Aunque probar la corrección de los modelos postulados es parte de
la inferencia estadística y la teoría de la decisión, los modelos postulados a
menudo se basan en el conocimiento del problema que se está considerando.

Definición 1.1. Se dice que un conjunto de medidas de probabilidad Pθ


definidas en (Ω, A ) indexadas por un parámetro θ ∈ Θ es una familia
paramétrica si y solo si Θ ⊆ IRk para algún entero positivo fijo k y cada
Pθ es una medida de probabilidad conocida cuando θ es conocida. El
conjunto Θ se llama espacio de parámetros y k se llama su dimensión. En
símbolos, una familia paramétrica está definida por

Pθ = {Pθ : θ ∈ Θ ⊆ IRk }

Ejemplos

1. Familia Bernoulli

Pθ = {Bernoulli(θ) : θ ∈ Θ = (0; 1)}

2. Familia Binomial

Pθ = {Binomial(n, θ) : θ = (θ, n) ∈ Θ = [0; 1] × N}

3. Familia Poisson

Pθ = {Poisson (θ) : θ ∈ Θ = (0; ∞)}

4. Familia Uniforme

Pθ = {U (θ) : θ ∈ Θ = (0; θ]}


14 Cirilo alvarez R.

5. Familia uniforme con dos parámetros

Pθ = {U(α, β) : θ = (α; β) ∈ Θ = IR × IR, α < β}

6. Familia exponencial con dos parámetros

Pθ = {exp(µ, σ) : θ = (µ, σ) ∈ Θ = IR × IR+ }

7. Familia Gamma

Pθ = {Γ(α, β) : θ = (α, β) ∈ Θ = IR+ IR+ }

8. Sea la familia de distribuciones normales

Pθ = {N (µ, σ 2 ) : θ = (µ, σ 2 ) ∈ Θ = IR × IR+ }

Un modelo paramétrico se refiere a la suposición de que la población P


está en una familia paramétrica dada.

Definición 1.2. Se dice que una familia paramétrica Pθ = {Pθ : θ ∈ Θ}


es identificable si y solo si θ1 ̸= θ2 y θ1 , θ2 ∈ Θ implican Pθ1 ̸= Pθ2 .

En la mayoría de los casos, se puede obtener una familia paramétrica iden-


tificable mediante reparametrización. Por lo tanto, asumimos en lo que
sigue que cada familia paramétrica es identificable a menos que se indique
lo contrario.

Ejemplo 1.4. Sea Pθ = {f (x|θ) = θ1 e−x/θ , x > 0, θ ∈ Θ = (0; ∞)} la


familia de densidades paramétricas exponenciales. Entonces, la función de
densidad es
1
fθ (x) = e−x/θ , x > 0, θ > 0
θ
lo que significa que el espacio paramétrico, Θ, sea Θ = (0; ∞). Para que
el modelo sea identificable, la transformación que aplica θ → fθ debe ser
Cirilo alvarez R. 15

uno-a-uno. Dado un modelo paramétrico Pθ , la forma más sencilla de


verificar esto es comenzar con la ecuación fθ1 = fθ2 , (esta igualdad debería
ser válida para (casi) todos los x en el soporte) y tratar de usar el álgebra (o
algún otro argumento) para mostrar que tal ecuación implica que, de hecho,
θ1 = θ2

Si tiene éxito con este plan, entonces su modelo es identificable; continúe


con su modelo. Si no tiene éxito, entonces su modelo no es identificable o
necesita encontrar otro argumento. La intuición es la misma, independiente-
mente: en un modelo identificable es imposible que dos parámetros distintos
(que podrían ser vectores) den lugar a la misma función de verosimilitud.

Esto tiene sentido, porque si, para datos fijos, dos parámetros únicos dieran
lugar a la misma probabilidad, entonces sería imposible distinguir entre
los dos parámetros candidatos basándose únicamente en los datos. Sería
imposible identificar el verdadero parámetro, en ese caso.

Para el ejemplo anterior, la ecuación fθ1 = fθ2 es

1 x/θ1 1
e = ex/θ2
θ1 θ2

para (casi) todo x > 0. Si tomamos los logaritmos de ambos lados obtene-
mos
x x
− ln θ1 − = − ln θ2 −
θ1 θ2

para x > 0, lo que implica la función lineal


!
1 1
− − x − (ln θ1 − ln θ2 )
θ1 θ2

Es (casi) idénticamente cero. La única recta que hace tal cosa es la que
16 Cirilo alvarez R.

tiene pendiente 0 e intersección-y cero. Esto significa que,


!
1 1 1 1
− − x − (ln θ1 − ln θ2 ) = 0 ⇔ − = 0 ∧ ln θ1 − ln θ2 = 0.
θ1 θ2 θ1 θ2
⇔ θ2 − θ1 = 0 ∧ ln θ1 = ln θ2
⇔ θ1 = θ2 .

Por lo tanto la familia Pθ es identificable. ■

Ejemplo 1.5. Sea

Pθ = {N (µ, σ 2 ) : Θ = IR × IR+ = {θ = (µ, σ 2 )}

la familia de densidades de probabilidad normales. Entonces, veamos si esta


familia es identificable.

θ1 = (µ1 , σ12 ) ̸= (µ2 , σ22 ) = θ2 , entonces

2 2
1 1
 
x−µ1 x−µ1
−1 −1
fθ1 (x1 , . . . , xn ) = √ e 2 σ1
̸= fθ2 (x1 , . . . , xn ) = √ e 2 σ2

2πσ1 2πσ2
por consiguiente la familia paramétrica es identificable. ■

Notación. Modelos Regulares. Cuando la dependencia de θ tiene que


ser observada, denotaremos la distribución correspondiente a cualquier valor
particular del parámetro por Pθ . Las eperanzas calculadas según el supuesto
de que X ∼ Pθ se escribirán como Eθ . Las funciones de distribución se
denotarán por F (·, θ), las funciones de densidad y frecuencia por f (·, θ)
o fθ (x). Sin embargo, estos y otros subíndices y argumentos se omitirán
cuando no haya lugar a confusión.

A partir de ahora, será conveniente suponer que en cualquier modelo para-


métrico que consideremos:
Cirilo alvarez R. 17

(1) Todos los Pθ son continuos con densidades f (x|θ) o fθ (x);


(2) Todos los Pθ son discretas con funciones de frecuencia f (x|θ) y existe un

conjunto {x1 , x2 , . . .} que es independiente de θ tal que
P
f (xi |θ) = 1
i=1
para todo θ.

Tales modelos se denominarán modelos paramétricos regulares. En el


caso discreto utilizaremos tanto los términos función de frecuencia como
densidad para f (x|θ).

1.3 Poblaciones y Muestras


Un problema típico en estadística puede ser descrito como sigue: Se realiza
uno o una serie de experimento(s) aleatorio(s); algunos datos del experi-
mento(s) son coleccionados; y la tarea es extraer información de los datos,
interpretar los resultados, y sacar algunas conclusiones. En este libro no con-
sideramos el problema de planificar experimentos y recolectar datos, sino,
nos concentraremos en el análisis estadístico de los datos, supuesto que los
datos son dados. Un análisis descriptivo puede ser realizado para obtener
algunas medidas de resumen de los datos, tales como la media, mediana,
rango, desviación estándar, etc., y algunas gráficas, como el histograma y
diagramas de cajas y bigotes, etc. Aunque esta clase de análisis es simple y
casi no requiere asunciones, no permite ganar suficiente discernimiento en
el problema. Nos centraremos en un método más sofisticado de análisis de
datos: inferencia estadística.

Cabe destacar que el problema de extraer información, interpretación de los


resultados y sacar conclusiones de los datos, no solo depende de los datos
que se observan, sino también de un conocimiento profundo del contexto
en que se realiza la investigación. Este último se formaliza en los supuestos
con que se introduce el análisis.
18 Cirilo alvarez R.

En inferencia estadística, el conjunto de datos se considera como una rea-


lización o la observación de un elemento aleatorio definida en un espacio
de probabilidad (Ω, A , P) relacionado con un experimento aleatorio. La
medida de probabilidad P se llama población. El conjunto de datos o el
elemento aleatorio que produce los datos se llama una muestra de P. El
tamaño del conjunto de datos se llama tamaño de la muestra y se denota
por n. Una población P es conocida si y solo si P(A) es un valor conocido
para cada evento A ∈ A . En un problema estadístico, la población P es al
menos parcialmente desconocida y es deseable deducir algunas propiedades
de P basándonos en la muestra disponible.

Existen dificultades para comprender realmente los vectores de observacio-


nes y para extraer la “información” de una muestra. El término “informa-
ción” tiene un significado técnico que se trata solo brevemente, y aquí, la
información sigue siendo una referencia general a lo que se puede aprender
de una muestra. En particular, se examina la “reducción” de una muestra
a un pequeño número de “estadísticos” o estadística: funciones medibles de
las cantidades aleatorias observables (o cualidades) X1 , X2 , . . . , Xn .

Definición 1.3. Una muestra aleatoria de tamaño n ≥ 1, de una pobla-


ción con función de densidad f (x|θ) es un conjunto variables aleatorias (o
vectores) X1 , X2 , . . . , Xn que son independientes y la función de densidad
marginal o la función masa frecuencia de cada variable Xi es la misma
función f (x|θ). Alternativamente, X1 , X2 , . . . , Xn se llaman variables alea-
torias independientes e idénticamente distribuidos con fdp o fmp f (x|θ).
Esto se abrevia comúnmente como variables aleatorias iid.

Ejemplo 1.6. (Problemas de Medición) Para medir una cantidad desco-


nocido θ (por ejemplo, una distancia, el peso o la temperatura), se realizan
n mediciones, x1 , x2 , . . . , xn , en un experimento para medir θ. Si θ puede
ser medido sin errores, entonces xi = θ para todo i; de lo contrario, cada xi
Cirilo alvarez R. 19

tiene un posible error de medición. En el análisis descriptivo de los datos,


se pueden calcular unos indicadores sintéticos, por ejemplo, la media y la
varianza de la muestra
n n
1X 1 X
x= xi y 2
s = (xi − x)2
n i=1 n − 1 i=1

Sin embargo, ¿cuál es la relación entre x y θ? ¿están cerca uno del otro (si
no igual) en algún sentido?. La varianza de la muestra s2 es claramente un
promedio de las desviaciones al cuadrado de xi respecto de su media. Pero,
¿qué tipo de información proporciona s2 ?. Finalmente, ¿es suficiente solo
observar a x y s2 con el propósito de medir θ? Estas preguntas no pueden
ser contestadas con el análisis descriptivo de los datos.

En inferencia estadística y la teoría de la decisión, el conjunto de dato,


(x1 , x2 , . . . , xn ), es visto como un resultado del experimento cuyo espacio
muestra es X = IRn . Por lo general se asume que las n medidas son
obtenidas en n pruebas independientes del experimento. Por lo tanto, se
puede definir un vector aleatorio de dimensión n (vector n-dimensional)
X = (X1 , X2 , . . . , Xn ) en el espacio de probabilidad,
Qn
i=1 (IR, B, P) =
(R , B , P ) cuya realización es x = (x1 , x2 , . . . , xn ). La población en este
n n n

problema es P (tenga en cuenta que la medida de probabilidad del producto


está determinado por P) y es al menos parcialmente desconocida. El vector
aleatorio X es una muestra y n es el tamaño de la muestra. Definimos
n n
1X 1 X
X= Xi y S =2
(Xi − X)2 (1.5)
n i=1 n − 1 i=1

Entonces X y S 2 son variables aleatorias que producen x y s2 , respecti-


vamente. Las preguntas planteadas anteriormente se pueden responder si
algunos supuestos se imponen a la población P, que se discutirá más ade-
lante. ■
20 Cirilo alvarez R.

Cuando la muestra X1 , X2 , . . . , Xn tienen componentes iid, lo cual es a


menudo el caso en las aplicaciones, la población está determinada por la
distribución marginal de Xi .

Ejemplo 1.7. (Problemas de pruebas de vida útil o tiempo de vida)


Sean x1 ,x2 ,. . . ,xn los tiempos de vida útil observados de algunos componen-
tes electrónicos. Una vez más, en inferencia estadística y teoría de decisión,
x1 ,x2 ,. . . ,xn son vistos como realizaciones de variables aleatorias indepen-
dientes X1 ,X2 ,. . . ,Xn . Suponga que los componentes son del mismo tipo de
modo que es razonable asumir que las variables aleatorias X1 ,X2 ,. . . ,Xn tie-
nen una función de distribución marginal F común. Entonces la población
es F , que a menudo es desconocido. Una cantidad de interés en este proble-
ma es 1 − F (t) con t > 0, la cual es la probabilidad que un componente no
puede fallar en el tiempo t. Es posible que todas las xi sean más pequeños
(o grandes) que t. Se pueden extraer conclusiones acerca de 1 − F (t) basado
en los datos x1 ,x2 ,. . . ,xn cuando se impongan ciertos supuestos a F (t). ■

Ejemplo 1.8. (Problemas de investigación por encuesta) Una inves-


tigación por encuesta a menudo es conducido cuando uno no es capas de
evaluar todos los elementos contenidos en una colección P = {y1 , y2 , . . . , yN }
que contiene N valores en Rk , donde k y N son números enteros positivos
finitos pero N puede ser muy grande. Suponga que el interés es estimar
XN
la cantidad del valor total de la población Y = yi . En una encuesta, se
i=1
selecciona un subconjunto s de n elementos de {1, 2, . . . , N} y se obtienen
valores yi , i ∈ s. La pregunta que surge aquí es ¿Podemos extraer alguna
conclusión acerca de Y sobre la base de datos yi , i ∈ s?.

¿Cómo definimos algunas variables aleatorias que produzcan los datos de la


encuesta? En primer lugar, tenemos que especificar cómo se selecciona s. Un
plan de muestreo probabilístico comúnmente utilizado puede ser descrito de
Cirilo alvarez R. 21

la siguiente manera: Asuma que cada elemento en {1, 2, . . . , N} puede ser


seleccionado como máximo una sola vez, es decir, consideramos muestreo sin
reemplazo. Sea S el conjunto de todos los subconjuntos de n de elementos
distintos de {1, 2, . . . , N}, Fs la colección de todo subconjunto de S, y p una
medida de la probabilidad en (S, Fs ). Cualquier s ∈ S es seleccionado con
probabilidad p(s). Tenga en cuenta que p(s) es un valor conocido cuando s
sea dado. Sea X1 , X2 , . . . , Xn un vector aleatorio tal que

p(s)
P(X1 = yi1 , . . . , Xn = yin ) = , s = {i1 , . . . .in } ∈ S (1.6)
n!
Entonces (yi , i ∈ s) puede ser visualizado como la realización de la muestra
(X1 ,X2 ,. . . ,Xn ). Si p(s) es constante, entonces el plan de muestreo se llama
muestreo aleatorio simple (sin reposición) y (X1 ,X2 ,. . . ,Xn ) se llama una
muestra aleatoria simple. Aunque X1 ,X2 ,. . . ,Xn se distribuyen de manera
idéntica, no son necesariamente independiente. Por lo tanto, a diferencia de
los dos ejemplos anteriores, la población en este problema puede no estar
especificada por las distribuciones marginales de las Xi . La población está
determinada por P y la medida de probabilidad de selección conocida p. Por
esta razón, P a menudo es considerado como la población. Las conclusiones
acerca de Y y otras características de P pueden hacerse sobre la base de
datos yi , i ∈ s, que se discutirá más adelante. ■

Ejercicio 1
¿Cuáles de las siguientes parametrizaciones son identificables? (Pruebe o
desapruebe.)

(a) X1 , X2 , . . . , Xp son independientes con Xi ∼ N (αi + v, σ 2 ).


θ = (α1 , α2 , . . . αp , v, σ 2 ) y Pθ es la distribución de X = (X1 , X2 , . . . , Xp ).
(b) Al igual que en (a) con α = (α1 , α2 , . . . , αp ) restringido a
{(a1 , a2 , . . . , ap ); pi=1 ai = 0}.
P
22 Cirilo alvarez R.

(c) X y Y son independientes N (µ1 , σ 2 ) y N (µ2 , σ 2 ); θ = (µ1 , µ2 ) y obser-


vamos Y − X.
(d) Xij , i = 1, 2, . . . , p; j = 1, 2, . . . , b son independientes con Xij ∼ N (µij , σ 2 )
donde µij = v + αi + λj , θ = (α1 , . . . , αp , λ1 , . . . , λb , v, σ 2 ) y Pθ es la
distribución de X = (X11 , . . . , Xpb ).
(e) Al igual que en (d) con (α1 , . . . , αp ) y (λ1 , . . . , λb ) restringido a los gru-
pos donde ri=1 αi = 0 y
P Pb
j=1 λj = 0.

Solución

(a) No identificable
Del del enunciado se tiene

(xi − (αi + ν))2


 
2 −p/2
fθ (x) = (2πσ ) exp −
2σ 2

Considerando
θ1 = (α1 , α2 , . . . , αp , ν, σ 2 ) y θ2 = (α1 + 1, . . . , αp + 1, ν − 1, σ 2 ), entonces
θ1 ̸= θ2 , pero
   
(x −(αi +ν))2 (xi −((αi +1)+(ν−1)))2
− i 2 −
2σ 2σ 2
fθ1 (x) = e =e = fθ2 (x)
   
(x −(αi +ν))2 (x −(αi +ν))2
− i 2 − i
2σ 2σ 2
fθ1 (x) = e =e = fθ2 (x)

Por lo tanto fθ1 (x) = fθ2 (x).


(b) Identificable
Si existen θ = (α1 , α2 , . . . , αp , ν, σ 2 ) y θ ∗ = (α1∗ , α2∗ , . . . , αp∗ , ν ∗ , σ 2∗ ) tal
que fθ (x) = fθ∗ (x), entonces resulta que

σ 2 = σ 2∗ y
αi + ν = αi∗ + ν ∗ para i = 1, 2, . . . , p
Cirilo alvarez R. 23

entonces
p p p p
X X X X
(αi + ν) = (αi∗ + ν ∗ ) ⇒ αi + pν = αi∗ + pν∗
i=1 i=1 i=1 i=1
p p
X X
⇒ ν = ν ∗ por lo tanto αi = αi∗ ⇒ αi = αi∗ para i = 1, 2, . . . , p
i=1 i=1

(c) No identificable,
Y − X ∼ N (µ2 − µ1 , 2σ 2 ). consideremos θ1 = (µ1 , µ2 ) y θ2 = (µ1 +
1, µ2 + 1), entonces θ1 ̸= θ2 pero fθ1 (y − x) = fθ2 (y − x).
(d) No identificable. Considere

θ1 = (α1 , α2 , . . . , αp , λ1 , λ2 , . . . , λb , ν, σ 2 )

θ2 = (α1 + 1, . . . , αp + 1, λ1 , λ2 , . . . , λb , ν − 1, σ 2 ),

entonces, θ1 ̸= θ2 , luego
 2
2 −1/2 xi,j − (ν + αi + λj )
fθ1 (xi,j ) = (2πσ ) exp
σ
y
 2
2 −1/2 xi,j − ((ν − 1) + (αi + 1) + λj )
fθ2 (xi,j ) = (2πσ ) exp
σ
 2
2 −1/2 xi,j − (ν + αi + λj )
= (2πσ ) exp = fθ1 (xi,j )
σ
Por tanto, el modelo es no identificable.
(e) Identificable.
Si θ = (α1 , α2 , . . . , αp , ν, σ 2 ) y θ ∗ = (α1∗ , α2∗ , . . . , αp∗ , ν ∗ , σ 2∗ ) tal que
fθ (x) = fθ∗ (x), entonces,

σ 2 = σ 2∗ y
αi + λj + ν = αi∗ + λ∗j + ν ∗ para i = 1, 2, . . . , p; j = 1, 2, . . . , b
24 Cirilo alvarez R.

entonces
p b p b
X X X X
(αi + λj + ν) = (αi∗ + λ∗j + ν ∗ ) ⇒ ν = ν ∗ y por tanto
i=1 J=1 i=1 J=1
p p b b
X X X X
αi = αi∗ = λj = λ∗j = 0
i=1 i=1 i=1 i=1

Similarmente
b
X b
X
(αi + λj + ν) = (αi∗ + λ∗j + ν ∗ ) ⇒ αi = αi∗ j = 1, 2, . . . , b.
J=1 J=1
p p
X X
(αi + λj + ν) = (αi∗ + λ∗j + ν ∗ ) ⇒ λj = λ∗j i = 1, 2, . . . , p.
J=1 J=1

1.4 Ejercicios Resueltos


Ejercicio 1
Dé una expresión formal de los siguientes modelos que identifiquen las leyes
de probabilidad de los datos y el espacio de parámetros. Indique si el modelo
en cuestión es paramétrico o no paramétrico.

(a) Un geólogo mide los diámetros de un gran número n pequeñas piedras


en un antiguo cauce. Las consideraciones teóricas lo llevan a creer que el
logaritmo de los diámetros de las piedras se distribuye normalmente con
la media µ y varianza σ 2 . Él desea usar sus observaciones para obtener
alguna información sobre µ y σ 2 pero no tiene conocimiento previo de
las magnitudes de los dos parámetros.

(b) Se está utilizando un instrumento de medición para obtener n determi-


naciones independientes de una constante física µ. Suponga que se sabe
que el instrumento de medición está sesgado hacia el lado positivo en
Cirilo alvarez R. 25

0.1 unidades. Suponga que los errores son variables aleatorias normales
distribuidas de manera idéntica con una varianza conocida.

(c) En ítem (b) suponga que la cantidad de sesgo es positiva pero descono-
cida. ¿Puedes percibir alguna dificultad para hacer afirmaciones sobre
µ para este modelo?

(d) El número de huevos puestos por un insecto sigue una distribución de


Poisson con una media desconocida λ. Una vez puestos, cada huevo tiene
una probabilidad desconocida p de eclosión y la eclosión de un huevo es
independiente de la eclosión de los otros. Un entomólogo estudia un
conjunto de n de estos insectos observando tanto la cantidad de huevos
puestos como la cantidad de huevos que eclosionan para cada nido.

Solución

(a) Según el enunciado definamos los siguientes:


di : el diámetro de la i-ésima piedra.
Xi = di + ϵi donde ϵi es el error de medición, θ = (µ, σ 2 )
Experimento: medir el diámetro de n piedras.
Observaciones: x = (x1 , x2 , . . . , xn )

(i) Espacio muestral: X ⊂ IRn

(ii) Las x′i s son independientes (las mediciones son independientes)

(iii) La densidad conjunta supuesta yi = log Xi es


n
!
−n 1 X
fθ (y1 , y2 , . . . , yn ) = (2πσ 2 )2 exp − 2 (yi − µ)2
2σ i=1

(iv) El modelo es paramétrico: θ ∈ Θ = R × R+


26 Cirilo alvarez R.

Los ítem (b) y (c) se deja a los estudiantes para que los resuelvan.

(d) Del enunciado se tiene: Sea Xi ∼ iid Poisson(λ), donde Xi es el número


de huevos del i-ésimo insecto (i = 1, . . . , n). Yi |Xi ∼ Binomial(xi , p) en
forma independiente, donde Yi es el número de huevos que eclosionan
entre los huevos Xi (i = 1, . . . , n). tenemos

f (x, y) = fλ (x)fθ (y|x) = fλ (x1 , x2 , . . . , xn )fθ (y1 |x1 , y2 |x2 , . . . , yn |xn )


Yn
= fλ (xi )fp (yi |xi )
i=1
n
e−λ λxi xi yi
Y  
= θ (1 − θ)xi −yi
i=1
xi ! yi

El modelo es paramétrico con parámetros (λ, θ) y el espacio paramétrico


es Θ = {(λ, θ) : λ > 0, 0 ≤ θ ≤ 1}.

Ejercicio 2
´ ¿Son identificables las siguientes parametrizaciones? (Probar o refutar)

(a) La parametrización del problema 1 (d).

(b) La parametrización del problema 1 (d) si el entomólogo observa solo el


número de huevos eclosión pero no el número de huevos puestos en cada
caso.

Solución

(a) Es identificable: Veamos Sean θ1 = (λ1 , p1 ) y θ2 = (λ2 , p2 ) tal que


fθ1 (x, y) = fθ2 (x, y).
Sean x1 = x2 = · · · = xn = 0 y y1 = y2 = · · · = yn = 0, entonces

fθ1 (0, 0) = fθ2 (0, 0) ⇒ e−nλ1 = e−nλ2 ⇒ λ1 = λ2 .


Cirilo alvarez R. 27

ahora sean x1 = x2 = · · · = xn = 1 y y1 = y2 = · · · = yn = 1,entonces

fθ1 (1, 1) = fθ2 (1, 1) ⇒ e−nλ1 (λ1 p1 )n = e−nλ2 (λ2 p2 )n ⇒ p1 = p2 .

Este prueba que θ1 ̸= θ2 ⇒ fθ1 (x, y) ̸= fθ2 (x, y).

(b) No identificable. Obtengamos la función de densidad marginal de Y


∞ ∞
X e−λ (λp)yi X {λ(1 − p)}xi −yi
fY (yi ) = fX,Y (xi , yi ) =
xi =yi
yi ! x =y
(xi − yi )!
i i
−λ yi
e
(λp) −λ(1−p)
= e
yi !
e−λp (λp)yi
=
yi !
entonces yi ∼ iid Poisson(λp).

Ahora consideremos θ1 = (λp) y θ2 = (λ/2, 2p), entonces θ1 ̸= θ2


e−λp (λp)yi e−(λ/2)2p ((λ/2)2p)yi
fθ1 (y) = = = fθ2 (y)
yi ! yi !

se observa que fθ1 (y) = fθ2 (y) por lo tanto no es identificable.

Ejercicios para domicilio


Ejercicio 1
¿Cuál de las siguientes parametrizaciones son identificables? (Probar o re-
futar)

(a) Xij , i = 1, . . . , p; j = 1, . . . , b son independientes con Xij ∼ N (µij , σ 2 ))


donde µij = ν + αi + λj , θ = (α1 , . . . , αp , λ1 , . . . , λd , ν, σ 2 ) y Pθ es la
distribución de X11 , . . . , Xpb .
28 Cirilo alvarez R.

(b) Igual que (a) con (α1 , . . . , αp ) y (λ1 . . . , λb ) restricto a los conjuntos
donde pi=1 αi = 0 y bj=1 λi = 0.
P P

Ejercicio 2
¿Cuál de los siguientes modelos son identificables? (Probar o refutar)

(a) Pθ es la distribución de X cuando X es uniforme en {0, 1, . . . , θ}, Θ =


{1, 2, . . .}.

(b) Suponga que X ∼ N (µ, σ 2 ). Sea Y = 1 si X ≤ 1 y Y = X si X > 1.


θ = (µ, σ 2 ) y Pθ es la distribución de Y .

1.5 Estadísticos como funciones en el espacio


muestral
Los modelos y las parametrizaciones son creaciones del estadístico, pero los
verdaderos valores de los parámetros son secretos de la naturaleza. Nuestro
objetivo es utilizar los datos de forma inductiva, para acotar de forma útil
nuestras ideas sobre cuál es el “verdadera” P. El vínculo para nosotros son
las cosas que podemos calcular, los estadísticos .

Definición 1.4. Sea X una variable aleatoria general de rango X y densi-


dad f (x; θ) para θ ∈ Θ; sea X1 , X2 , . . . , Xn una muestra aleatoria de esta
población de modo que el espacio muestral es

X = Xn = X
| × X{z
· · · × X} .
n veces

Definición 1.5. (Estadística o estadístico) Sea X1 ,X2 ,. . . ,Xn , n obser-


vaciones independientes en una variable aleatoria X y sea T una función
Cirilo alvarez R. 29

medible Borel, T : X → IRm . Entonces la variable aleatoria o vector alea-


torio, T(X1 , X2 , . . . , Xn ) = (T1 (x1 , x2 , . . . , xn ), . . . , Tm (X1 , X2 , . . . , Xn )), se
llama un estadístico m-dimensional, supuesto que no es una función de
ningún parámetro θ desconocido. En otros términos un estadístico T es
una función del espacio muestral X para algún espacio de valores T ; esto
es T : X → T generalmente un espacio Euclidiano. La distribución de
probabilidad de un estadístico T se denomina distribución muestral de T.

Esquemáticamente se pude representar mediante el siguiente esquema.

X(w) T (X)
X
Ω IRm

w1 X1 (w) T1 (X)

w2 X2 (w) T2 (X)
.. .. ..
. . .

wn Xn (w) Tm (X)

(T ◦ X)(x)

Dos de los estadístico comúnmente más utilizados son definidas como sigue.

Definición 1.6. Sea X1 ,X2 ,. . . ,Xn una muestra aleatoria de tamaño n ex-
traída de una población con función de distribución común F . Entonces el
estadístico

n
1X
X= Xi
n i=1
30 Cirilo alvarez R.

se llama media muestral y el estadístico

n
2 1 X 2
S = Xi − X .
n − 1 i=1

se llama varianza muestral.

Observación 1.1. Siempre que se utilice posteriormente la palabra “mues-


tra”, significará “muestra aleatoria”.

Observación 1.2. El muestreo de una distribución de probabilidad (Defi-


nición 1.3) a veces se denomina muestreo de una población infinita, ya
que se pueden obtener muestras de cualquier tamaño que se desee incluso
si la población es finita (muestreo con reemplazo).

Observación 1.3. En el muestreo sin reemplazo de una población fini-


ta, la condición de independencia de la definición 1.3 no se cumple. Su-
pongamos que se toma una muestra de tamaño 2 de una población finita
(a1 , a2 , . . . , aN ) sin reemplazo. Sea Xi el resultado de la i-ésima extrac-
ción. Entonces P(X1 = a1 ) = 1/N , P(X2 = a2 |X1 = a1 ) = N1−1 y
P(X2 = a2 |X1 = a2 ) = 0. Por lo tanto, la función de probabilidad (fp)
de X2 depende del resultado de la primera extracción (es decir, del valor de
X1 ), y por consiguiente X1 y X2 no son independientes. Tenga en cuenta,
sin embargo, que
N
X
P(X2 = a2 ) = P(X1 = aj )P(X2 = a2 |X1 = aj )
j=1
N
X 1
= P(X1 = aj )P(X2 = a2 |X1 = aj ) = ,
j̸=2
N

d
y X1 = X2 . Se puede usar un argumento similar para mostrar que X1 , X2 , . . . , Xn
todos tienen la misma distribución pero no son independientes. De hecho,
Cirilo alvarez R. 31

X1 , X2 , . . . , Xn son variables aleatorias intercambiables. El muestreo sin


reemplazo de una población finita a menudo se denomina muestreo alea-
torio simple.

Observación 1.4. Cabe recordar que los estadísticos muestrales X, S 2 (y


otros que definiremos más adelante) son variables aleatorias, mientras que
los parámetros poblacionales µ, σ 2 , etc. son constantes fijas que pueden ser
desconocidas.

Ejemplo 1.9. Sea Bernoulli(θ), donde θ es un parámetro desconocido. Su


función de probabilidad está dado por

f (x; θ) = θx (1 − θ)1−x , θ ∈ Θ = (0, 1); x ∈ {0, 1}

Suponga que cinco observaciones independientes en la variable X son (0, 1,


1, 1, 0). Entonces 0, 1, 1, 1, 0 es una realización de la muestra aleatoria
X1 , X2 , . . . , X5 . La media muestral es
5
1X 1
x= xi = (0 + 1 + 1 + 1 + 0) = 0.6,
5 i=1 5

que es el valor asumido por la variable aleatoria X. La varianza muestral


es
5
2 1 X 2 2(0.6)2 + 3(0.4)2
s = (xi − x) = = 0.3
5 − 1 i=1 4

que es el valor asumido por la variable aleatoria S 2 . también s = 0.3 =
0.55. ■

Otros estadísticos pueden ser:

1. El i-ésimo estadístico de orden: Considere el estadístico

T(X1 , X2 , . . . , Xn ) = (X(1) , X(2) , . . . , X(n) )


32 Cirilo alvarez R.

donde (X(1) , X(2) , . . . , X(n) ) es una permutación de X1 , X2 , . . . , Xn tal


que X(1) < X(2) < · · · < X(n) (supuesto que las Xi son distintas).

Tome ahora T(X1 , X2 , . . . , Xn ) = (X(1) < X(2) < · · · , < X(n) ). En-
tonces el i-ésimo estadístico de orden es X(i) para i = 1, 2, . . . , n.

Observación 1.5. No es verdad que X(i) = Xj para algún 1 ≤ j ≤ n;


lo que se tiene es X(i) (ω) = X(j) (ω) para un ω dado y algún j. Cuando
variamos ω, j puede variar.

2. Mediana muestral: La mediana muestral es definida por



 X[(n+1)/2] si n es impar

med(X1 , X2 , . . . , Xn ) =
 1 X(n)/2 + X(n+2)/2  si n es par

2

3. Combinaciones lineales n
de las observaciones:
ai Xi con a1 , a2 , . . . , an constantes.
P
T (X1 , X2 , . . . , Xn ) =
i=1

4. Combinaciones lineales de las estadísticas de orden:


T (X1 , X2 , . . . , Xn ) = a1 X(1) + a2 X(2) + · · · + an X(n)

Observación 1.6. No es verdad que


a1 X1 + · · · + an Xn = a1 X(1) + a2 X(2) + · · · + an X(n)

Observación 1.7. La media es una estadística del tipo 3, con a1 =


a2 = · · · an = 1/n y también es de tipo 4.

Si X1 , X2 , . . . , Xn es una muestra aleatoria de la población f (x|θ), entonces


la fdp o fmp conjunta de la muestra está dada por
n
Y
fb(x1 , x2 , . . . , xn |θ) = f (xi |θ) (1.7)
i=1
Cirilo alvarez R. 33

Esta fdp o fmp conjunta de la muestra puede ser utilizado para calcular
probabilidades que incluyen la muestra. Como X1 , X2 , . . . , Xn son idénti-
camente distribuidas, todas las densidades marginales f (x|θ) son la misma
función.

Ejemplo 1.10. sean X1 , X2 , . . . , Xn una muestra aleatoria de una po-


blación exponencial de parámetro β, exp(β). específicamente la muestra
X1 , X2 , . . . , Xn puede corresponder al tiempo de vida útil (medido en años)
para n tableros de circuitos idénticos que se ponen a prueba y se usan hasta
que fallan. La fdp conjunta de la muestra es
n n n
1 Pn
1 1 − xi
β i=1
Y Y Y
fˆβ (x1 , . . . , xn ) = f (xi |β) = e−xi /β = e
i=1 i=1
β i=1
βn
Esta fdp se puede usar para responder preguntas sobre la muestra. Por
ejemplo, ¿cuál es la probabilidad de que todas las tablas duren más de 2
años? podemos calcular
Z ∞ Z ∞Yn
1 −xi /β
P (X1 > 2, · · · , Xn > 2) = ··· e dxi
2 2 i=1
β
= e2n/β .

Si β, la vida útil promedio de una placa de circuito, es grande en relación


con n, vemos que esta probabilidad es cercana a 1. ■

Tenga en cuenta que la propiedad de independiente e idénticamente distri-


buida de una muestra aleatoria también se puede usar directamente en tales
cálculos. por ejemplo, el cálculo anterior se puede hacer así:

P (X1 > 2, · · · , Xn > 2) = P (X1 > 2) · · · P (X1 > 2) (independencia)


= [P (X1 > 2)]n (distribuciones idénticas)
= (e−2/β )n (calculo exponencial)
= e−2n/β
34 Cirilo alvarez R.

Si β, la vida útil promedio de una placa de circuito, es grande en relación


con n, vemos que esta probabilidad es cercana a 1.

El cálculo anterior ilustra cómo la fdp de una muestra aleatoria definida


por 1.7 puede usarse para calcular probabilidades sobre la muestra. Realice
que la propiedad independiente e idénticamente distribuida de una muestra
aleatoria también se puede usar directamente en tales cálculos. Por ejemplo,
el cálculo anterior se puede hacer así:

P(X1 > 2, . . . , Xn > 2) = P(X1 > 2) . . . P(Xn > 2) independencia


h in
= P(X1 > 2) distribución idéntica
n
= e−2/β cálculo exponencial


= e−2n/β .

El modelo de muestreo aleatorio definido en la definición 1.3 a veces se


denomina muestreo de una población infinita.

1.6 Propiedades de la muestra y sus distribu-


ciones
Sean X1 , X2 , . . . , Xn una muestra aleatoria que proviene de una pobla-
ción con función de distribución F , esto es X1 , X2 , . . . , Xn ∼ F donde
F (x) = P(X ≤ x) es una función de distribución sobre la recta real. En
esta sección se considera la estimación de F con la distribución empírica y
algunas característica muestrales comúnmente utilizadas.

Definición 1.7. La función de distribución empírica acumulativa,


Fbn (FDAE), es la función de distribución acumulativa que pone la masa
Cirilo alvarez R. 35

probabilidad de 1
n
en cada punto de datos Xj . Formalmente,
n
1X
Fbn (x) = I(Xj ≤ x) (1.8)
n j=1

donde I es la función indicadora definida por



 1 si Xj ≤ x

I(Xj ≤ x) = .
 0 si Xj > x

Entonces nFbn (x) es el número de variables Xk (1 ≤ k ≤ n) que son menores


o iguale a x (≤ x).

Tenga en cuenta que 0 ≤ Fbn (x) ≤ 1 para todo x, y, además, Fbn es continua
por la derecha, no decreciente, y Fbn (−∞) = 0, Fbn (∞) = 1.

Otra forma de definir la FDAE es el siguiente: si X(1) , X(2) ,. . . , X(n) son


los estadísticos de orden de la muestra X1 ,X2 ,. . . ,Xn , entonces es evidente
que,

 0 si x < X(1)





F (x) =
b k
si X(k) ≤ x < X(k+1) (k = 1, 2, . . . , n − 1) (1.9)
 n


 1 si x ≥ X(n)

Para todo x ∈ IR fijo pero por lo demás arbitraria, en sí Fbn (x) es una
variable aleatoria.

Ejemplo 1.11. Sean 4, 5, 8, 10 y 8 minutos los tiempos de espera de 5


personas en un paradero de un ómnibus. Entonces, denotando por X1 = 4,
X2 = 5, X3 = 8, X4 = 10 y X5 = 8 y aplicando la definición anterior
36 Cirilo alvarez R.

tenemos:
5
1X
si x < 4 ⇒ Fb5 (x) = ϵ(x − Xj ) = 0
5 j=1
5
1X
si 4 ≤ x < 5 ⇒ Fb5 (x) = ϵ(x − Xj ) = 1
5
5 j=1
5
1X
si 5 ≤ x < 8 ⇒ Fb5 (x) = ϵ(x − Xj ) = 2
5
5 j=1
5
1X
si 8 ≤ x < 10 ⇒ Fb5 (x) = ϵ(x − Xj ) = 4
5
5 j=1
5
1X
si x ≥ 10 ⇒ Fb5 (x) = ϵ(x − Xj ) = 1
5 j=1

lo que se puede escribir como sigue:



0 si x<4








1
si




 5
4≤x<5



F̂n (x) =

2
5
si 5≤x<8




4
si 8 ≤ x < 10



 5





 1 si x ≥ 10

Teorema 1.1. La variable aleatoria Fbn (x) tiene la función de probabilidad


 j  n
P Fbn (x) = = [F (x)]j [1 − F (x)]n−j , j = 0, 1, 2, . . . , n, (1.10)
n j
con esperanza y varianza
    F (x) [1 − F (x)]
E Fn (x) = F (x),
b Var Fn (x) =
b (1.11)
n
Cirilo alvarez R. 37

Prueba. Las funciones indicadoras, I(Xj ≤ x), para j = 1, 2, . . . , n, son


variables aleatorias independientes e idénticamente distribuidas (iid). Cada
una de estas funciones indicadoras tiene función masa de probabilidad
(fmp) o función de probabilidad
 
P I(Xj ≤ x) = 1 = P(Xj ≤ x) = F (x)

y
 
P I(Xj ≤ x) = 0 = P(Xj > x) = 1 − P(Xj ≤ x) = 1 − F (x)

n
su suma nFbn (x) = I(Xj ≤ x) ∼ Binomial (n, θ) donde θ = F (x), es
P
j=1
decir,
 
   j n  j  n−j
P nFn = J = P Fn =
b b = F (x) 1−F (j) , j = 0, 1, 2 . . . , n.
n j

Por lo tanto la igualdad (1.10) está probada.

Para calcular la media y la varianza de Fbn procedemos como sigue:


   
E I(Xj ≤ x) = 1 × P Xj ≤ x + 0 × P Xj > x

= 1 × P Xj ≤ x
= F (x).

La varianza de la función indicadora está dada por

 n  o2
Var I(Xj ≤ x) = E I2 (Xj ≤ x) − E I(Xj ≤ x)
  

= 12 × P Xj ≤ x + 02 × P Xj > x − F 2 (x)
 

= F (x) − F 2 (x)
= F (x)[1 − F (x)]
38 Cirilo alvarez R.

Luego tomando la esperanza y varianza en igualdad (1.8) resulta


h1X n i
 
E Fn (x) = E
b I(Xj ≤ x)
n j=1
n
1X h i
= E I(Xj ≤ x)
n j=1
n
1X
= F (x)
n j=1

= F (x).

La varianza es
h1X n i
 
Var Fbn (x) = Var I(Xj ≤ x)
n j=1
n
1 X h i
= 2 Var I(Xj ≤ x)
n j=1
n
1 X
= 2 F (x)[1 − F (x)]
n j=1
1
= nF (x)[1 − F (x)]
n2
F (x)[1 − F (x)]
= .
n
Recuerde que F (x) es la función de distribución de la cual proviene la mues-
tra. y la relación (1.11) se cumple.

Corolario 1.1.
P
Fb(x) −
→ F (x) cuando n → ∞.

Corolario 1.2.
√ hb i
n F (x) − F (x) D
p −
→ Z cuando n → ∞,
F (x) [1 − F (x)]
Cirilo alvarez R. 39

donde Z ∼ N (0, 1).

El corolario 1.1 es consecuencia de la ley débil de los grandes números


de Bernoulli publicada en Ars Conjectandi 1713, y el corolario 1.2 es del
Teorema Central de límite.

Teorema 1.2. (Teorema de Glivenko-Cantelli)

c.s
sup |Fn∗ (x) − F (x)| −→ 0.
x

(Desigualdad Dvoretzky-Kiefer-Wolfowitz (DKW))


  2
P sup Fbn (x) − F (x) > ϵ ≤ 2e−2nϵ . (1.12)
x

A partir de la desigualdad DKW, se puede construir un conjunto de con-


fianza. Sea ϵ2n = ln(2/α)/(2n), L(x) = max{Fbn (x) − ϵn , 0} y U (x) =
min{Fbn (x) + ϵn , 1}.

De la igualdad (1.12) se deduce que para cualquier F ,

P(L(x) ≤ F (x) ≤ U (x) para todox) ≥ 1 − α.

Por tanto, (L(x), U (x)) es una banda de confianza no paramétrica 1 − α.

Ejercicios
Ejercicio 1
Sea X ∼ Bernoulli 1, 12 y considere todas las muestras aleatorias posibles


de tamaño 3 en X. Calcule X y S 2 para cada una de las ocho muestras, y


también calcule la distribución de probabilidad de X y S 2 .
40 Cirilo alvarez R.

Ejercicio 2
Se lanza un dado equilibrado. Sea X el valor nominal que aparece y sean
X1 , X2 dos observaciones independientes sobre X. Calcule la distribución
de X.

Ejercicio 3
Sean X1 , X2 , . . . , Xn sea una muestra de alguna población. Demuestre que
(n − 1)S.
max Xi − X <
1≤i≤n n
a menos que todas las n observaciones sean iguales o exactamente n − 1 de
las Xj sean iguales.

Ejercicio 4
Sean X1 , X2 , . . . , Xn números reales, y sea x(n) = max{x1 , x2 , . . . , xn }, x(1) =
min{x1 , x2 , . . . , xn }. Demuestre que para cualquier conjunto de números
reales a1 , a2 , . . . , an tal que ni=i ai = 0 se cumple la siguiente desigualdad:
P

n n
X 1 X
ai xi ≤ x(n) − x(1) |ai |.
i=1
2 i

Ejercicio 5
Para cualquier conjunto de números reales x1 , x2 , . . . , xn demuestre que la
fracción de x1 , x2 , . . . , xn incluido en el intervalo (x − ks, x + ks) para k ≥ 1
es al menos 1 − 1/k 2 . Aquí x es la media y s la desviación estándar de los
x.

Ejemplo 1.12. (uso del programa R.) En el conjunto de datos faithful, la


distribución de frecuencia muestral de la variable erupciones es el resumen de
las erupciones según alguna clasificación de las duraciones de las erupciones.
Cirilo alvarez R. 41

Encontremos la distribución muestral de los datos faithful de la duraciones


de las erupciones utilizan el programa RSstudio. La solución consiste en los
siguientes pasos:

(a) Primero encontramos el rango de duración de las erupciones con la fun-


ción de rango. Muestra que las erupciones observadas tienen una dura-
ción de entre 1,6 y 5,1 minutos.
Dura <- faithful$eruptions
> range(Dura)
[1] 1.6 5.1

(b) Dividir el rango en sub-intervalos que no se superpongan definiendo una


secuencia de puntos de ruptura de igual distancia. Si redondeamos los
extremos del intervalo [1.6, 5.1] a los semi-enteros más cercanos, obte-
nemos el intervalo [1.5; 5.5]. Por lo tanto, establecemos que los puntos
de ruptura sean la secuencia semi-entera {1.5, 2.0, 2.5, . . .}
breaks <- seq(1.5, 5.5, by=0.5) # half-integer sequence
breaks
[1] 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 5.5

(c) Clasifique las duraciones de las erupciones de acuerdo con los sub-intervalos
de media unidad de longitud con corte. Como los intervalos deben cerrar-
se por la izquierda y abrirse por la derecha, establecemos el argumento
de la derecha como FALSE.

(d) Calcular la frecuencia de las erupciones en cada sub-intervalo con la


función de
tabla. > [Link] = tabla([Link])

La distribución de frecuencias de la duración de la erupción es:


42 Cirilo alvarez R.

[Link]
[Link]
[1.5,2) [2,2.5) [2.5,3) [3,3.5) [3.5,4) [4,4.5) [4.5,5) [5,5.5)
51 41 5 7 30 73 61 4

algoritmo completo

########Distribución de Frecuencia##########
> dura <- faithful$eruptions
> cortes <- seq(1.5, 5.5, by=0.5)
> [Link] <- cut(dura, cortes, right=FALSE)
> [Link] <- table([Link])
> [Link]
[Link]
[1.5,2) [2,2.5) [2.5,3) [3,3.5) [3.5,4) [4,4.5) [4.5,5) [5,5.5)
51 41 5 7 30 73 61 4
> ##################Luego aplicamos la función cumsum para calcular
> ##la distribución de frecuencia acumulada. ####################
> [Link] <- cumsum([Link])
> [Link]
[1.5,2) [2,2.5) [2.5,3) [3,3.5) [3.5,4) [4,4.5) [4.5,5) [5,5.5)
51 92 97 104 134 207 268 272
> #####################calculo frecuencia relativa aculada
> duracumrelfreq <- fractions([Link] / nrow(faithful))
> duracumrelfreq
[1.5,2) [2,2.5) [2.5,3) [3,3.5) [3.5,4) [4,4.5) [4.5,5) [5,5.5)
3/16 23/68 97/272 13/34 67/136 207/272 67/68 1
>
>
> ##############presentación mejorada#####################
> #old <- options(digits=2)
Cirilo alvarez R. 43

> [Link]
[1.5,2) [2,2.5) [2.5,3) [3,3.5) [3.5,4) [4,4.5) [4.5,5) [5,5.5)
3/16 23/68 97/272 13/34 67/136 207/272 67/68 1
>
> ################ old = options(digits=2)
> cbind([Link], [Link], duracumrelfreq,r)
[Link] [Link] duracumrelfreq
[1.5,2) 51 51 0.19
[2,2.5) 41 92 0.34
[2.5,3) 5 97 0.36
[3,3.5) 7 104 0.38
[3.5,4) 30 134 0.49
[4,4.5) 73 207 0.76
[4.5,5) 61 268 0.99
[5,5.5) 4 272 1.00


44 Cirilo alvarez R.

Distribución de frecuencias
Intervalos Frecuencia Frecuencia Frecuencia
Absoluta Abs. Acum. Rel. Acum

[1.5; 2) 51 51 3
16

[2; 2.5) 41 92 23
68

[2.5; 3) 5 97 97
272

[3; 3.5) 7 104 13


34

[3.5; 4) 30 134 67
136

[4; 4.5) 73 207 207


272

[4.5; 5) 61 268 67
68

[5; 5.5) 4 272 1

Y de aquí la función de distribución empírica





 0 si x < 1.5


si

3
1.5 ≤ x < 2


16





23
si




 68
2 ≤ x < 2.5


si
 97
2.5 ≤ x < 3




 272

F̂n (x) = 13
34
si 3 ≤ x < 3.5



67
si




 136
3.5 ≤ x < 4


si
 207
4 ≤ x < 4.5




 272


67
si 4 ≤ x < 4.5



 68



si

1 x ≥ 10

Percentiles
Cirilo alvarez R. 45

Se realizó una prueba estandarizada, probablemente obtuvo sus resultados


en forma de puntaje bruto y rango de percentil. En este contexto, el rango
percentil es la fracción de personas que obtuvieron una puntuación más baja
que usted (o igual). Entonces, si está "en el percentil 90", lo hizo tan bien
o mejor que el 90

Como ejemplo, digamos que usted y otras 4 personas tomaron una prueba
y recibieron los siguientes puntajes:

55 66 77 88 99

Si recibió una puntuación de 88, ¿cuál es su rango percentil? Podemos


calcularlo de la siguiente manera:

test_scores <- data_frame(score = combine(55, 66, 77, 88, 99))

number_of_tests <- test_scores %>%


count() %>%
pull(n)

number_of_lower_scores <- test_scores %>%


filter(score <= 88) %>%
count() %>%
pull(n)

percentile_rank <- 100.0 * number_of_lower_scores / number_of_tests


> percentile_rank
[1] 80

A partir de esto, encontramos que el rango percentil para una puntuación


46 Cirilo alvarez R.

de 88 es 80. Matemáticamente, el cálculo es


4
100 × = 80
5
Como puede ver, si le dan un valor, es fácil encontrar su rango de percentil;
ir hacia el otro lado es un poco más difícil. Una forma de hacer esto es
ordenar los puntajes y encontrar el número de fila que corresponde a un
rango de percentil. Para encontrar el número de fila, divida el número
total de puntajes por 100, multiplique ese número por el rango de percentil
deseado y luego redondee al valor entero más cercano. La operación de
redondeo se puede manejar a través de la función ceiling(). Entonces, para
nuestro ejemplo, el valor con rango percentil 55 es:

percentile_rank_row_number <- ceiling(55*number_of_tests/100)


>
> test_scores %>%
+ arrange(score) %>%
+ slice(percentile_rank_row_number)
# A tibble: 1 × 1
score
<dbl>
1 77

El resultado de este cálculo se llama percentil. Entonces esto significa que,


en la distribución de puntajes de los exámenes, el percentil 55 corresponde
a un puntaje de 77.

En R, hay una función llamada quantile() que puede hacer el cálculo ante-
rior automáticamente, aunque debe tener cuidado con las entradas. Primero
mostremos lo que sucede cuando no tenemos cuidado. Podríamos pensar
que podemos calcular el percentil 55 ejecutando:

test_scores %>%
Cirilo alvarez R. 47

+ pull(score) %>%
+ quantile(probs = combine(0.55))
55%
79.2

X
55% 79.2

Obtenemos una puntuación de 79,2, que no está en nuestro conjunto de


datos. Esto sucede porque quantile() interpola entre las puntuaciones de
forma predeterminada. A veces querrás este comportamiento, otras veces
no. Cuando el conjunto de datos es tan pequeño, no tiene mucho sentido
permitir la interpolación, ya que puede basarse en suposiciones bastante
agresivas sobre cómo se verían los puntajes intermedios. Para decirle a
quantile() que calcule las puntuaciones de la misma manera que lo hicimos
anteriormente, agregue el tipo de entrada = 1:

test_scores %>%
+ pull(score) %>%
+ quantile(probs = combine(0.55), type = 1)
55%
77

X
55% 77

Esto, como era de esperar, concuerda con el cálculo manual.

Vale la pena enfatizar que la diferencia entre "percentil" y "rango de per-


centil" puede ser confusa, y las personas no siempre usan los términos con
precisión. En resumen, si queremos saber el porcentaje de personas que ob-
tuvieron puntuaciones iguales o inferiores a las nuestras, entonces estamos
48 Cirilo alvarez R.

calculando un rango percentil. Si comenzamos con un percentil, entonces


estamos calculando el puntaje en la distribución que le corresponde.

A continuación consideremos algunos valores característicos de la función


distribución muestral Fbn (x), llamados estadísticos muestrales. Como F̂n (x)
tiene puntos de salto Xj ; j = 1 . . . , n es evidente que todos los momentos
de F̂n existen. Así definimos los siguientes:

Definición 1.8. (Momento Muestral de r-ésimo orden) El momento


muestral de orden r en el entorno de cero se define por
n
1X r
mr (X) = X r = 1, 2, . . . (1.13)
n J=1 j

con esta notación se tiene para r = 1 se tiene


n
1X
m1 (X) = Xj = X
n j=1

Definición 1.9. (Momentos Muestrales Centrales de r-ésimo orden)


El momento muestral central de orden r en el entorno de la media muestral,
m1 = X, se define por
n
′ 1X
mr = (Xj − X)r r = 1, 2, . . . (1.14)
n J=1

es evidente que,
n  
′ 1X ′ n−1
Xj − X = 0 y m2 (X) = S 2. (1.15)

m1 (X) =
n j=1 n

Se debe tener en cuenta que m′2 no es la varianza muestral. S 2 se llama-


rá como la varianza muestral por razones de propiedad que se verán más
adelante.
Cirilo alvarez R. 49

Definición 1.10. (Función característica de Fbn (x)) La función carac-


terística de la distribución muestral es definida por
n
1 X itXj
ΦFb (t) = e (1.16)
n j=1

Pruebe
(r)
ir mr (X) = ΦFb (0)
donde mr es momento muestral en el entorno de cero.

También se pueden definir de forma análoga momentos muestrales de distri-


buciones bivariadas y multivariadas. Sean por ejemplo (X1 , Y1 ),(X2 , Y2 ),. . . ,
(Xn , Yn ) una muestra aleatoria extraída de una población con función de
distribución bivariada, definimos
n n
1X 1X
X= Xj , Y = Yj (1.17)
n j=1 n j=1

Momento muestral mixto de orden (r, s) en el origen (0,0)

El momento muestral mixto de orden (r, s) respecto origen se define por


n n
1 XX r s
mr,s (X, Y ) = 2 X Y , r = 0, 1, 2, . . . ; s = 1, 2, . . .
n i=1 j=1 i j

Momento centrales muestral mixto de orden (r, s) respecto a (X, Y )

Los momentos centrales muestrales respecto a las medias muestrales, (X, Y )


se define por
n n
′ 1 XX
mr,s (X, Y ) = 2 (Xi − X)r (Yj − Y )s ; r, s = 0, 1, 2, . . . (1.18)
n i=1 j=1
50 Cirilo alvarez R.

A partir de la igualdad (1.18) los siguientes resultados


n n
′ ′ 1X ′ ′ 1X
mr,0 (X) = mr (X) = (Xi − X)r , m0,s (Y ) = mr (Y ) = (Yj − Y )s
n i=1 n j=1

mr,s (X, Y )

De nuevo escribimos
n n
1 X 1 X
2
SX = (Xj − X̄)2 , SY2 = (Yj − Ȳ )2 (1.19)
n − 1 j=1 n − 1 j=1

para las dos varianzas muestrales, y para la covarianza muestral usamos la


cantidad
n
1 X
SXY = (Xj − X̄)(Yj − Ȳ ) (1.20)
n − 1 j=1

En particular, el coeficiente correlación muestral se define por



SXY
m11
r=p ′ ′ = . (1.21)
m20 m02 SX SY

Puede demostrarse que |r| ≤ 1, los valores extremos ±1 solo puede ocurrir
cuando todos los puntos muestrales (X1 , Y1 ),(X2 , Y2 ),. . . , (Xn , Yn ) están
sobre una línea recta.

También se puede elaborar fórmulas para las dos líneas de regresión. Así la
línea de regresión de Y sobre X puede demostrarse que es igual a
SY
y−Y =r (x − X), (1.22)
SX

y es llamado la regresión muestral (lineal) de Y sobre X. r SSXY se llama el


coeficiente de regresión muestral de Y sobre X. En forma similar se puede
aplicar a la regresión de X sobre Y .
Cirilo alvarez R. 51

Definición 1.11. (Cuantiles muestrales) Los cuantiles muestrales son


definidos en una forma similar. Así, si 0 < p < 1, el cuantil muestral de
orden p, denotado por Xp es el estadístico de orden X(r) donde


np : si np es un número entero,
r=
[np + 1] : si np no es un número entero.

Como siempre, ⌊x⌋ el entero mayor ≤ x. Tenga en cuenta que, si np es un


entero se puede tomar cualquier valor entre X(np) y X(np)+1 como el cuantil
muestral p-ésimo. Así si p = 12 y n es par, se puede tomar cualquier valor
entre X( n2 ) y X( n2 )+1 , los dos valores medios como la mediana. Es usual
tomar el promedio. Así la mediana muestral se define como


 X (n+1)

( ) si n es impar
X1 = h 2 i (1.23)
2

( 2 ) si n es par
 1 X (n) + X n +1

2 (2)

Tenga en cuenta que

jn k n + 1
+1 = si n es impar.
2 2

A continuación consideremos los momentos de las característica muestrales.


En lo que sigue escribimos E(X r ) = mr y E(X − µ)r = µr para los mo-
mentos poblacionales de r−ésimo orden. Siempre que usemos mr o (µr ), se
asumirá que existen. También, σ 2 representa la varianza poblacional.

Teorema 1.3. Sean X1 ,X2 ,. . . ,Xn una muestra aleatoria que proviene de
52 Cirilo alvarez R.

una población con función de distribución (fd) F . Entonces

E(X) = µ (1.24)
2
σ
Var(X) = (1.25)
n
3 m3 + 3(n − 1)m2 µ + (n − 1)(n − 2)µ3
E(X ) = , (1.26)
n2
4 m4 + 4(n − 1)m3 µ + 6(n − 1)(n − 2)m2 µ2 + 3(n − 1)m22
E(X ) =
n3
4
(n − 1)(n − 2)(n − 3)µ
+ (1.27)
n3

Prueba.(1) Prueba de la ecuación (1.24). Sabemos que la media muestral


está definida por
n
1X
X= Xj (1.28)
n j=1

Tomando la esperanza a ambos miembros de la igualdad (1.28) resulta


n
!
 1X
E X =E Xj
n j=1

por la linealidad de la esperanza se tiene

n
1X
E(X) = E(Xj )
n j=1

y debido a que las variables Xj son iid

n
1X
E(X) = E(X), E(X) = µ
n j=1
n
1X
E(X) = µ=µ
n j=1
Cirilo alvarez R. 53

(2) Prueba de la igualdad (1.25). Primero tenemos que,


n
!2 n
! n !
X X X
Xj = Xj Xj
j=1 j=1 j=1
n
X n−1
X n
X
= Xj2 +2 Xi Xj
j=1 i=1 j=i+1

n
!2 n−1 X
n
X Xn X
∴ Xj = Xj2 +2 Xi Xj (1.29)
j=1
j=1 i=1 j=i+1

Ahora por definición de la varianza de una variable aleatoria se tiene

Var(X) = E(X̄ 2 ) − {E(X)}2


 2
calculamos E X como sigue
 !2 
n
2 1 X
E(X ) = E  Xj 
n j=1
 !2 
n
1 X
= E 2 Xj 
n j=1
 !2 
n
1 X
= 2E Xj 
n j=1

utilizando la igualdad (1.29) se tiene


" n n−1 X n
#
1 X X
= 2E Xj2 + 2 Xi X j
n j=1 i=1 j=i+1

por la linealidad de la esperanza se tiene


" n n−1 X n
#
1 X X
E Xj2 + 2

= 2 E (Xi Xj )
n j=1 i=1 j=i+1
54 Cirilo alvarez R.

y debido a que las variables Xj son iid resulta


" n n−1 X n
#
1 X X
E X2 + 2

= 2 E(X)E(X)
n j=1 i=1 j=i+1

luego utilizando las propiedades de la sumatoria y teniendo en cuenta


que E(X) = µ tenemos
1 
nE(X 2 ) + n(n − 1)µ2

= 2
n
lo que resulta
2 1 (n − 1) 2
E(X ) = E(X 2 ) + µ
n n
luego la varianza de la media muestral resulta
1 (n − 1) 2
Var(X) = E(X 2 ) + µ − {µ2 }
n n
1 1 1  σ2
Var(X) = E(X 2 ) − µ2 = E(X 2 ) − µ2 =
n n n n

(3) Prueba de (1.26). En forma análoga primero probemos que


n
!3 n
!2 n !
X X X
Xj = Xj Xj
j=1 j=1 j=1
" n n−1 n
# n
!
X X X X
= Xj2 + 2 Xj Xk Xj
j=1 j=1 k=j+1 j=1
" n
# n
! " n−1 n # n
!
X X X X X
= Xj2 Xj +2 Xj X k Xj
j=1 j=1 j=1 k=j+1 j=1

realizando las operaciones algebraicas y las propiedades de la sumatoria


se obtiene
n
!3
X Xn X X
Xj = Xi3 + 3 Xj2 Xk + Xj Xk Xl (1.30)
i=1
j=1 j̸=k j̸=k̸=l
Cirilo alvarez R. 55

Continuando con la prueba tenemos


 !3   !3 
n n
3 1 X
 = E 1
X
E(X ) = E  Xj Xj 
n j=1
n3 j=1
 !
n 3
1  X
= 3E Xj 
n j=1

teniendo en cuenta la igualdad (1.30) resulta

" n #
1 X X X
= 3E Xi3 + 3 Xj2 Xk + X j Xk Xl
n i=1 j̸=k j̸=k̸=l

por la linealidad de la esperanza y debido a que las variables aleatorias


Xi son iid se tiene
" n #
1 X X
= 3 E(X 3 ) + 3 E(X 2 )E(X) +
n i=1 j̸=k
X
+ E(X)E(X)E(X)
j̸=k̸=l

teniendo en cuenta que E(X 3 ) = m3 y E(X) = µ finalmente resulta

3 1  3

E(X ) = m3 + 3(n − 1)m2 µ + (n − 1)(n − 2)µ
n2

(4) Prueba de (1.27). Similarmente primero probamos que

n
!4 n
!3 n
!
X X X
Xj = Xj Xj
j=1 j=1 j=1
56 Cirilo alvarez R.

utilizando la igualdad (1.30) para el primer factor de la expresión ante-


rior, se tiene

" n
# n
!
X X X X
= Xi3 + 3 Xj2 Xk + X j Xk Xl Xj
i=1 j̸=k j̸=k̸=l j=1
" n
# n
! " # n
!
X X X X
= Xi3 Xj +3 Xj2 Xk Xj
i=1 j=1 j̸=k j=1
" # n
!
X X
+ Xj Xk Xl Xj
j̸=k̸=l j=1

realizando las operaciones algebraicas se obtiene el siguiente resultado

n
!4
X Xn X X
Xj = Xi4 + 4 Xj Xk3 + 3 Xj2 Xk2
i=1
j=1
X
j̸=k
X
j̸=k (1.31)
+6 Xi2 Xj Xk + Xi X j Xk Xl
i̸=j̸=k i̸=j̸=k̸=l

la prueba se completa siguiendo la misma secuencia como en el caso


anterior.

Teorema 1.4. Para los momentos centrales de tercer y cuarto orden en el


entorno de X, se tiene

µ3
µ3 (X) = (1.32)
n2
µ4 (n − 1)µ22
µ4 (X) = 3 + 3 (1.33)
n n3
Cirilo alvarez R. 57

Prueba. Probemos la relación (1.32) como sigue


" n
#3
3 1X
µ3 (X) = E X − µ =E (Xj − µ)
n J=1
n
!3
1 X
µ3 (X) = 3 E (Xj − µ)
n J=1

n
"
1 X X
= 3E (Xj − µ)3 + (Xj − µ)2 (Xk − µ)
n J=1 j̸=k
#
X
+ (Xj − µ)(Xk − µ)(Xl − µ)
j̸=k̸=l

ahora utilizando la linealidad del operador esperanza y teniendo en cuen-


ta que funciones de variables independientes siguen siendo independientes
tenemos
" n
1 X X
= 3 E(Xj − µ)3 + E(Xj − µ)2 E(Xk − µ)
n J=1 j̸=k
#
X
+ E(Xj − µ)E(Xk − µ)E(Xl − µ)
j̸=k̸=l

del cual resulta


" n #
1 X 1   µ3
= 3 E(Xj − µ)3 = 3 nE(X − µ)3 = 2
n J=1 n n

Prueba de la relación (1.33),tenemos


" n #4
1 X
µ4 (X) = 4 E (Xj − µ)
n j=1
58 Cirilo alvarez R.

utilizando una expresión análoga a la relación (1.31) tenemos,

n
!4
X Xn X
(Xi − µ) = (Xi − µ)4 + 4 (Xj − µ)(Xk − µ)3
i=1
i=1 j̸=k
X X
2 2
+3 (Xj − µ) (Xk − µ) + 6 (Xi − µ)2 (Xj − µ)(Xk − µ)
j̸=k i̸=j̸=k
X
+ (Xi − µ)(Xj − µ)(Xk − µ)(Xl − µ)
i̸=j̸=k̸=l

tomando la esperanza en la igualdad anterior y teniendo en cuenta que los


términos segundo, cuarto y quinto del lado derecho son ceros resulta
n n−1 n
1 X 4 3 X X
µ4 (X) = 4 E(X − µ) + 4 E(X − µ)2 E(X − µ)2
n i=1 n j=1 k=j+1

lo que finalmente resulta

1 4 3(n − 1) 2
µ4 (X) = µ + µ2
n3 n3


Teorema 1.5. Para los los momentos centrales mr se tiene

(n − 1) 2

E(m2 ) = σ (1.34)
n
′ µ4 − µ22 2(µ4 − 2µ22 ) µ4 − 3µ22
V ar(m2 ) = − + (1.35)
n n2 n3
′ (n − 1)(n − 2)
E(m3 ) = µ3 (1.36)
n2
′ (n − 1)(n2 − 3n + 3) 3(n − 1)(2n − 3) 2
E(m4 ) = 3
µ4 + µ2 (1.37)
n n3

(1) Prueba de la ecuación (1.34). Tomando en cuenta la igualdad (??) con


Cirilo alvarez R. 59

r = 2 tenemos
" n
#
′ 1 X
E(m2 ) = E (Xj − X)2
n j=1
" n #
′ 1 X
E(m2 ) = E (Xj − X)2
n j=1
" n #
′ 1 X 2
E(m2 ) = E (Xj − µ) − (X − µ)
n j=1
" n n
#
′ 1 X X
E(m2 ) = E (Xj − µ)2 − 2(X − µ) (Xj − µ) + n(X − µ)2
n j=1 j=1
" n #
′ 1 X
E(m2 ) = E (Xj − µ)2 − n(X − µ)2
n j=1

ahora tomando la esperanza y teniendo en cuenta que las variables Xj


son iid se tiene
" n #
′ 1 X
E(m2 ) = E(X − µ)2 − nE(X − µ)2
n j=1
′ 1
nE(X − µ)2 − nE(X̄ − µ)2

E(m2 ) =
n
σ2
 
′ 2 n−1
E(m2 ) = σ − = σ2
n n

(2) Prueba de la ecuación (1.35). Tomando en cuenta la igualdad (??) con


r = 2 tenemos
 !2 
n
h ′ i 1 X
E (m2 )2 = E  (Xj − X)2 
n j=1
" n #2
h ′ i 1 X
E (m2 )2 = 2 E (Xj − µ)2 − n(X − µ)2 (1.38)
n j=1
60 Cirilo alvarez R.

Escribiendo Yi = Xi − µ, se observa que E(Yi ) = 0, Var(Yi ) = σ 2 , y


E(Yi4 ) = µ4 . El lado derecho de la igualdad (1.38) es igual a
" n #2
h ′ i
2 1 X
2 2
E (m2 ) = 2 E Yj − nY
n j=1

Desarrollando la expresión anterior y omitiendo los términos en los que


E(Yi ) = 0, resulta
" n n
!
h ′ i
2 1 X
4
X
2 2 2 X 4 X 2 2
E (m2 ) = 2 E Yj + Yi Yj − Y + Yi Yj
n J=1 i̸=j
n J=1 j i̸=j
n
!#
1 X X
+ 2 3 Yi2 Yj2 + Yj4
n i̸=j J=1

Luego tomando la esperanza i teniendo en cuenta que las variables Yj


son iid, se tiene

h ′ i 1 2
2
E (m2 ) = 2 nµ4 + n(n − 1)µ22 − nµ4 + n(n − 1)µ22

n n

1 2

+ 2 3n(n − 1)µ2 + nµ4
n
Realizando las operaciones indicadas resulta
h ′ i  µ2
  
2 1 µ4 3
E (m2 ) = n − 2 + + n − 2 + (n − 1)
n n2 n n2

Luego la varianza de (m2 ) resulta
′ ′ ′
Var(m2 ) = E[(m2 )2 ] − {E(m2 )}2

µ2
   
′ 1 µ4 3
Var(m2 ) = n − 2 + + n − 2 + (n − 1) −
n n2 n n2
 2
n−1
− µ22
n
µ22
 
′ 1 µ4
Var(m2 ) = n − 2 + + (n − 1)(3 − n) 3
n n2 n
que es igual a la relación (1.35).
Cirilo alvarez R. 61

En forma análoga se pueden probar las relaciones (1.36) y (1.37).

Corolario 1.3. E(S 2 ) = σ 2


µ4 3−n
Corolario 1.4. V ar(S 2 ) = n
+ µ2
n(n−1) 2
(µ2 = σ 2 )

Teorema 1.6. Las siguientes afirmaciones son condiciones necesarias para


la intercambiabilidad de una sucesión finita de variables aleatorias X1 , X2 , . . . , Xn .
Para todo i, j, i′ , j ′ ∈ {1, . . . , n} con i ̸= j y i′ ̸= j ′

(1) E(Xi ) = E(Xj )


(2) Var(Xi ) = Var(Xj )
(3) Cov(Xi , Xj ) = Cov(Xi′ , Xj′ )

Prueba. Solo probamos el enunciado item (3). Para ello, usamos el enun-
ciado item (2), tenemos
n
! n n
X X X
0 ≤ Var Xi = Var(Xi ) + 2 Cov(Xi , Xj )
i=1 i=1 i<j

= nVar(Xi ) + n(n − 1)Cov(Xi , Xj )


Var(Xi )
Cov(Xi , Xj ) ≥ −
(n − 1)

Ejercicio 8
Sean (X1 , X2 , . . . , Xn ) variables aleatorias tales que los coeficientes de co-
rrelación entre cada par de variables Xi , Xj , i ̸= j es ρ. Demuestre que
−(n − 1)−1 ≤ ρ ≤ 1.

Observación 1.8. Los resultados de los teoremas 1.3 a 1.5 pueden modi-
ficarse fácilmente y establecerse para el caso en que las Xi sean variables
62 Cirilo alvarez R.

aleatorias intercambiables. Por lo tanto la relación (1.24) se cumple y la


igualdad (1.25) tiene que modificarse para

σ2 n − 1 2
Var(X) = + ρσ (1.39)
n n
donde ρ es el coeficiente de correlación entre las variables aleatorias Xi y
Xj . Las expresiones para ( Xj )3 y ( Xj )4 en la prueba del teorema 1.3
P P

aún se mantienen, pero tanto (1.26) como (1.27) necesitan la modificación


adecuada. Por ejemplo, (1.26) cambia a

3 m3 + 3(n − 1)E(Xj2 Xk ) + (n − 1)(n − 2)E(Xj Xk Xl )


E(X ) = (1.40)
n2
Demostremos cómo cambia el Corolario 1.3 para variables aleatorias inter-
cambiables. Claramente
n
X
2
(n − 1)S = (Xi − µ)2 − n(X − µ)2
i=1

de modo que

(n − 1)E(S 2 ) = nσ 2 − nE(X − µ)2


= nσ 2 − {σ 2 + (n − 1)ρσ 2 }.

teniendo en cuenta la igualdad (1.40). Resulta que

E(S 2 ) = σ 2 (1 − ρ). (1.41)

Observamos que E(S 2 − σ 2 ) = −ρσ 2 y, además, del ejercicio ?? (o de de la


igualdad (1.40)) se observa que ρ ≥ −1/(n−1) de modo que 1−ρ ≤ n/(n−1)
y por lo tanto
n
0 ≤ E(S 2 ) ≤ σ2 (1.42)
n−1

Observación [Link] un muestreo aleatorio simple de una población (finita)


de tamaño N, observamos que cuando n = N, X = µ, que es una constante,
Cirilo alvarez R. 63

de modo que (1.40) se reduce a

σ2 N
0= + ρσ 2
N N−1

de modo que ρ = − N−1


1
. resulta que

σ2 N − n σ2
   
n−1
Var(X) = 1− = (1.43)
n N −1 N−1 n

El factor (N − n)/(N − 1) en (1.43) se denomina factor de corrección de


población finita. Cuando N → ∞, con n fija, (N − n)/(N − 1) → 1, de
modo que la expresión para Var(X) en la igualdad (1.43) se aproxima a la
de la igualdad (1.25).

Observación 1.10. En relación a la igualdad (1.39), si las variables aleato-


2
rias Xi no están correlacionadas, es decir, si ρ = 0, entonces Var(X) = σn ,

la desviación estándar (DS) de X es σ/ n. La DS de X a veces se denomi-

na error estándar (ES), aunque si σ es desconocido, S/ n se conoce más
comúnmente como el ES de X.

El siguiente teorema justifica la definición de la covarianza muestral.

Teorema 1.7. Sea (X1 , Y1 )(X2 , Y2 ) . . . , (Xn , Yn ) una muestra de una po-
blación bivariada con varianzas σX
2
y σY2 y covarianza ρσX σY . Entonces

2
E(SX 2
) = σX , E(SY2 ) = σY2 , E(SXY ) = ρσX σY (1.44)

donde SX
2
, SY2 y SXY están definidas en las ecuaciones (??) y (??)

Prueba. Del Corolario 1.3 al teorema 1.4 resulta que

E(S12 ) = σX
2
y E(S22 ) = σY2 .
64 Cirilo alvarez R.

Para probar que E(SXY ) = ρσ1 σ2 notamos que Xi es independiente de


Xj (i ̸= j) y Yj (i ̸= j). Tenemos

n
X
−1
SXY = (n − 1) (Xj − X)(Yj − Y )
j=1

tomando la esperanza matemática a ambos miembros de la expresión ante-


rior, tenemos

( n )
X
(n − 1)E(SXY ) = E (Xj − X)(Yj − Y )
j=1
n
X 
= E (Xj − X)(Yj − Y )
j=1

Luego,

 
E (Xj − X)(Yj − Y ) = E (Xj − X)Yj − Y (Xj − X)

= E (Xj − X)Yj − Y E(Xj − X)
 
= E (Xj − X)Yj − Y E(Xj ) − E(X)

= E (Xj − X)Yj − Y {E(X) − E(X)}

= E (Xj − X)Yj

= E (Xj Yj ) − XYj
= E(Xj Yj ) − E(XYj )
= E(XY ) − E(XYj )
Cirilo alvarez R. 65

ahora en el cálculo del término E(XYj ), hay que tener en cuenta las condi-
ciones de que Xi es independiente de Xj (i ̸= j) y Yj (i ̸= j) tenemos

" ( )#
1 X
= E(XY ) − E Xi Yi + X i Yj
n i̸=j
( )
1 X
= E(XY ) − E(Xi Yi ) + E(Xi )E(Yj )
n i̸=j
1
= E(XY ) − {E(XY ) + (n − 1)E(X)E(Y )}
  n
n−1
= (E(XY ) − E(X)E(Y ))
n

y resulta que

 
n−1
(n − 1)E(SXY ) = n (E(XY ) − E(X)E(Y ))
n

esto es

E(SXY ) = E(XY ) − E(X)E(Y ) = Cov(X, Y ) = ρσX σY .

Ejemplo 1.13. Suponga que una población está formada por cinco tiendas
ubicadas eb un cierto distrito. La característica a investigar es el número
de horas que permanecen abiertas diariamente estas tiendas y que se re-
presentan por la variable aleatoria X, y que los valores poblacionales está
presentadas en la tabla [Link]
66 Cirilo alvarez R.

Tabla [Link]: Valores poblacionales de la variable aleatoria X

Tiendas Valores de la
variable X

T1 12
T2 10
T3 14
T4 9
T5 10

Los valores de los parámetros media y varianza poblacional son respectiva-


mente, (aquí, el tamaño de la población es N = 5 )

5
1X 1
µ = E(X) = Xi = (12 + 10 + 14 + 9 + 10) = 11
5 i=1 5

5
2 1X 1  16
σ = VarX = (Xi − µ)2 = (12 − 11)2 + · · · + (10 − 11)2 =
5 i=1 16 5

Supongamos que de la población del ejemplo 1.13 se extrae una muestras


aleatorias simples de tamaño tres (n = 3) sin reposición, entonces existen
5
= 10 muestras. El valor del estadístico media muestral aparecen en la

3
tabla
Cirilo alvarez R. 67

Tabla [Link]: Valores poblacionales de la variable aleatoria X

Tiendas Valores Probabilidades Media Varianza


Muestra de la de la muestral muestral
S muestra (S) muestra (S) X Var(X)

(T1,T2,T3) (12 10 14) 1


10
12 4
(T1 T2 T4) (12 10 9) 1
10
31
3
7
3

(T1 T2 T5) (12 10 10) 1


10
32
3
4
3

(T1 T3 T4) (12 14 9) 1


10
35
3
19
3

(T1 T3 T5) (12 14 10) 1


10
12 4
(T1 T4 T5) (12 9 10) 1
10
31
3
7
3

(T2 T3 T4) (10 14 9) 1


10
11 7
(T2 T3 T5) (10 14 10) 1
10
34
3
16
3

(T2 T4 T5) (10 9 10) 1


10
29
3
1
3

(T3 T4 T5) (14 9 10) 1


10
11 7

A partir de la tabla anterior se elabora la siguiente tabla de distribución de


probabilidad sel estadístico media muestral,
68 Cirilo alvarez R.

Tabla [Link]: Distribución muestral del estadístico media muestralX

Valores de la Media muestral Probabilidades


variable X X X

(10, 9, 10) 29
3
1
10
31 2
{(12, 9, 10); (12, 9, 10)} 3 10

(12, 10, 10) 32


3
1
10

{(10, 14, 9); (14, 9, 10)} 11 2


10

(10 14 10) 34
3
1
10

(12 14 9) 35
3
1
10

{(12, 14, 10); (12, 10, 14)} 12 2


10

Calculo de la esperanza de la media muestral

X
E(X) = xi P(X = xi )
i
          
29 1 31 2 32 1 2
= + + + 11 +
3 10 3 10 3 10 10
       
34 1 35 1 2
+ + + 12
3 10 3 10 10
= 11

Se observa que la esperanza de la media muestral es igual al parámetro


media poblacional, esto es, E(X) = µ = 11.
Cirilo alvarez R. 69

Calculo de la varianza de la media muestral


2 
2 2
σX = Var(X) = E(X ) − E(X)
X X 2
2
= xi P(X = xi ) − xi P(X = xi )
i i
 2    2 
  2    
29 1 31 2 32 1 2 2
= + + + 11 +
3 10 3 10 3 10 10
 2    2    
34 1 35 1 2 2
+ + + 12 − 112
3 10 3 10 10
8
=
15
lo que puede comprueba la igualdad (1.43)
16    
5−3 16 2 8
2
σX = 5
= = aquí σ 2 = 16/5, N = 5, n = 3
3 5−1 15 4 15

Tabla [Link]: Distribución del estadístico varianza muestral S 2

Valores de la varianza muestral Probabilidades de S 2


variable X S2 P(S 2 = s2 )

(10, 9, 10) 1
3
1
10

(12,10, 10) 4
3
1
10
7 2
{(12, 10, 9); (12, 9, 10)} 3 10

{(12, 10, 14); (12, 14, 10)} 4 2


10

(10 14 10) 16
3
1
10

(12 14 9) 19
3
1
10

{(10, 14, 9); (14, 9, 10)} 7 2


10
70 Cirilo alvarez R.

Calculo de la esperanza de la varianza muestral


X
E(S 2 ) = s2i P(S 2 = s2i )
i             
1 1 4 1 7 2 2
= + + +4 +
3 10 3 10 3 10 10
       
16 1 19 1 2
+ + +7
3 10 3 10 10
=4

Lo que es concordante con la relación (1.41) con ρ = − N1−1

Calculo de la varianza de la varianza muestral


 4
2 42
Var(S ) = E(S ) − E(S )
X
E(S 4 ) = (s2i )2 P(S = si )
i
 2    2    2    
1 1 4 1 7 2 2 2
= + + +4 +
3 10 3 10 3 10 10
 2    2    
16 1 19 1 2 2
+ + +7
3 10 3 10 10
317
=
15
luego

317 77
Var(S 2 ) = − 42 =
15 15

Ejemplo 1.14. Considere una empresa dedicada al transporte y distribu-


ción de mercancías, la cual tiene una plantilla de 50 trabajadores. Durante
Cirilo alvarez R. 71

el último año se ha observado que 25 trabajadores han faltado 1 día al tra-


bajo. 20 trabajadores han faltado 2 días y 5 trabajadores han faltado 3 días.
Si se toma una muestra aleatoria, con reemplazo de tamaño 2 (X1 , X2 ) del
total de la plantilla, se pide:

(a) La distribución de probabilidad del número de días que ha faltado al


trabajo un empleado, su media y su varianza.
(b) Distribución de probabilidad del estadístico media muestral X
(c) Distribución de probabilidad del estadístico varianza muestral σ 2 .
(d) La media y varianza del estadístico media muestral.
(e) La probabilidad de que el estadístico media muestral, X sea menor que
2.
(f ) La media y varianza del estadístico varianza muestral.
(g) La probabilidad de que el estadístico varianza muestra, σ 2 , sea menor o
igual a 0.5.

Solución

(a) Denotemos con la letra X el número de días que ha faltado al trabajo un


empleado elegido aleatoriamente la plantilla total. De acuerdo al enun-
ciado, la variable aleatoria, X, puede tomar los valores 1, 2 y 3. Puesto
que la selección de realiza de manera aleatoria, todos los trabajadores
tienen la misma probabilidad de ser seleccionados. De esta manera se
obtiene la siguiente tabla de distribución de probabilidad de la variable
aleatoria X.
72 Cirilo alvarez R.

Tabla [Link]: Distribución de probabilidad de la variable aleatoria X

Valores de la Probabilidades
variable aleatoria X P(X = x)

1 1
2

2 2
5

3 1
10

A partir de esta distribución de probabilidad, se obtiene la media de la


población como sigue:

     
X 1 2 1 8
µ = E(X) = xi P(X = xi ) = 1 +2 +3 =
i
2 5 10 5

y la varianza

 2
σ 2 = Var(X) = E (X − µ)2 = E(X 2 ) − µ
 

X X 2
2
= xi P(X = xi ) − xi P(X = xi )
i i
       2
2 1 2 2 2 1 8
=1 +2 +3 −
2 5 10 5
11
= .
25

(b) seleccionamos una muestra aleatoria con remplazo de tamaño 2 del rango
de la variable aleatoria X, que en este caso es {x1 , x2 , x3 }, y como el
muestreo es con reposición existen 9 muestra posibles que se dan en la
tabla [Link].
Cirilo alvarez R. 73

Tabla [Link]: Muestras de tamaño 2 y valores muestrales para las distribu-


ciones de probabilidad de X y S 2

muestras Valores Probabilidades media Varianza


muestral muestral
(X1 , X2 ) muestrales P(X1 = x1 , X2 = x2 ) X S2

(x1 , x1 ) (1, 1) 1
4
1 0
(x2 , x1 ) (2, 1) 1
5
3
2
1
2

(x3 , x1 ) (3, 1) 1
20
2 2
(x1 , x2 ) (1, 2) 1
5
3
2
1
2

(x2 , x2 ) (2, 2) 4
25
2 0
(x3 , x2 ) (3, 2) 1
25
5
2
1
2

(x1 , x3 ) (1, 3) 1
20
2 2
(x2 , x3 ) (2, 3) 1
25
5
2
1
2

(x3 , x3 ) (3, 3) 1
100
3 0

Para calcular las probabilidades de las medias muestrales, tengamos en


cuenta que las variables X1 y X2 son independientes, ya que el muestreo
se ha realizado con reemplazo. Entonces, los siguientes eventos:

{x = 1} ⇔ {(x1 = 1, x2 = 1)}
3
{x = } ⇔ {(x1 = 1, x2 = 2) ∪ (x1 = 2, x2 = 1)}
2
{x = 2} ⇔ {(x1 = 1, x2 = 3) ∪ (x1 = 3, x2 = 1) ∪ (x1 = 2, x2 = 2)}
5
{x = } ⇔ {(x1 = 2, x2 = 3) ∪ (x1 = 3, x2 = 2)}
2
{x = 3} ⇔ {(x1 = 3, x2 = 3)}

son equivalentes y las probabilidades de eventos equivalentes son iguales,


74 Cirilo alvarez R.

así, se las probabilidades

P ({x = 1}) = P ({(x1 = 1, x2 = 1)})


= P({x1 = 1})P({x2 = 1})
1
=
  4
3
P x= = P ({(x1 = 1, x2 = 2) ∪ (x1 = 2, x2 = 1)})
2
= P ({(x1 = 1, x2 = 2)}) + P ({(x1 = 2, x2 = 1)})
= P ({x1 = 1}) P ({x2 = 2}) + P ({x1 = 2}) P ({x2 = 1})
1 2 2 1 2
= · + · =
2 5 5 2 5
P({x = 2}) = P{(x1 = 1, x2 = 3) ∪ (x1 = 3, x2 = 1) ∪ (x1 = 2, x2 = 2)}
= P{x1 = 1, x2 = 3} + P{x1 = 3, x2 = 1} + P{x1 = 2, x2 = 2}
= P{x1 = 1} · P{x2 = 3} + P{x1 = 3} · P{x2 = 1}+
+ P{x1 = 2} · P{x2 = 2}
1 1 1 1 2 2 13
= · + · + · =
  2 10 10 2 5 5 50
5
P x= = P{x1 = 2, x2 = 3} + P{x1 = 3, x2 = 2}
2
= P{x1 = 2} · P{x2 = 3} + P{x1 = 3} · P{x2 = 2}
2 1 1 2 2
= · + · =
5 10 10 5 25
P({x = 3}) = P{(x1 = 3, x2 = 3)} = P{x3 = 3} · P{x2 = 3}
1 1
= ·
10 10
1
=
100

Luego, la distribución de probabilidad de la media muestral, X tenemos


en la tabla [Link].
Cirilo alvarez R. 75

Tabla [Link]: Distribución de probabilidad del estadístico media muestral


X

Valores del Probabilidades


estadístico X P(X = x)

1 1
4
3 2
2 5

2 13
50
5 2
2 25

3 1
100

(c) En forma análoga, se obtiene la distribución de probabilidad del esta-


dístico varianza muestral S 2 que aparece en la tabla [Link].

Tabla [Link]: Distribución de probabilidad del estadístico varianza muestral


S2

Valores del Probabilidades


estadístico S 2 P(S 2 = s2 )

0 21
50
1 12
2 25

2 1
10

(d) Para calcular la media y varianza del estadístico media muestral toma-
mos en cuenta su distribución de probabilidad dada en la tabla [Link]
76 Cirilo alvarez R.

resulta:

X
µX = E(X) = xi P(X = xi )
i
           
1 3 2 13 5 2 1
=1 + +2 + +3
4 2 5 50 2 25 100
8
=
5

De aquí se deduce que la media muestral es igual a la media poblacional


o lo es lo mismo la esperanza de la media muestral es igual a la esperanza
poblacional, µX = E(X) = E(X) = µ.
Calculo de la varianza de la media muestral

   2
2
 2 2
σX = Var(X) = E X − E(X) = E(X ) − E(X)
X X 2
2
= xi P(X = xi ) − xi P(X = xi )
i i
   2      2      2
2 1 3 2 2 13 5 2 2 1 8
=1 + +2 + +3 −
4 2 5 50 2 25 100 5
11
= .
50

Aquí otra conclusión, que la varianza de la media muestral es igual a la


varianza de la población dividido entre el tamaño de la muestra; esto es,

2 Var(X) σ2
σX = Var(X) = =
n n

En el ejemplo n = 2 y Var(X) = 11/25; por consiguiente σX 2


=
11
Var(X) = 25 /2 = 11/50.
(e) Con la tabla de la distribución de probabilidad del estadístico media
Cirilo alvarez R. 77

muestral, [Link] se tiene:


  
3
P(X < 2) = P {X = 1} ∪ X =
2
 
 3
= P {X = 1} + P X=
2
1 2 13
= + = .
4 5 20
(f ) Teniendo en cuenta la distribución de probabilidad del estadístico va-
rianza muestral, S 2 , dada en la tabla [Link] y procediendo de manera
análoga a como se ha procedido para la media muestral, tenemos
X
µS 2 = E(S 2 ) = s2i P(S 2 = s2 )
i
     
21 1 12 1
=0 + +2
50 2 25 10
11
= .
25
Se observa que la esperanza del estadístico varianza muestra, S 2 , es igual
a la varianza poblacional.
Calculo de la varianza de la varianza muestral
   2
2 2
 2 2 2 4 2
σS 2 = Var(S ) = E S − E(S ) = E(S ) − E(S )
!2
X X
= (s2i )2 P(S 2 = s2i ) − (s2i )P(S 2 = s2i )
i i
   2      2
21 1 12 1 11
= 02 + +2 2

50 2 25 10 25
204
= ,
625
la cual es concordante co la fórmula 1.4 que es
 2
2 µ4 3−n 2 287 3−2 11 204
Var(S ) = + µ2 = /2 + = .
n n(n1) 1250 2(2 − 1) 25 625
78 Cirilo alvarez R.

(g) Con base en la distribución de probabilidad del estadístico varianza S 2 ,


tabla [Link] se tiene:

P(S 2 ≤ 0.5) = P({S 2 = 0.0} ∪ {S 2 = 0.5})


= P({S 2 = 0.0}) + P({S 2 = 0.5})
21 12
= +
50 25
9
=
10

1.7 Función característica de la media


muestral, X
En lo que sigue, centramos nuestra atención en las distribuciones de las ca-
racterísticas de la muestra. Existen varias posibilidades. Si la distribución
muestral exacta es posible aplicar, entonces el método de transformación
de variables o funciones de vectores muestrales pueden ser usados. A veces
la técnica de la función característica puede ser aplicado. Po lo tanto, si
X1 , X2 , . . . , Xn es una muestra aleatoria de una distribución poblacional pa-
ra la cual la función característica existe, entonces la función característica
(fc)de la media muestral, X, es definida por
n
!   n

itX
  Pn 1 
it j=1 n Xj
Y Xj
it n t
ΦX (t) = E e =E e =E e = ΦX
j=1
n

donde ΦX es la función característica de la distribución poblacional.

Ejemplo 1.15. Sea X1 , X2 , . . . , Xn una muestra de una población con dis-


tribución Γ(α, 1). Calculemos la función de densidad de probabilidad de la
Cirilo alvarez R. 79

media muestral X: Tenemos


  n
t
ΦX (t) = ΦX (1.45)
n

por otro lado sabemos que si X ∼ Γ(α, 1) −→ ΦX (t) = (1 − it)−α , luego


  n " −α #n  −nα
t t t
ΦX (t) = ΦX = 1−i = 1−i
n n n

y por el teorema de la unicidad de la función característica se concluye que


X ∼ Γ(nα, n1 ) ■

Ejemplo 1.16. Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población


con distribución uniforme en el intervalo (0, 1). Considere la media geomé-
Q  n1
trica, Yn = X G = n
j=1 XJ tomando logaritmo a ambos lados de la
desigualdad anterior se tiene log(Yn ) = log X G = n1 nj=1 log(Xj ), por lo
 P

tanto log X G es la media aritmética de los log X1 , . . . , log Xn .




La función de densidad común de log X1 , . . . , log Xn ; es decir, la densidad


de log(X), es 
 ex si x < 0
f (x) =
 0 si c.c.

la cual es la distribución exponencial negativa con parámetro β = 1. Luego


la función característica de log Yn es
 −n
t
Φlog Yn (t) = 1+i
n

y la función de densidad de probabilidad de log Yn está dada por



 nn (−x)n−1 enx , si −∞ < x < 0
Γ(n)
flog Yn (x) =
 0 si c.c.
80 Cirilo alvarez R.

Resultando la función de densidad de probabilidad de Yn



 nn y n−1 (− log y)n−1 , si 0 < y < 1
Γ(n)
fYn (y) =
 0 si c.c.

Ejercicios Propuestos
1. Sea X1 , X2 , . . . , Xn una muestra aleatoria de un fd F , y sea F̂ (x) la
función de distribución de la muestra. Encuentre Cov(F̂ (x), F̂ (y)) para
números reales fijos x, y.

2. Sea Fn∗ la función de distribución empírica de una muestra aleatoria de


una función de distribución F . Demuestre que
 
∗ ϵ 1
P |Fn (x) − F (x)| ≥ √ ≤ 2.
2 n ϵ

3. Se lanza un dado equilibrado. Sea X el valor nominal que aparece, y X1


X2 sean dos observaciones independientes sobre X. Calcule la función
de probabilidad de X.

4. Demuestre que el coeficiente de correlación muestral r satisface |r| ≤ 1


con igualdad si y solo si todos los puntos de muestra se encuentran en
una línea recta.

5. Si escribimos Ui = aXi + b (a ̸= 0) y Vi = cYi + d (c ̸= 0), ¿cuál es el


coeficiente de correlación de la muestra entre las U y las V ?.

6. Se toma una muestra de tamaño 2 de la fdp



 1, si 0 ≤ x ≤ 1
f (x) =
 0, si de lo contrario
Cirilo alvarez R. 81

Encuentre P (X ≥ 0.9)

7. Se toma una muestra de tamaño 2 de Ber(1, θ):


(i) Encuentre P (X ≤ θ) (ii) Encuentre P (S 2 ≥ 0.5).

8. sean X1 , X2 , . . . , Xn una muestra aleatoria de la N (µ, σ 2 ). Calcule los


primeros cuatro momentos muestrales de X sobre el origen y sobre la
media. También calcule los primeros cuatro momentos de muestra de
S 2 sobre su media.

9. Sea U(1) , . . . , U(n) será el estadístico de orden de una muestra de tamaño


n de la U (0, 1). Calcule E(U(r) k
) para cualquier 1 ≤ r ≤ n y entero
k(> 0). En particular, demuestre que

r r(n − r + 1)
E(U(r) ) = Var(U(r) ) =
n+1 (n + 1)2 (n + 2)

Demuestre también que el coeficiente de correlación entre U(r) y U(s)


para 1 ≤ r < s ≤ n está dado por
 1/2
[r(n − s + 1)
.
s(n − r + 1)

10. Sea X1 , X2 , . . . , Xn n observaciones independientes sobre X. Encuentre


la distribución muestral de X, la media muestral, (a) si X ∼ P (λ), (b)si
X ∼Cauchy(0, 1) y (c) si X ∼ χ2 (m)

1.8 Más Ejemplo sobre muestreo


Esta sección intentará motivar aún más el uso de tomar una muestra. La
idea principal es que tenemos una población que deseamos comprender.
Pero debido al tamaño, el costo u otras razones, no podemos ver a todos
82 Cirilo alvarez R.

en esta población. Algunas poblaciones son claramente demasiado grandes,


por lo que incluso si estamos interesados en la distribución de las alturas
de los europeos, por ejemplo, medir a todos los europeos sería una tarea
importante. Por el contrario, si estamos interesados en el alcoholismo, los
alcohólicos pueden no estar dispuestos a identificarse fácilmente y, por lo
tanto, identificar a esta población sería difícil. En cambio, tomamos una
muestra (porque es más barata, o más rápida, o lo único posible) y usamos
esta muestra para hacer suposiciones razonables sobre la población.

Revisaremos el ejemplo de la sección anterior para ver cómo podría funcionar


esto.

Ejemplo 1.17. Una alcancía contiene seis monedas: una de 5c, dos de 10c,
una de 20c y dos monedas de 50c (c=centavos). Enumere todas las mues-
tras aleatorias posibles de tamaño dos de la alcancía, las probabilidades de
obtener cada una de estas muestras aleatorias, y enumere todas las medias
y variaciones posibles de la muestra. Considere cómo estas medias y varia-
ciones muestrales se relacionan con la media y la varianza de la población.

solution Sea X la variable aleatoria que representa la población. Podemos


construir la distribución de probabilidad de X:

Tabla [Link]: Distribución de probabilidad de X.

X 5c 10c 20c 50c


1 2 1 2
P(X = x) 6 6 6 6

y podemos calcular los parámetros media y la varianza poblacional para


esta población. Tenemos, por ejemplo, que
Cirilo alvarez R. 83

   
X 1 2 145
µ = E(X) = xP(X = x) = 5 × + · · · + 50 × =
x
6 6 6
y
X
σ 2 = VarX = E(X 2 ) − (E(X))2 = x2 P(X = x)
x
     2
2 1 2 2 145
=5 × + · · · + 50 × − ≈ 353.47
6 6 6

Por lo general, estos serían parámetros de población que no sabríamos, pero


para este ejemplo de una población conocida podemos calcularlos. Ahora
podemos intentar ver cómo las medias y varianzas muestrales se relacionan
con los parámetros de la población.

Para enumerar todas las muestras aleatorias posibles (junto con sus medias
y variaciones muestrales) y las probabilidades de obtener cada muestra, es
útil producir una tabla como la siguiente:
84 Cirilo alvarez R.

Distribución de la muestra
Muestras valores № P[(X1 , X2 ) = (x1 , x2 )] Media Varianza
muestrales de o muestral muestral
posibles (X1 , X2 ) formas P[(X1 = x1 , X2 = x2 )] X S2

(x1 , x1 ) (5c,5c) 1 1
36
5 0
(x1 , x2 ) (5c,10c) 4 4
36
7.5 12.5
(x1 , x4 ) (5c,20c) 2 2
36
12.5 112.5
(x1 , x5 ) (5c,50c) 4 4
36
27.5 1012.5
(x2 , x2 ) (10c,10c 4 4
36
10 0
(x2 , x4 ) (10c,20c) 4 4
36
15 50
(x3 , x5 ) (10c,50c) 8 8
36
30 800
(x4 , x4 ) (20c,20c) 1 1
36
20 0
(x4 , x5 ) (20c,50c) 4 4
36
35 450
(x6 , x6 ) (50c,50c) 4 4
36
50 0

Se puede ver que la primera columna contiene todos los membretes de la


muestra aleatoria, la segunda columna contiene todos los valores de todas las
muestras aleatorias posibles de tamaño dos. Hay varias formas de calcular la
probabilidad de que ocurra una muestra en particular. Debido a que nuestra
definición de una muestra aleatoria coincide con el muestreo aleatorio con
reemplazo, existen 6 × 6 = 36 configuraciones posibles de muestras de
tamaño dos. Tenemos que elegir una de las 6 monedas para nuestra primera
selección aleatoria, y una de las 6 monedas nuevamente para nuestra segunda
selección de la muestra aleatoria. Solo hay una forma posible de obtener
una muestra de dos monedas de 5c: debemos seleccionar la moneda de 5c
en nuestra primera selección y luego seleccionarla nuevamente en nuestra
segunda selección.
Cirilo alvarez R. 85

Entonces, la probabilidad de que obtengamos la muestra (5c, 5c) es 61 ×


1
6
= 36 1
. Un ejemplo más difícil lo da la siguiente fila. Una muestra de
(5c, 10c) podría ocurrir de varias maneras. Etiquetemos con los símbolos
x1 , x2 , . . . , x6 , dispongamos en los ejes cartesianos y formemos pares orde-
nados y se observa que existen cuatro pares ordenados con el mismo valor
media muestral por lo que la probabilidad de obtener dicha muestra es 4/36.
Las dos columnas finales para la media muestral y la varianza muestral se
calculan usando fórmulas las siguientes fórmulas.

n
!2 

 X 

n n


 n
x i



1 X
2 1 X
2 1  X
2 i=1

x= xi , s = (xi −x) = xi − .
n i=1 n − 1 i=1 n−1  i=1 n 


 


 

La tabla anterior enumera todas las medias de muestras posibles y todas


las varianzas de muestra posibles que podríamos obtener, con la finalidad
de realizar fácilmente los cálculos. Por ejemplo, obtener una varianza mues-
tral de 0 solo es posible si observamos una de las siguientes muestras:
(5c, 5c) o (10c, 10c) o (20c, 20c) o (50c, 50c). La probabilidad de obtener
cualquiera de estas muestras es 1/36, 4/36, 1/36 y 4/36, respectivamen-
te, por lo que la probabilidad de obtener una varianza muestral de 0 es
1/36 + 4/36 + 1/36 + 4/36 = 10/36. Podemos repetir tales cálculos y ha-
cer distribuciones de probabilidad para cada estadística de muestra. Una
distribución de probabilidad para una estadística de la muestra se conoce
como distribución de muestreo. La distribución muestral para la media
muestral X es

Tabla [Link]: Distribución muestral de X.

X 5 7.5 10 12.5 15 20 27.5 30 35 50


1 4 4 2 4 1 4 8 4 4
P(X = x) 36 36 36 36 36 36 36 36 36 36
86 Cirilo alvarez R.

Calcular las siguientes probabilidades

1. P(X < 10) 3. P(10 < X ≤ 27.5)

2. P(X > 20) 4. P(12.5 < X < 35)

La distribución muestral para la varianza muestral S 2 es

Tabla [Link]: Distribución muestral de S 2

S2 0 12.5 50 112.5 450 800 1012.5


10 4 4 2 4 8 4
P(S 2 = s2 ) 36 36 36 36 36 36 36

Calcular las siguientes probabilidades

1. P(S 2 < 50) 3. P(S 2 = 0)

2. P(S 2 > 112.5) 4. P(12.5 < S 2 < 450)

Tenga en cuenta que usamos letras mayúsculas para las variables aleatorias
correspondientes a la media muestral y la varianza muestral: esto es para
reconocer explícitamente que se basan en una muestra aleatoria, y también
lo son las variables aleatorias en sí mismas.

Ahora que tenemos estas distribuciones de muestreo (que no son más que
distribuciones de probabilidad), hacemos los siguientes cálculos:
     
1 4 4 145
E(X) = 5× + 7.5 × + · · · + 50 × = = E(X) = µ
36 36 36 6
Cirilo alvarez R. 87

     2
2 2 22 1 2 4 145
σX = E(X ) − [X] = 5 × + · · · + 50 × −
36 36 6
2
Var(X) σ
= 176.736 = = ,
2 2

de los anteriores se concluye que, la media de la media muestral es igual


a la media de la población; la varianza de la media muestral es igual a la
varianza de la población dividido por el tamaño de la muestra.

En forma similar calculamos la esperanza de la varianza muestral, S 2 como


sigue:

X
E(S 2 ) = s2 P(S 2 = s2 )
2
s     
10 4 4
= 0× + 12.5 × + · · · + 1012.5 ×
36 36 36
= 353.47 = σ 2 = Var(X).

Luego se concluye que la esperanza de la varianza muestral es igual a la


varianza de la población.

Ejemplo 1.18. (Hoghen [46]) Sean X1 , X2 , . . . , Xn una muestra de una


distribución de Bernoulli con parámetro θ, 0 < θ < 1. Sea X la media
muestral y S 2 la varianza muestral. Deseamos encontrar la función de dis-
tribución de S 2 .

solución
n n
Tenga en cuenta que, Sn = Xj2 y que Sn ∼ Binomial (n, θ).
P P
Xj =
j=1 j=1
88 Cirilo alvarez R.

Como
n
X
2
(n − 1)S = Xj2 − n(X)2
j=1
Sn (n − Sn )
=
n
S 2 asume solo valores de la forma
i(n − i) jnk
t= , i = 0, 1, 2, . . . ,
n(n − 1) 2
donde ⌊x⌋ es el entero mayor menor o igual a x. Así
P(S 2 = t) = P(nSn − Sn2 = i(n − i))
( )
 n 2  n 2
= P Sn − = i−
2 2
o
= P Sn = i o Sn = n − i

   
n i n−i n n−i
= θ (1 − θ) + θ (1 − θ)i
i i
 
n i n o jnk
= θ (1 − θ)i (1 − θ)n−2i + θn−2i i≤
i 2
Si n = 2m, es decir, donde m ≥ 0 es un entero y i = m, entonces
 

2 m  2m m
P S = =2 θ (1 − θ)m ,
2(2m − 1) m
En particular, si n = 7, i = 0, 1, 2, 3 y t = 0, 71 , 21
5 2
,7 y
P(S 2 = 0) = (1 − θ)7 + θ7
!
2 1 n
5 5
o
P S = = 7θ(1 − θ) (1 − θ) + θ
7
!
2 5 2 2
n
2 2
o
P S = = 21θ (1 − θ) (1 − θ) + θ
21
!
2
P S2 = = 35θ3 (1 − θ)3
7
Cirilo alvarez R. 89

Si n = 6, i = 0, 1, 2, 3, t = 0, 16 , 15
4 3
, 10 y las probabilidades resultan

P(S 2 = 0) = (1 − θ)6 + θ6
!
1 n o
P S2 = = 6θ(1 − θ) (1 − θ)4 + θ4
6
!
4 n o
P S2 = = 15θ2 (1 − θ)2 (1 − θ)2 + θ2
15
!
3
P S2 = = 40θ3 (1 − θ)3
10


90 Cirilo alvarez R.
Fundamentos de estadística

14 de mayo de 2023
ii Cirilo alvarez R.

También podría gustarte