Fundamentos de Estadística: Análisis y Modelos
Fundamentos de Estadística: Análisis y Modelos
1 Fundamentos de Estadística 3
1.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Datos, Modelos, Parámetros y Estadísticas . . . . . . . . . . 5
1.2.1 Datos y Modelos . . . . . . . . . . . . . . . . . . . . 5
1.2.2 Modelos paramétricos y no-paramétricos . . . . . . . 13
1.3 Poblaciones y Muestras . . . . . . . . . . . . . . . . . . . . . 17
1.4 Ejercicios Resueltos . . . . . . . . . . . . . . . . . . . . . . 24
1.5 Estadísticos como funciones en el espacio muestral . . . . . . 28
1.6 Propiedades de la muestra y sus distribuciones . . . . . . . . 34
1.7 Función característica de la media
muestral, X . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
1.8 Más Ejemplo sobre muestreo . . . . . . . . . . . . . . . . . . 81
1
2 Cirilo alvarez R.
Capítulo 1
Fundamentos de Estadística
1.1 Introducción
La estadística se ocupa de la recopilación de datos y de su análisis e inter-
pretación. No consideraremos el problema de la recopilación de datos en
este libro, pero tomaremos los datos como dados y preguntaremos qué tie-
nen que informarnos estos datos. La respuesta depende no solo de los datos,
de lo que se está observando, sino también del conocimiento previo de la
situación; este último se formaliza en los supuestos con los que se ingresa al
análisis. Por lo general, ha habido tres líneas principales de enfoque:
3
4 Cirilo alvarez R.
Estos tres métodos de enfoque permiten conclusiones cada vez más sólidas,
pero lo hacen al precio de suposiciones que son correspondientemente más
detalladas y posiblemente menos confiables. A menudo es deseable usar
diferentes formulaciones en conjunto; por ejemplo, planificando un estudio
(p. ej., determinando el tamaño de la muestra) bajo suposiciones bastante
detalladas pero realizando el análisis bajo un conjunto más débil que parece
más confiable. En la práctica, a menudo es útil modelar un problema de
varias maneras diferentes. Entonces uno puede estar satisfecho si hay un
acuerdo razonable entre las conclusiones; en caso contrario, se indicará un
examen más detenido de los diferentes conjuntos de supuestos.
(3) Las matrices de escalares y/o caracteres como en las tablas de contin-
gencia o más en generalmente, factores múltiples con datos de respuesta
múltiple sobre una serie de personas.
(4) Todo lo anterior y más, en particular, las funciones como en el pro-
cesamiento de señales, árboles como en las filogenias evolutivas, y así
sucesivamente.
■
Cirilo alvarez R. 9
Xi = µ + ϵi 1≤i≤n (1.3)
(1) El valor del error cometido en una medición no afecta al valor del error
cometido en las mediciones en otros momentos. Es decir, ϵ1 , ϵ2 . . . ,ϵn son
independientes.
(2) La distribución del error en una medición es la misma que el error en
otra medición. Así ϵ1 , ϵ2 . . . ,ϵn son idénticamente distribuidos.
(3) La distribución de ϵ es independiente de µ.
De manera equivalente X1 , X2 , . . . , Xn es una muestra aleatoria y, si
consideramos que G es la función de distribución de ϵ1 y F el de X1 ,
entonces
F (x) = G(x − µ) (1.4)
y el modelo se especifica alternativamente por F, el conjunto de F ′ s que
postulamos, o por {(µ, G) : µ ∈ IR, G ∈ G} donde G es el conjunto de
todas las distribuciones de los errores permitidos que postulamos. Las
G ′ s comúnmente considerados son todas las distribuciones con centro de
simetría 0, o alternativamente, todas las distribuciones con esperanza 0.
El modelo clásico por defecto es:
(4) La distribución común de los errores es N (0, σ 2 ), donde σ 2 se desconoce.
Es decir, las Xi son una muestra de una población N (µ, σ 2 ) o equiva-
lentemente F = {Φ( x−µ σ
) : µ ∈ IR, σ > 0} donde Φ es la distribución
normal estándar.
El modelo por defecto también se postula con frecuencia para las medicio-
nes realizadas en unidades obtenidas por muestreo aleatorio de poblaciones,
por ejemplo, las alturas de los individuos o los ingresos logarítmicos. Es
importante recordar que, en el mejor de los casos, se trata de suposiciones
Cirilo alvarez R. 11
que sólo tienen una validez aproximada. Todas las mediciones reales son
discretas y no continuas. La mayoría de las cantidades tienen límites ab-
solutos: los hombres de 30 metros de altura son imposibles. Las alturas
siempre son no negativas. La distribución gaussiana, sean cuales sean µ y
σ, no tendrá nada de esto.
Pθ = {Pθ : θ ∈ Θ ⊆ IRk }
Ejemplos
1. Familia Bernoulli
2. Familia Binomial
3. Familia Poisson
4. Familia Uniforme
7. Familia Gamma
Esto tiene sentido, porque si, para datos fijos, dos parámetros únicos dieran
lugar a la misma probabilidad, entonces sería imposible distinguir entre
los dos parámetros candidatos basándose únicamente en los datos. Sería
imposible identificar el verdadero parámetro, en ese caso.
1 x/θ1 1
e = ex/θ2
θ1 θ2
para (casi) todo x > 0. Si tomamos los logaritmos de ambos lados obtene-
mos
x x
− ln θ1 − = − ln θ2 −
θ1 θ2
Es (casi) idénticamente cero. La única recta que hace tal cosa es la que
16 Cirilo alvarez R.
2 2
1 1
x−µ1 x−µ1
−1 −1
fθ1 (x1 , . . . , xn ) = √ e 2 σ1
̸= fθ2 (x1 , . . . , xn ) = √ e 2 σ2
2πσ1 2πσ2
por consiguiente la familia paramétrica es identificable. ■
Sin embargo, ¿cuál es la relación entre x y θ? ¿están cerca uno del otro (si
no igual) en algún sentido?. La varianza de la muestra s2 es claramente un
promedio de las desviaciones al cuadrado de xi respecto de su media. Pero,
¿qué tipo de información proporciona s2 ?. Finalmente, ¿es suficiente solo
observar a x y s2 con el propósito de medir θ? Estas preguntas no pueden
ser contestadas con el análisis descriptivo de los datos.
p(s)
P(X1 = yi1 , . . . , Xn = yin ) = , s = {i1 , . . . .in } ∈ S (1.6)
n!
Entonces (yi , i ∈ s) puede ser visualizado como la realización de la muestra
(X1 ,X2 ,. . . ,Xn ). Si p(s) es constante, entonces el plan de muestreo se llama
muestreo aleatorio simple (sin reposición) y (X1 ,X2 ,. . . ,Xn ) se llama una
muestra aleatoria simple. Aunque X1 ,X2 ,. . . ,Xn se distribuyen de manera
idéntica, no son necesariamente independiente. Por lo tanto, a diferencia de
los dos ejemplos anteriores, la población en este problema puede no estar
especificada por las distribuciones marginales de las Xi . La población está
determinada por P y la medida de probabilidad de selección conocida p. Por
esta razón, P a menudo es considerado como la población. Las conclusiones
acerca de Y y otras características de P pueden hacerse sobre la base de
datos yi , i ∈ s, que se discutirá más adelante. ■
Ejercicio 1
¿Cuáles de las siguientes parametrizaciones son identificables? (Pruebe o
desapruebe.)
Solución
(a) No identificable
Del del enunciado se tiene
Considerando
θ1 = (α1 , α2 , . . . , αp , ν, σ 2 ) y θ2 = (α1 + 1, . . . , αp + 1, ν − 1, σ 2 ), entonces
θ1 ̸= θ2 , pero
(x −(αi +ν))2 (xi −((αi +1)+(ν−1)))2
− i 2 −
2σ 2σ 2
fθ1 (x) = e =e = fθ2 (x)
(x −(αi +ν))2 (x −(αi +ν))2
− i 2 − i
2σ 2σ 2
fθ1 (x) = e =e = fθ2 (x)
σ 2 = σ 2∗ y
αi + ν = αi∗ + ν ∗ para i = 1, 2, . . . , p
Cirilo alvarez R. 23
entonces
p p p p
X X X X
(αi + ν) = (αi∗ + ν ∗ ) ⇒ αi + pν = αi∗ + pν∗
i=1 i=1 i=1 i=1
p p
X X
⇒ ν = ν ∗ por lo tanto αi = αi∗ ⇒ αi = αi∗ para i = 1, 2, . . . , p
i=1 i=1
(c) No identificable,
Y − X ∼ N (µ2 − µ1 , 2σ 2 ). consideremos θ1 = (µ1 , µ2 ) y θ2 = (µ1 +
1, µ2 + 1), entonces θ1 ̸= θ2 pero fθ1 (y − x) = fθ2 (y − x).
(d) No identificable. Considere
θ1 = (α1 , α2 , . . . , αp , λ1 , λ2 , . . . , λb , ν, σ 2 )
θ2 = (α1 + 1, . . . , αp + 1, λ1 , λ2 , . . . , λb , ν − 1, σ 2 ),
entonces, θ1 ̸= θ2 , luego
2
2 −1/2 xi,j − (ν + αi + λj )
fθ1 (xi,j ) = (2πσ ) exp
σ
y
2
2 −1/2 xi,j − ((ν − 1) + (αi + 1) + λj )
fθ2 (xi,j ) = (2πσ ) exp
σ
2
2 −1/2 xi,j − (ν + αi + λj )
= (2πσ ) exp = fθ1 (xi,j )
σ
Por tanto, el modelo es no identificable.
(e) Identificable.
Si θ = (α1 , α2 , . . . , αp , ν, σ 2 ) y θ ∗ = (α1∗ , α2∗ , . . . , αp∗ , ν ∗ , σ 2∗ ) tal que
fθ (x) = fθ∗ (x), entonces,
σ 2 = σ 2∗ y
αi + λj + ν = αi∗ + λ∗j + ν ∗ para i = 1, 2, . . . , p; j = 1, 2, . . . , b
24 Cirilo alvarez R.
entonces
p b p b
X X X X
(αi + λj + ν) = (αi∗ + λ∗j + ν ∗ ) ⇒ ν = ν ∗ y por tanto
i=1 J=1 i=1 J=1
p p b b
X X X X
αi = αi∗ = λj = λ∗j = 0
i=1 i=1 i=1 i=1
Similarmente
b
X b
X
(αi + λj + ν) = (αi∗ + λ∗j + ν ∗ ) ⇒ αi = αi∗ j = 1, 2, . . . , b.
J=1 J=1
p p
X X
(αi + λj + ν) = (αi∗ + λ∗j + ν ∗ ) ⇒ λj = λ∗j i = 1, 2, . . . , p.
J=1 J=1
0.1 unidades. Suponga que los errores son variables aleatorias normales
distribuidas de manera idéntica con una varianza conocida.
(c) En ítem (b) suponga que la cantidad de sesgo es positiva pero descono-
cida. ¿Puedes percibir alguna dificultad para hacer afirmaciones sobre
µ para este modelo?
Solución
Los ítem (b) y (c) se deja a los estudiantes para que los resuelvan.
Ejercicio 2
´ ¿Son identificables las siguientes parametrizaciones? (Probar o refutar)
Solución
(b) Igual que (a) con (α1 , . . . , αp ) y (λ1 . . . , λb ) restricto a los conjuntos
donde pi=1 αi = 0 y bj=1 λi = 0.
P P
Ejercicio 2
¿Cuál de los siguientes modelos son identificables? (Probar o refutar)
X = Xn = X
| × X{z
· · · × X} .
n veces
X(w) T (X)
X
Ω IRm
w1 X1 (w) T1 (X)
w2 X2 (w) T2 (X)
.. .. ..
. . .
wn Xn (w) Tm (X)
(T ◦ X)(x)
Dos de los estadístico comúnmente más utilizados son definidas como sigue.
Definición 1.6. Sea X1 ,X2 ,. . . ,Xn una muestra aleatoria de tamaño n ex-
traída de una población con función de distribución común F . Entonces el
estadístico
n
1X
X= Xi
n i=1
30 Cirilo alvarez R.
n
2 1 X 2
S = Xi − X .
n − 1 i=1
d
y X1 = X2 . Se puede usar un argumento similar para mostrar que X1 , X2 , . . . , Xn
todos tienen la misma distribución pero no son independientes. De hecho,
Cirilo alvarez R. 31
Tome ahora T(X1 , X2 , . . . , Xn ) = (X(1) < X(2) < · · · , < X(n) ). En-
tonces el i-ésimo estadístico de orden es X(i) para i = 1, 2, . . . , n.
3. Combinaciones lineales n
de las observaciones:
ai Xi con a1 , a2 , . . . , an constantes.
P
T (X1 , X2 , . . . , Xn ) =
i=1
Esta fdp o fmp conjunta de la muestra puede ser utilizado para calcular
probabilidades que incluyen la muestra. Como X1 , X2 , . . . , Xn son idénti-
camente distribuidas, todas las densidades marginales f (x|θ) son la misma
función.
= e−2n/β .
probabilidad de 1
n
en cada punto de datos Xj . Formalmente,
n
1X
Fbn (x) = I(Xj ≤ x) (1.8)
n j=1
Tenga en cuenta que 0 ≤ Fbn (x) ≤ 1 para todo x, y, además, Fbn es continua
por la derecha, no decreciente, y Fbn (−∞) = 0, Fbn (∞) = 1.
Para todo x ∈ IR fijo pero por lo demás arbitraria, en sí Fbn (x) es una
variable aleatoria.
tenemos:
5
1X
si x < 4 ⇒ Fb5 (x) = ϵ(x − Xj ) = 0
5 j=1
5
1X
si 4 ≤ x < 5 ⇒ Fb5 (x) = ϵ(x − Xj ) = 1
5
5 j=1
5
1X
si 5 ≤ x < 8 ⇒ Fb5 (x) = ϵ(x − Xj ) = 2
5
5 j=1
5
1X
si 8 ≤ x < 10 ⇒ Fb5 (x) = ϵ(x − Xj ) = 4
5
5 j=1
5
1X
si x ≥ 10 ⇒ Fb5 (x) = ϵ(x − Xj ) = 1
5 j=1
y
P I(Xj ≤ x) = 0 = P(Xj > x) = 1 − P(Xj ≤ x) = 1 − F (x)
n
su suma nFbn (x) = I(Xj ≤ x) ∼ Binomial (n, θ) donde θ = F (x), es
P
j=1
decir,
j n j n−j
P nFn = J = P Fn =
b b = F (x) 1−F (j) , j = 0, 1, 2 . . . , n.
n j
n o2
Var I(Xj ≤ x) = E I2 (Xj ≤ x) − E I(Xj ≤ x)
= 12 × P Xj ≤ x + 02 × P Xj > x − F 2 (x)
= F (x) − F 2 (x)
= F (x)[1 − F (x)]
38 Cirilo alvarez R.
= F (x).
La varianza es
h1X n i
Var Fbn (x) = Var I(Xj ≤ x)
n j=1
n
1 X h i
= 2 Var I(Xj ≤ x)
n j=1
n
1 X
= 2 F (x)[1 − F (x)]
n j=1
1
= nF (x)[1 − F (x)]
n2
F (x)[1 − F (x)]
= .
n
Recuerde que F (x) es la función de distribución de la cual proviene la mues-
tra. y la relación (1.11) se cumple.
Corolario 1.1.
P
Fb(x) −
→ F (x) cuando n → ∞.
Corolario 1.2.
√ hb i
n F (x) − F (x) D
p −
→ Z cuando n → ∞,
F (x) [1 − F (x)]
Cirilo alvarez R. 39
c.s
sup |Fn∗ (x) − F (x)| −→ 0.
x
Ejercicios
Ejercicio 1
Sea X ∼ Bernoulli 1, 12 y considere todas las muestras aleatorias posibles
Ejercicio 2
Se lanza un dado equilibrado. Sea X el valor nominal que aparece y sean
X1 , X2 dos observaciones independientes sobre X. Calcule la distribución
de X.
Ejercicio 3
Sean X1 , X2 , . . . , Xn sea una muestra de alguna población. Demuestre que
(n − 1)S.
max Xi − X <
1≤i≤n n
a menos que todas las n observaciones sean iguales o exactamente n − 1 de
las Xj sean iguales.
Ejercicio 4
Sean X1 , X2 , . . . , Xn números reales, y sea x(n) = max{x1 , x2 , . . . , xn }, x(1) =
min{x1 , x2 , . . . , xn }. Demuestre que para cualquier conjunto de números
reales a1 , a2 , . . . , an tal que ni=i ai = 0 se cumple la siguiente desigualdad:
P
n n
X 1 X
ai xi ≤ x(n) − x(1) |ai |.
i=1
2 i
Ejercicio 5
Para cualquier conjunto de números reales x1 , x2 , . . . , xn demuestre que la
fracción de x1 , x2 , . . . , xn incluido en el intervalo (x − ks, x + ks) para k ≥ 1
es al menos 1 − 1/k 2 . Aquí x es la media y s la desviación estándar de los
x.
(c) Clasifique las duraciones de las erupciones de acuerdo con los sub-intervalos
de media unidad de longitud con corte. Como los intervalos deben cerrar-
se por la izquierda y abrirse por la derecha, establecemos el argumento
de la derecha como FALSE.
[Link]
[Link]
[1.5,2) [2,2.5) [2.5,3) [3,3.5) [3.5,4) [4,4.5) [4.5,5) [5,5.5)
51 41 5 7 30 73 61 4
algoritmo completo
########Distribución de Frecuencia##########
> dura <- faithful$eruptions
> cortes <- seq(1.5, 5.5, by=0.5)
> [Link] <- cut(dura, cortes, right=FALSE)
> [Link] <- table([Link])
> [Link]
[Link]
[1.5,2) [2,2.5) [2.5,3) [3,3.5) [3.5,4) [4,4.5) [4.5,5) [5,5.5)
51 41 5 7 30 73 61 4
> ##################Luego aplicamos la función cumsum para calcular
> ##la distribución de frecuencia acumulada. ####################
> [Link] <- cumsum([Link])
> [Link]
[1.5,2) [2,2.5) [2.5,3) [3,3.5) [3.5,4) [4,4.5) [4.5,5) [5,5.5)
51 92 97 104 134 207 268 272
> #####################calculo frecuencia relativa aculada
> duracumrelfreq <- fractions([Link] / nrow(faithful))
> duracumrelfreq
[1.5,2) [2,2.5) [2.5,3) [3,3.5) [3.5,4) [4,4.5) [4.5,5) [5,5.5)
3/16 23/68 97/272 13/34 67/136 207/272 67/68 1
>
>
> ##############presentación mejorada#####################
> #old <- options(digits=2)
Cirilo alvarez R. 43
> [Link]
[1.5,2) [2,2.5) [2.5,3) [3,3.5) [3.5,4) [4,4.5) [4.5,5) [5,5.5)
3/16 23/68 97/272 13/34 67/136 207/272 67/68 1
>
> ################ old = options(digits=2)
> cbind([Link], [Link], duracumrelfreq,r)
[Link] [Link] duracumrelfreq
[1.5,2) 51 51 0.19
[2,2.5) 41 92 0.34
[2.5,3) 5 97 0.36
[3,3.5) 7 104 0.38
[3.5,4) 30 134 0.49
[4,4.5) 73 207 0.76
[4.5,5) 61 268 0.99
[5,5.5) 4 272 1.00
■
44 Cirilo alvarez R.
Distribución de frecuencias
Intervalos Frecuencia Frecuencia Frecuencia
Absoluta Abs. Acum. Rel. Acum
[1.5; 2) 51 51 3
16
[2; 2.5) 41 92 23
68
[2.5; 3) 5 97 97
272
[3.5; 4) 30 134 67
136
[4.5; 5) 61 268 67
68
Percentiles
Cirilo alvarez R. 45
Como ejemplo, digamos que usted y otras 4 personas tomaron una prueba
y recibieron los siguientes puntajes:
55 66 77 88 99
En R, hay una función llamada quantile() que puede hacer el cálculo ante-
rior automáticamente, aunque debe tener cuidado con las entradas. Primero
mostremos lo que sucede cuando no tenemos cuidado. Podríamos pensar
que podemos calcular el percentil 55 ejecutando:
test_scores %>%
Cirilo alvarez R. 47
+ pull(score) %>%
+ quantile(probs = combine(0.55))
55%
79.2
X
55% 79.2
test_scores %>%
+ pull(score) %>%
+ quantile(probs = combine(0.55), type = 1)
55%
77
X
55% 77
es evidente que,
n
′ 1X ′ n−1
Xj − X = 0 y m2 (X) = S 2. (1.15)
m1 (X) =
n j=1 n
Pruebe
(r)
ir mr (X) = ΦFb (0)
donde mr es momento muestral en el entorno de cero.
mr,s (X, Y )
De nuevo escribimos
n n
1 X 1 X
2
SX = (Xj − X̄)2 , SY2 = (Yj − Ȳ )2 (1.19)
n − 1 j=1 n − 1 j=1
Puede demostrarse que |r| ≤ 1, los valores extremos ±1 solo puede ocurrir
cuando todos los puntos muestrales (X1 , Y1 ),(X2 , Y2 ),. . . , (Xn , Yn ) están
sobre una línea recta.
También se puede elaborar fórmulas para las dos líneas de regresión. Así la
línea de regresión de Y sobre X puede demostrarse que es igual a
SY
y−Y =r (x − X), (1.22)
SX
np : si np es un número entero,
r=
[np + 1] : si np no es un número entero.
X (n+1)
( ) si n es impar
X1 = h 2 i (1.23)
2
( 2 ) si n es par
1 X (n) + X n +1
2 (2)
jn k n + 1
+1 = si n es impar.
2 2
Teorema 1.3. Sean X1 ,X2 ,. . . ,Xn una muestra aleatoria que proviene de
52 Cirilo alvarez R.
E(X) = µ (1.24)
2
σ
Var(X) = (1.25)
n
3 m3 + 3(n − 1)m2 µ + (n − 1)(n − 2)µ3
E(X ) = , (1.26)
n2
4 m4 + 4(n − 1)m3 µ + 6(n − 1)(n − 2)m2 µ2 + 3(n − 1)m22
E(X ) =
n3
4
(n − 1)(n − 2)(n − 3)µ
+ (1.27)
n3
n
1X
E(X) = E(Xj )
n j=1
n
1X
E(X) = E(X), E(X) = µ
n j=1
n
1X
E(X) = µ=µ
n j=1
Cirilo alvarez R. 53
n
!2 n−1 X
n
X Xn X
∴ Xj = Xj2 +2 Xi Xj (1.29)
j=1
j=1 i=1 j=i+1
" n #
1 X X X
= 3E Xi3 + 3 Xj2 Xk + X j Xk Xl
n i=1 j̸=k j̸=k̸=l
3 1 3
E(X ) = m3 + 3(n − 1)m2 µ + (n − 1)(n − 2)µ
n2
n
!4 n
!3 n
!
X X X
Xj = Xj Xj
j=1 j=1 j=1
56 Cirilo alvarez R.
" n
# n
!
X X X X
= Xi3 + 3 Xj2 Xk + X j Xk Xl Xj
i=1 j̸=k j̸=k̸=l j=1
" n
# n
! " # n
!
X X X X
= Xi3 Xj +3 Xj2 Xk Xj
i=1 j=1 j̸=k j=1
" # n
!
X X
+ Xj Xk Xl Xj
j̸=k̸=l j=1
n
!4
X Xn X X
Xj = Xi4 + 4 Xj Xk3 + 3 Xj2 Xk2
i=1
j=1
X
j̸=k
X
j̸=k (1.31)
+6 Xi2 Xj Xk + Xi X j Xk Xl
i̸=j̸=k i̸=j̸=k̸=l
µ3
µ3 (X) = (1.32)
n2
µ4 (n − 1)µ22
µ4 (X) = 3 + 3 (1.33)
n n3
Cirilo alvarez R. 57
n
"
1 X X
= 3E (Xj − µ)3 + (Xj − µ)2 (Xk − µ)
n J=1 j̸=k
#
X
+ (Xj − µ)(Xk − µ)(Xl − µ)
j̸=k̸=l
n
!4
X Xn X
(Xi − µ) = (Xi − µ)4 + 4 (Xj − µ)(Xk − µ)3
i=1
i=1 j̸=k
X X
2 2
+3 (Xj − µ) (Xk − µ) + 6 (Xi − µ)2 (Xj − µ)(Xk − µ)
j̸=k i̸=j̸=k
X
+ (Xi − µ)(Xj − µ)(Xk − µ)(Xl − µ)
i̸=j̸=k̸=l
1 4 3(n − 1) 2
µ4 (X) = µ + µ2
n3 n3
′
Teorema 1.5. Para los los momentos centrales mr se tiene
(n − 1) 2
′
E(m2 ) = σ (1.34)
n
′ µ4 − µ22 2(µ4 − 2µ22 ) µ4 − 3µ22
V ar(m2 ) = − + (1.35)
n n2 n3
′ (n − 1)(n − 2)
E(m3 ) = µ3 (1.36)
n2
′ (n − 1)(n2 − 3n + 3) 3(n − 1)(2n − 3) 2
E(m4 ) = 3
µ4 + µ2 (1.37)
n n3
r = 2 tenemos
" n
#
′ 1 X
E(m2 ) = E (Xj − X)2
n j=1
" n #
′ 1 X
E(m2 ) = E (Xj − X)2
n j=1
" n #
′ 1 X 2
E(m2 ) = E (Xj − µ) − (X − µ)
n j=1
" n n
#
′ 1 X X
E(m2 ) = E (Xj − µ)2 − 2(X − µ) (Xj − µ) + n(X − µ)2
n j=1 j=1
" n #
′ 1 X
E(m2 ) = E (Xj − µ)2 − n(X − µ)2
n j=1
µ2
′ 1 µ4 3
Var(m2 ) = n − 2 + + n − 2 + (n − 1) −
n n2 n n2
2
n−1
− µ22
n
µ22
′ 1 µ4
Var(m2 ) = n − 2 + + (n − 1)(3 − n) 3
n n2 n
que es igual a la relación (1.35).
Cirilo alvarez R. 61
Prueba. Solo probamos el enunciado item (3). Para ello, usamos el enun-
ciado item (2), tenemos
n
! n n
X X X
0 ≤ Var Xi = Var(Xi ) + 2 Cov(Xi , Xj )
i=1 i=1 i<j
Ejercicio 8
Sean (X1 , X2 , . . . , Xn ) variables aleatorias tales que los coeficientes de co-
rrelación entre cada par de variables Xi , Xj , i ̸= j es ρ. Demuestre que
−(n − 1)−1 ≤ ρ ≤ 1.
Observación 1.8. Los resultados de los teoremas 1.3 a 1.5 pueden modi-
ficarse fácilmente y establecerse para el caso en que las Xi sean variables
62 Cirilo alvarez R.
σ2 n − 1 2
Var(X) = + ρσ (1.39)
n n
donde ρ es el coeficiente de correlación entre las variables aleatorias Xi y
Xj . Las expresiones para ( Xj )3 y ( Xj )4 en la prueba del teorema 1.3
P P
de modo que
σ2 N
0= + ρσ 2
N N−1
σ2 N − n σ2
n−1
Var(X) = 1− = (1.43)
n N −1 N−1 n
Teorema 1.7. Sea (X1 , Y1 )(X2 , Y2 ) . . . , (Xn , Yn ) una muestra de una po-
blación bivariada con varianzas σX
2
y σY2 y covarianza ρσX σY . Entonces
2
E(SX 2
) = σX , E(SY2 ) = σY2 , E(SXY ) = ρσX σY (1.44)
donde SX
2
, SY2 y SXY están definidas en las ecuaciones (??) y (??)
E(S12 ) = σX
2
y E(S22 ) = σY2 .
64 Cirilo alvarez R.
n
X
−1
SXY = (n − 1) (Xj − X)(Yj − Y )
j=1
( n )
X
(n − 1)E(SXY ) = E (Xj − X)(Yj − Y )
j=1
n
X
= E (Xj − X)(Yj − Y )
j=1
Luego,
E (Xj − X)(Yj − Y ) = E (Xj − X)Yj − Y (Xj − X)
= E (Xj − X)Yj − Y E(Xj − X)
= E (Xj − X)Yj − Y E(Xj ) − E(X)
= E (Xj − X)Yj − Y {E(X) − E(X)}
= E (Xj − X)Yj
= E (Xj Yj ) − XYj
= E(Xj Yj ) − E(XYj )
= E(XY ) − E(XYj )
Cirilo alvarez R. 65
ahora en el cálculo del término E(XYj ), hay que tener en cuenta las condi-
ciones de que Xi es independiente de Xj (i ̸= j) y Yj (i ̸= j) tenemos
" ( )#
1 X
= E(XY ) − E Xi Yi + X i Yj
n i̸=j
( )
1 X
= E(XY ) − E(Xi Yi ) + E(Xi )E(Yj )
n i̸=j
1
= E(XY ) − {E(XY ) + (n − 1)E(X)E(Y )}
n
n−1
= (E(XY ) − E(X)E(Y ))
n
y resulta que
n−1
(n − 1)E(SXY ) = n (E(XY ) − E(X)E(Y ))
n
esto es
Ejemplo 1.13. Suponga que una población está formada por cinco tiendas
ubicadas eb un cierto distrito. La característica a investigar es el número
de horas que permanecen abiertas diariamente estas tiendas y que se re-
presentan por la variable aleatoria X, y que los valores poblacionales está
presentadas en la tabla [Link]
66 Cirilo alvarez R.
Tiendas Valores de la
variable X
T1 12
T2 10
T3 14
T4 9
T5 10
5
1X 1
µ = E(X) = Xi = (12 + 10 + 14 + 9 + 10) = 11
5 i=1 5
5
2 1X 1 16
σ = VarX = (Xi − µ)2 = (12 − 11)2 + · · · + (10 − 11)2 =
5 i=1 16 5
(10, 9, 10) 29
3
1
10
31 2
{(12, 9, 10); (12, 9, 10)} 3 10
(10 14 10) 34
3
1
10
(12 14 9) 35
3
1
10
X
E(X) = xi P(X = xi )
i
29 1 31 2 32 1 2
= + + + 11 +
3 10 3 10 3 10 10
34 1 35 1 2
+ + + 12
3 10 3 10 10
= 11
(10, 9, 10) 1
3
1
10
(12,10, 10) 4
3
1
10
7 2
{(12, 10, 9); (12, 9, 10)} 3 10
(10 14 10) 16
3
1
10
(12 14 9) 19
3
1
10
317 77
Var(S 2 ) = − 42 =
15 15
Solución
Valores de la Probabilidades
variable aleatoria X P(X = x)
1 1
2
2 2
5
3 1
10
X 1 2 1 8
µ = E(X) = xi P(X = xi ) = 1 +2 +3 =
i
2 5 10 5
y la varianza
2
σ 2 = Var(X) = E (X − µ)2 = E(X 2 ) − µ
X X 2
2
= xi P(X = xi ) − xi P(X = xi )
i i
2
2 1 2 2 2 1 8
=1 +2 +3 −
2 5 10 5
11
= .
25
(b) seleccionamos una muestra aleatoria con remplazo de tamaño 2 del rango
de la variable aleatoria X, que en este caso es {x1 , x2 , x3 }, y como el
muestreo es con reposición existen 9 muestra posibles que se dan en la
tabla [Link].
Cirilo alvarez R. 73
(x1 , x1 ) (1, 1) 1
4
1 0
(x2 , x1 ) (2, 1) 1
5
3
2
1
2
(x3 , x1 ) (3, 1) 1
20
2 2
(x1 , x2 ) (1, 2) 1
5
3
2
1
2
(x2 , x2 ) (2, 2) 4
25
2 0
(x3 , x2 ) (3, 2) 1
25
5
2
1
2
(x1 , x3 ) (1, 3) 1
20
2 2
(x2 , x3 ) (2, 3) 1
25
5
2
1
2
(x3 , x3 ) (3, 3) 1
100
3 0
{x = 1} ⇔ {(x1 = 1, x2 = 1)}
3
{x = } ⇔ {(x1 = 1, x2 = 2) ∪ (x1 = 2, x2 = 1)}
2
{x = 2} ⇔ {(x1 = 1, x2 = 3) ∪ (x1 = 3, x2 = 1) ∪ (x1 = 2, x2 = 2)}
5
{x = } ⇔ {(x1 = 2, x2 = 3) ∪ (x1 = 3, x2 = 2)}
2
{x = 3} ⇔ {(x1 = 3, x2 = 3)}
1 1
4
3 2
2 5
2 13
50
5 2
2 25
3 1
100
0 21
50
1 12
2 25
2 1
10
(d) Para calcular la media y varianza del estadístico media muestral toma-
mos en cuenta su distribución de probabilidad dada en la tabla [Link]
76 Cirilo alvarez R.
resulta:
X
µX = E(X) = xi P(X = xi )
i
1 3 2 13 5 2 1
=1 + +2 + +3
4 2 5 50 2 25 100
8
=
5
2
2
2 2
σX = Var(X) = E X − E(X) = E(X ) − E(X)
X X 2
2
= xi P(X = xi ) − xi P(X = xi )
i i
2 2 2
2 1 3 2 2 13 5 2 2 1 8
=1 + +2 + +3 −
4 2 5 50 2 25 100 5
11
= .
50
2 Var(X) σ2
σX = Var(X) = =
n n
Ejercicios Propuestos
1. Sea X1 , X2 , . . . , Xn una muestra aleatoria de un fd F , y sea F̂ (x) la
función de distribución de la muestra. Encuentre Cov(F̂ (x), F̂ (y)) para
números reales fijos x, y.
Encuentre P (X ≥ 0.9)
r r(n − r + 1)
E(U(r) ) = Var(U(r) ) =
n+1 (n + 1)2 (n + 2)
Ejemplo 1.17. Una alcancía contiene seis monedas: una de 5c, dos de 10c,
una de 20c y dos monedas de 50c (c=centavos). Enumere todas las mues-
tras aleatorias posibles de tamaño dos de la alcancía, las probabilidades de
obtener cada una de estas muestras aleatorias, y enumere todas las medias
y variaciones posibles de la muestra. Considere cómo estas medias y varia-
ciones muestrales se relacionan con la media y la varianza de la población.
■
X 1 2 145
µ = E(X) = xP(X = x) = 5 × + · · · + 50 × =
x
6 6 6
y
X
σ 2 = VarX = E(X 2 ) − (E(X))2 = x2 P(X = x)
x
2
2 1 2 2 145
=5 × + · · · + 50 × − ≈ 353.47
6 6 6
Para enumerar todas las muestras aleatorias posibles (junto con sus medias
y variaciones muestrales) y las probabilidades de obtener cada muestra, es
útil producir una tabla como la siguiente:
84 Cirilo alvarez R.
Distribución de la muestra
Muestras valores № P[(X1 , X2 ) = (x1 , x2 )] Media Varianza
muestrales de o muestral muestral
posibles (X1 , X2 ) formas P[(X1 = x1 , X2 = x2 )] X S2
(x1 , x1 ) (5c,5c) 1 1
36
5 0
(x1 , x2 ) (5c,10c) 4 4
36
7.5 12.5
(x1 , x4 ) (5c,20c) 2 2
36
12.5 112.5
(x1 , x5 ) (5c,50c) 4 4
36
27.5 1012.5
(x2 , x2 ) (10c,10c 4 4
36
10 0
(x2 , x4 ) (10c,20c) 4 4
36
15 50
(x3 , x5 ) (10c,50c) 8 8
36
30 800
(x4 , x4 ) (20c,20c) 1 1
36
20 0
(x4 , x5 ) (20c,50c) 4 4
36
35 450
(x6 , x6 ) (50c,50c) 4 4
36
50 0
Tenga en cuenta que usamos letras mayúsculas para las variables aleatorias
correspondientes a la media muestral y la varianza muestral: esto es para
reconocer explícitamente que se basan en una muestra aleatoria, y también
lo son las variables aleatorias en sí mismas.
Ahora que tenemos estas distribuciones de muestreo (que no son más que
distribuciones de probabilidad), hacemos los siguientes cálculos:
1 4 4 145
E(X) = 5× + 7.5 × + · · · + 50 × = = E(X) = µ
36 36 36 6
Cirilo alvarez R. 87
2
2 2 22 1 2 4 145
σX = E(X ) − [X] = 5 × + · · · + 50 × −
36 36 6
2
Var(X) σ
= 176.736 = = ,
2 2
X
E(S 2 ) = s2 P(S 2 = s2 )
2
s
10 4 4
= 0× + 12.5 × + · · · + 1012.5 ×
36 36 36
= 353.47 = σ 2 = Var(X).
solución
n n
Tenga en cuenta que, Sn = Xj2 y que Sn ∼ Binomial (n, θ).
P P
Xj =
j=1 j=1
88 Cirilo alvarez R.
Como
n
X
2
(n − 1)S = Xj2 − n(X)2
j=1
Sn (n − Sn )
=
n
S 2 asume solo valores de la forma
i(n − i) jnk
t= , i = 0, 1, 2, . . . ,
n(n − 1) 2
donde ⌊x⌋ es el entero mayor menor o igual a x. Así
P(S 2 = t) = P(nSn − Sn2 = i(n − i))
( )
n 2 n 2
= P Sn − = i−
2 2
o
= P Sn = i o Sn = n − i
n i n−i n n−i
= θ (1 − θ) + θ (1 − θ)i
i i
n i n o jnk
= θ (1 − θ)i (1 − θ)n−2i + θn−2i i≤
i 2
Si n = 2m, es decir, donde m ≥ 0 es un entero y i = m, entonces
2 m 2m m
P S = =2 θ (1 − θ)m ,
2(2m − 1) m
En particular, si n = 7, i = 0, 1, 2, 3 y t = 0, 71 , 21
5 2
,7 y
P(S 2 = 0) = (1 − θ)7 + θ7
!
2 1 n
5 5
o
P S = = 7θ(1 − θ) (1 − θ) + θ
7
!
2 5 2 2
n
2 2
o
P S = = 21θ (1 − θ) (1 − θ) + θ
21
!
2
P S2 = = 35θ3 (1 − θ)3
7
Cirilo alvarez R. 89
Si n = 6, i = 0, 1, 2, 3, t = 0, 16 , 15
4 3
, 10 y las probabilidades resultan
P(S 2 = 0) = (1 − θ)6 + θ6
!
1 n o
P S2 = = 6θ(1 − θ) (1 − θ)4 + θ4
6
!
4 n o
P S2 = = 15θ2 (1 − θ)2 (1 − θ)2 + θ2
15
!
3
P S2 = = 40θ3 (1 − θ)3
10
■
90 Cirilo alvarez R.
Fundamentos de estadística
14 de mayo de 2023
ii Cirilo alvarez R.