Estadı́stica Bayesiana
Anna Sikov
UNI
October 4, 2022
Anna Sikov (UNI) Estadı́stica Bayesiana October 4, 2022 1 / 29
Simulación
Supongamos que queremos estimar una probabilidad p de un evento (por
ejemplo, la probabilidad, de que en un grupo de 30 personas se encuentre
por lo menos un grupo de 4 personas que nacieron en el mismo mes).
Se puede hacerlo utilizando fórmulas combinatórias (probabilidad exacta)
o realizando una simulación de la siguiente forma.
Generar muchos (N=1000) conguntos de 30 numeros de 1 a 12. Aqui
el número 30 corresponde al número de las personas y los números
1-12 al mes de nacimiento de cada una de las personas.
Para cada conjunto j, calculamos las frequencias de los números
1,2,...,12.
Definimos indicadora Ij , j = 1, ..., 1000, tal que si hay por lo menos
un número con la frequencia 4 o mas, Ij = 1; caso contrario Ij = 0.
El porcentaje de las indicadoras que son iguales a 1 es el estimador de
la probabilidad que estamos calculando:
N
1 X
p̂ = Ij
N
j=1
Anna Sikov (UNI) Estadı́stica Bayesiana October 4, 2022 2 / 29
Inferencia Estadı́stica
Inferir: Sacar una consecuencia de una cosa. Sacar consecuencia o deducir
una cosa de otra.
La estadı́stica: ciencia o rama de las Matemáticas que se ocupa de recoger
datos, analizarlos y organizarlos, y de realizar las predicciones que sobre
esos datos puedan deducirse, tiene dos vertientes básicas:
1 Estadı́stica descriptiva: Básicamente se ocupa de a partir de ciertos
datos, analizarlos y organizarlos. Es aquı́ donde tiene sentido calcular
la media, mediana, moda, desviación estándar, histogramas, etc.
2 Estadı́stica inferencial: Se ocupa de predecir, sacar conclusiones, para
una población tomando como base una muestra (es decir, una parte)
de dicha población. Como todas las predicciones, siempre han de
hacerse bajo un cierto grado o confianza.
Estadı́stica inferencial se basa en las leyes de la teorı́a de probabilidad.
Anna Sikov (UNI) Estadı́stica Bayesiana October 4, 2022 3 / 29
Población vs. Muestra
Una población es el conjunto de individuos sobre los que hacemos cierto
estudio;
una muestra es un subconjunto de la población.
Sea X la altura de un pinguino adulto, tal que X ∼ N(µ, σ 2 ).
LA NATURALEZA: µ, σ 2 (VERDADEROS)
VS.
EL ESTADÍSTICO: µ̂, σ̂ 2 (EXPERIMENTO ⇒ ESTIMACIONES)
Anna Sikov (UNI) Estadı́stica Bayesiana October 4, 2022 4 / 29
Datos de 8 muestras
El objetivo: estimar µ y σ 2 (la media y la varianza poblacionales).
Sugestión: media y varianza muestrales. Porque?
Problema: Los estimadores dependen de la muestra! Entonces, vamos a
hacer inferencia (prueba de hipótesis, intervalos de confianza).
Anna Sikov (UNI) Estadı́stica Bayesiana October 4, 2022 5 / 29
Estadı́stico
Sea X1 , X2 , ..., Xn una muestra aleatoria i.i.d, Xi ∼ N(µ, σ 2 ).
Estadı́stico: es una función de los datos observables que no depende de los
parámetros deconocidos.
Ejemplos.
T1 (X1 , ..., Xn ) = ni=1 Xi
P
T2 (X1 , ..., Xn ) = ni=1 Xi2
P
T3 (X1 , ..., Xn ) = X̄
Pn 2
T4 (X1 , ..., Xn ) = (X̄ , i=1 Xi − nX̄ 2 )
T5 (X1 , ..., Xn ) = min Xi
T6 (X1 , ..., Xn ) = (min Xi , max Xi )
T7 (X1 , ..., Xn ) = (X1 , ..., Xn )
Un estadı́stico se utiliza para resumir la información. No necesitamos la
información de todas las observaciones para hacer inferencia.
Estadı́stico es una variable aleatoria!
Anna Sikov (UNI) Estadı́stica Bayesiana October 4, 2022 6 / 29
Tipos de inferencia
Estimación de los parámetros (por ejemplo, µ y σ).
Estimación de una función de los parámetros (por ejemplo,
µ
f1 (µ) = P(X > 0), f2 (µ, σ) = , f3 (µ, σ) = E (X 3 ), etc.)
σ
Intervalos de confianza para los parámetros desconocidos o para sus
funciones.
Prueba de hipótesis para los parámetros o para algunas funciones de
los parámetros.
Pruebas de bondad de ajuste de un modelo.
Predicciones, por ejemplo bajo el modelo de regresión lineal, o
predicciones futuros en el caso de series de tiempo.
Todos tipos de inferencia se basan en estdı́sticos adecuados.
Anna Sikov (UNI) Estadı́stica Bayesiana October 4, 2022 7 / 29
Propiedades de Estdı́stico: Estadı́stico suficiente
Supongamos que observamos una muestra de una distribución normal con
una varianza conocida: X1 , X2 , ..., Xn ∼ N(µ, B), donde µ es desconocido.
Definamos T1 (X ) = ni=1 Xi , T2 (X ) = med(X ),
P
T3 (X ) = (minX , maxX ).
Los tres estadı́sticos tienen información sobre el parámetro desconocido µ.
Cuál de estos estadı́sticos es mejor?
Definición. Un estadı́stico T (X ) es suficiente para el modelo Pθ , θ ∈ Θ, si
la distribución condicional de X |T (X ) = t no depende del parámetro θ.
Interpretación: ningún otro estadı́stico que puede ser calculado sobre la
misma muestra proporciona información adicional sobre su valor.
Anna Sikov (UNI) Estadı́stica Bayesiana October 4, 2022 8 / 29
Estadı́stico suficiente: ejemplo N(µ, B)
En nuestro ejemplo tenemos que hallar la distribución condicional de
X |T (X ) = t y demostrar que la misma no depende del parámetro
desconocido θ = µ.
Es decir, X |T (X ) = t ∼ N(E (X |T (X ) = t), Var (X |T (X ) = t))
Utilizemos la formula de la distribución normal multivariada condiscional,
donde X1 = X y X2 = T (X ). Primero, hay que definir
µ1 , µ2 , Σ11 , Σ12 , Σ21 , Σ22 :
µ1 = µ, µ2 = nµ, Σ11 = BIn×n , donde In×n es una matriz de identidadde
la dimención n, Σ22 = nB, Σ21 = (B B ... B) y Σ12 = (B B ... B)t .
Ahora,
E (X |T (X ) = t) = µ1 + Σ12 Σ−1
22 (t − µ2 ) =
−1 t t t
µ + (B B ... B) (nB) (t − nµ) = ( , , ... , )t = (X̄ , X̄ , ... , X̄ )
t
n n n
Var (X |T (X ) = t) = Σ−1 −1 t
11 − Σ12 Σ22 Σ21 .
Anna Sikov (UNI) Estadı́stica Bayesiana October 4, 2022 9 / 29
Estadı́stico suficiente: ejemplo
Sean X1 , X2 , ..., Xn ∼ Ber (θ), independientes. Demostrar que el estadı́stico
T (X ) es suficiente para X = (X1 , X2 , ..., Xn ).
Tenemos que hallar la función de probabilidad de X |T (X ) = t, es decir,
P(X1 = x1 , X2 = x2 , ..., Xn = xn |T (X ) = t), y demostrar que la misma no
depende del parámetro θ.
Observen, que T (X ) ∼ B(n, θ)
P(X1 = x1 , X2 = x2 , ..., Xn = xn |T (X ) = t) =
P(T (X ) = t|X1 = x1 , ..., Xn = xn )P(X1 = x1 , ..., Xn = xn )
=
P(T (X ) = t)
I(Pni=1 xi =t) θx1 (1 − θ)1−x1 ...θxn (1 − θ)1−xn 1
= n si ni=1 xi = t y 0 caso
P
n t
n−t
t θ (1 − θ) t
contrario.
Ejercicio. Sean X1 , X2 , ..., Xn ∼ Pois(θ), independientes. Demostrar que el
estadı́stico T (X ) es suficiente para X = (X1 , X2 , ..., Xn ).
Anna Sikov (UNI) Estadı́stica Bayesiana October 4, 2022 10 / 29
Función de verosimilitud
Ejemplo. Sean X1 , ..., Xn ∼ Pois(θ), i.i.d. Entonces L(x; θ) =PPθ (X1 =
n
Qn Qn −θ θxi −nθ θ i=1 xi
x1 , ..., Xn = xn ) = i=1 P(Xi = xi ) = i=1 e =e
xi ! x1 !...xn !
Anna Sikov (UNI) Estadı́stica Bayesiana October 4, 2022 11 / 29
Estadı́stico suficiente: Teorema de Neyman-Fisher
Ejemplo de la distribución de la distribución de Poison.
Pn
θ i=1 xi
−nθ
L(x; θ) = e
x1 !...xn !
Pn
Vamos a verificar si el estadı́stico
PnT (X ) = i=1 Xi es suficiente.
Definamos: g (T (x), θ) = e −nθ θ i=1 xi = e −nθ θ T (x) y h(x) = x !...x !.
1 n
Entonces T (X ) = ni=1 Xi es suficiente.
P
Anna Sikov (UNI) Estadı́stica Bayesiana October 4, 2022 12 / 29
Estadı́stico suficiente: Teorema de Neyman-Fisher
Ejemplo de la distribución de la distribución uniforme U(0, θ).
1
La función de densidad correspondiente: fθ (x) = Ix∈(0,θ)
θ
La función de verosimilitud:
1 1 1
L(x; θ) = fθ (x1 , ..., xn ) = Ix1 ∈(0,θ) ... Ixn ∈(0,θ) = n I(max xi ∈(0,θ))
θ θ θ
1
Sean T (x) = max xi , g (T (x), θ) = I , h(x) = 1
θn (max xi ∈(0,θ))
Entonces T (x) = max xi es suficiente.
Ejemplo de la distribución de la distribución normal N(µ, σ 2 ). θ = (µ, σ 2 )
La función de verosimilitud:
n
1 1 2 1 1 Pn 2
e 2σ2 (xi −µ) = i=1 (xi −µ)
Y
L(x; θ) = fθ (x1 , ..., xn ) = √ n e 2σ
2
i=1 2πσ 2 (2πσ 2 ) 2
Ahora,
Pn Pn Pn
2 2 2 2
i=1 (xi − µ) = i=1 (xi − x̄ + x̄ − µ) = i=1 (xi − x̄) + n(x̄ − µ)
Anna Sikov (UNI) Estadı́stica Bayesiana October 4, 2022 13 / 29
Estadı́stico suficiente: Teorema de Neyman-Fisher
Ejemplo de la distribución de la distribución normal N(µ, σ 2 ) (cont).
La función de verosimilitud:
1 1 Pn
i=1 (xi −x̄)
2 +n(x̄−µ)2 )
L(x; θ) = n e 2σ2 (
(2πσ 2 ) 2
Pn
Definamos: T (x) = (x̄, i=1 (xi − x̄)2 )
1 1 Pn 2 2
i=1 (xi −x̄) +n(x̄−µ) )
Sean g (T (x), θ) = n e 2σ2 ( , h(x) = 1
(2πσ 2 ) 2
Pn
Entonces, T (x) = (x̄, − x̄)2 ) es un estadı́stico suficiente.
i=1 (xi
Ejercı́cio. Sean X1 , ..., Xn ∼ N(0, σ 2 ). DemostrarPque T (X ) = ni=1 Xi2 es
P
un estadı́stico suficiente. El estadı́stico S(X ) = ni=1 (Xi − X̄ )2 es
suficiente?
Anna Sikov (UNI) Estadı́stica Bayesiana October 4, 2022 14 / 29
El método de máxima verosimilitud
Definición. Sea Pθ , θ ∈ Θ un modelo regular y X = (X1 , ..., Xn ) una
muestra aleatoria, tal que Xi ∼ Pθ , i = 1, ..., n. El estimador de máxima
verosimilitud para el parámetro desconocido θ es θ̂ = θ̂(X ), tal que
θ̂(X ) = arg max L(x; θ) = arg max log L(x; θ)
θ∈Θ θ∈Θ
El máximo no siempre existe.
El máximo no siempre es único.
Anna Sikov (UNI) Estadı́stica Bayesiana October 4, 2022 15 / 29
El método de máxima verosimilitud: Ejemplos
Sean X = (X1 , ..., Xn ) ∼ Pois(θ), θ > 0. Calcular el emv para θ.
Pn
θ i=1 xi
−nθ Q
L(x; θ) = e n
i=1 xi !
n
X n
X
l(x; θ) = logL(x; θ) = −nθ + log(θ) xi − xi !
i=1 i=1
Para obtener el máximo:
Pn
∂l(x; θ) i=1 xi
= −n + =0
∂θ θ
Entonces, θ̂ = X̄
Cómo verificar P
si θ̂ = X̄ corresponde al punto máximo y no mı́nimo?
n Pn
∂ 2 l(x; θ) i=1 xi i=1 xi n
=− =− = − < 0 (Porque?)
∂θ2 θ2 x̄ 2 x̄
Anna Sikov (UNI) Estadı́stica Bayesiana October 4, 2022 16 / 29
El método de máxima verosimilitud: Ejemplos
Sean X = (X1 , ..., Xn ) ∼ Bin(n, θ), 0 < theta < 1. Calcular el emv para θ.
Anna Sikov (UNI) Estadı́stica Bayesiana October 4, 2022 17 / 29
El método de máxima verosimilitud: Ejemplos
Sean X = (X1 , ..., Xn ) ∼ Gamma(α, θ), θ > 0, donde α > 0 es conocido.
Calcular el emv para θ.
θα α−1 −θxi
fθ (xi ) = x e , xi > 0
Γ(α) i
.
n
θαn Y α−1 −θ Pni=1 xi
L(x; θ) = xi e
(Γ(α))n
i=1
.
n
X
l(x; θ) = log(L(x; θ)) = C + nα log(θ) − θ xi
i=1
.
∂l(x; θ) nα Pn nα α
= − i=1 xi = 0 ⇒ θ̂ = Pn = .
∂θ θ x
i=1 i x̄
2
∂ l(x; θ) nα
= − 2 < 0.
∂θ2 θ
Anna Sikov (UNI) Estadı́stica Bayesiana October 4, 2022 18 / 29
El método de máxima verosimilitud: Ejemplos
Sean X = (X1 , ..., Xn ) ∼ N(µ, σ 2 ), −∞ < µ < ∞, σ > 0. Calcular el emv
para θ = (µ, σ 2 ).
Anna Sikov (UNI) Estadı́stica Bayesiana October 4, 2022 19 / 29
El método de máxima verosimilitud: Ejemplos
Sean X = (X1 , ..., Xn ) ∼ Unif (0, θ), θ > 0. Calcular el emv para θ.
1 1 1
L(x; θ) = fθ (x1 , ..., xn ) = Ix1 ∈(0,θ) ... Ixn ∈(0,θ) = n I(max xi ∈(0,θ))
θ θ θ
Anna Sikov (UNI) Estadı́stica Bayesiana October 4, 2022 20 / 29
El método de máxima verosimilitud: Ejemplos
Sean X = (X1 , ..., Xn ) ∼ Unif (λ + θ, λ − θ), −∞ < λ < ∞,
−∞ < θ < ∞.
1 Calcular el emv para θ si el valor de λ es conocido.
2 Calcular el emv para λ si el valor de θ es conocido.
3 Calcular el emv para λ y θ si los dos son desconocidos.
1 a+b
Sea X ∼ Unif (a, b), entonces fX (x) = Ix∈(a,b) , EX = ,y
b−a 2
(b − a)2
Var (X ) =
12
Anna Sikov (UNI) Estadı́stica Bayesiana October 4, 2022 21 / 29
El método de máxima verosimilitud
Sea θ̂ emv para el modelo Pθ , θ ∈ Θ y h una función inyectiva. Entonces
el emv para h(θ) es h(θ̂).
Ejemplo. Sean X = (X1 , ..., Xn ) ∼ Pois(θ), independientes. Hallar el emv
para h0 (θ) = Pθ (Xi = 0) y h1 (θ) = Pθ (Xi ≤ 1).
h0 (θ) = Pθ (Xi = 0) = e −θ θ0 /0! = e −θ
h1 (θ) = Pθ (Xi ≤ 1) = e −θ + e −θ θ1 /1! = e −θ + θe −θ = (1 + θ)e −θ
ĥ0 (θ) = e −θ̂ = e −x̄ .
ĥ1 (θ) = e −θ̂ (1 + θ̂) = (1 + x̄)e −x̄ .
Anna Sikov (UNI) Estadı́stica Bayesiana October 4, 2022 22 / 29
El método de los momentos
Sean X = (X1 , ..., Xn ), Xi ∼ Pθ , θ ∈ Θ, independientes y φ es una función
real (generalmente φ es una funcion polinomial o indicadora).
El estimador de metodo de los momentos para el parámetro θ se obtiene
resolviendo la ecuación
n
1X
Eθ φ(Xi ) = φ(Xi )
n
i=1
Ejemplo. Para una distribución Pois(θ), sea φ(Xi ) = Xi , entonces:
n
1X
Eθ Xi = θ = Xi = X̄ ⇒ θ̂1 = X̄
n
i=1
Si φ(X ) = X 2, obtenemos:
n
1X 2
Eθ Xi2 = θ2 + θ = Xi = X 2
n
i=1
p
Obtenemos: θ̂2 = 0.5( 1 + 4X 2 − 1).
Anna Sikov (UNI) Estadı́stica Bayesiana October 4, 2022 23 / 29
Si φ(Xi ) = I(Xi =0) , entonces:
n
1X
Eθ I (Xi = 0) = P(Xi = 0) = e −θ = I (Xi = 0) ⇒
n
i=1
1 Pn
θ̂3 = −log ( I (Xi = 0))
n i=1
Ejercicio. Sean X = (X1 , ..., Xn ) una muestra aleatoria, tal que
Xi ∼ N(µ, σ 2 ). Utilizando el método de los momentos, hallar los
estimadores para µ y para σ 2 .
Anna Sikov (UNI) Estadı́stica Bayesiana October 4, 2022 24 / 29
Sean X = (X1 , ..., Xn ) una muestra aleatoria, tal que Xi ∼ Unif (0, θ).
Utilizando el método de los momentos, hallar el estimador para θ.
Sea φ(X ) = X , entonces,
n
θ 1X
Eθ Xi = = Xi = X̄ ⇒ θ̂1 = 2X̄
2 n
i=1
Si φ(X ) = X 2 , entonces,
n
θ2 1X 2 p
Eθ Xi2 = = Xi = X 2 ⇒ θ̂1 = 3X
3 n
i=1
Anna Sikov (UNI) Estadı́stica Bayesiana October 4, 2022 25 / 29
Estimadores sesgados e insesgados
Sean X = (X1 , ..., Xn ) ∼ Pois(θ), θ > 0. El estimador θ̂ = X̄ es insesgado
para θ?
Definición Un estimador θ̂ es insesgado para el parámetro θ si E θ̂ = θ.
Vamos a calcular E (θ̂) para el modelo Pois(θ):
1 Pn 1 Pn
E X̄ = E i=1 Xi = EXi = θ
n n i=1
Desigualdad de Jensen: si X es una variable aleatoria, f es una
función convexa y existen E (X ) y E (f (X )), entonces
E (f (X )) > f (E (X )). Por ejemplo, se sabe que
EX 2 = Var (X ) + (E (X ))2 > (E (X ))2 (f (x) = x 2 es una función
convexa).
Anna Sikov (UNI) Estadı́stica Bayesiana October 4, 2022 26 / 29
Sean X = (X1 , ..., Xn ) ∼ Pois(θ), θ > 0. El estimador
1 Pn
θ̂3 = − log( I (Xi = 0)) es insesgado para θ?
n i=1
1 Pn
Tenemos que verificar si E (−log ( I (Xi = 0)) = θ
n i=1
1 Pn
Sea Y = I (Xi = 0).
n i=1
Calculemos EY :
1 Pn 1 Pn Pn
EY = E i=1 I (Xi = 0) = i=1 EI (Xi = 0) = i=1 I (Xi = 0) =
n n
1 n 1 n
e −θ = e −θ
P P
P(Xi = 0) =
n i=1 n i=1
La función − log(Y ) es una función convexa, entonces,
E (θ̂3 ) = E (− log(Y )) > − log(E (Y )) = −log (e −θ ) = θ ⇒
E (θ̂3 ) > θ ⇒ el estimador θ̂3 es sesgado.
Anna Sikov (UNI) Estadı́stica Bayesiana October 4, 2022 27 / 29
Sean X = (X1 , ..., Xn ) ∼ Unif (0, θ), θ > 0. Los estimadores θ̂1 = 2X̄ y
θ̂2 = max Xi son insesgados para θ?
θ
E (θ̂1 ) = E (2X̄ ) = 2E (X̄ ) = 2 = θ ⇒ θ̂1 es insesgado.
2
E (θ̂2 ) = E (max Xi ).
I Calculemos la función de distribución acumulada del máximo,
M = max Xi .
FM (m) = P(M ≤ m) = P(X1 ≤ m, X2 ≤ m, ..., Xn ≤ m) =
m n
P(X1 ≤ m)P(X2 ≤ m)...P(Xn ≤ m) = (P(Xi ≤ m))n = ( )
θ
I Calculemos la función de densidad correspondiente:
∂FM (m) nmn−1
fM (m) = = , 0<m≤θ
∂m θn
I Calculemos la esperanza de M = max Xi :
Z θ Z θ
nmn−1 n n n θn+1 n
EM = m n
dm = n
m dm = n n+1
= θ 6= θ
0 θ θ 0 θ n + 1
Anna Sikov (UNI) Estadı́stica Bayesiana October 4, 2022 28 / 29
El estimador θ̂1 es insesgado para θ.
El estimador θ̂2 es sesgado para θ. El sesgo:
n θ
B(θ̂2 ) = E (θ̂2 − θ) = θ−θ =−
n+1 n+1
.
Para comparar los estimadores θ̂1 y θ̂2 , calculemos las varianzas
correspondientes.
4 4 θ2 θ2
Var (θ̂1 ) = Var (2X̄ ) = Var (X1 ) = =
n n 12 3n
2
Var (θ̂2 ) = Var (M) = EM − (EM) 2
nmn−1
Rθ n R θ n+1 n θn+2 n 2
I EM 2 = 0 n
m2
dm = n 0
m dm = n
= θ
θ θ θ n+2 n+2
2
n 2 n θ n
I Var (M) = θ −( θ)2 =
n+2 n+1 (n + 1)2 (n + 2)
Anna Sikov (UNI) Estadı́stica Bayesiana October 4, 2022 29 / 29