100% encontró este documento útil (1 voto)
116 vistas57 páginas

9 - ML - Analisis Bayesiano - 2020

Este documento presenta los conceptos de máxima verosimilitud y estadística Bayesiana. Explica que la máxima verosimilitud se refiere a la probabilidad de observar un conjunto de datos dado un modelo particular. También introduce el teorema de Bayes y cómo este permite actualizar las probabilidades a priori a probabilidades a posteriori basadas en nuevos datos. Finalmente, discute cómo los métodos de cadena de Markov de Monte Carlo (MCMC) pueden utilizarse para aproximar probabilidades posteriores cuando no se pueden calcular analíticamente.

Cargado por

Andrés Frankow
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
100% encontró este documento útil (1 voto)
116 vistas57 páginas

9 - ML - Analisis Bayesiano - 2020

Este documento presenta los conceptos de máxima verosimilitud y estadística Bayesiana. Explica que la máxima verosimilitud se refiere a la probabilidad de observar un conjunto de datos dado un modelo particular. También introduce el teorema de Bayes y cómo este permite actualizar las probabilidades a priori a probabilidades a posteriori basadas en nuevos datos. Finalmente, discute cómo los métodos de cadena de Markov de Monte Carlo (MCMC) pueden utilizarse para aproximar probabilidades posteriores cuando no se pueden calcular analíticamente.

Cargado por

Andrés Frankow
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Máxima Verosimilitud

Fisher (1922)
Verosimilitud: Probabilidad de
observar un conjunto de datos,
dado un modelo particular

L = Pr (D|H)
Máxima Verosimilitud

Un modelo simple, el ejemplo de la moneda


Distribución binomial

n h
Ph p, n     p (1  p) nh

h

h= caras n n!
p=0.5 si la moneda es honesta   
n= número de veces que tiro
 h  h!(n  h)!
Máxima Verosimilitud

Supongamos una moneda cargada

Probabilidad de cara es: 1/3

Probabilidad de seca es: 2/3


Máxima Verosimilitud
Si tiro 3 veces en cada experimento, la
probabilidad de obtener los distintos resultados
va a estar dado por
Máxima Verosimilitud

Probabilidad de que de las tres veces


p=0,3 y n=3 que tiro, salga 1 vez cara es 0,45
Máxima Verosimilitud
Máxima Verosimilitud
Máxima Verosimilitud
Máxima Verosimilitud
Máxima Verosimilitud

Tres componentes de esta aproximación:


 los datos,
 un modelo que describa la probabilidad
de observar los datos,
 y un criterio de máxima verosimilitud
Estadística Bayesiana vs. Estadística clásica
Estadística Clásica o paradigma
frecuentista
Fisher (1920) y Neyman y Pearson (1930)

Prueba de significación:
p= índice que mide la fuerza de la evidencia

Prueba de hipótesis:
Procedimiento de elección entre hipótesis.
Estadística Clásica o paradigma
frecuentista

La probabilidad se interpreta desde un


marco hipotético en el que se pudiera
repetir un experimento muchas veces
en idénticas circunstancias
-Se estudia la herencia de un carácter mediante pruebas
de cruzamiento.
-Se comparan los resultados observados con los
esperados por “bondad de ajuste”.
-Si el experimento se repitiera varias veces, un X2 ≥4.25
se obtendría 39 de cada 1000 veces (p=0.039),
asumiendo que la hipótesis nula de “no diferencia entre lo
observado y lo esperado” fuera cierta.
Críticas al paradigma clásico

 Se debe tomar una decisión dicotómica

 Esta decisión depende mucho del


tamaño de la muestra.
 Ho: La mezcla para la reacción de PCR
da amplificación positiva con la misma
tasa de éxito cuando se agrega
Magnesio que cuando no se agrega.
 Ha: La mezcla para la reacción de PCR
no da amplificación positiva con la
misma tasa de éxito cuando se agrega
Magnesio que cuando no se le agrega.
2
Χ = 2,06 p=0,15
Estadística Bayesiana
No sufre las críticas hechas a las
pruebas de significación.
Incorpora las evidencias aportadas
por experiencias previas dentro del
proceso analítico y las contempla,
por ende, en las conclusiones.
Probabilidad Objetiva vs. Probabilidad
subjetiva
Objetiva: la probabilidad es el límite de
frecuencias relativas (o proporciones) de
eventos observables.
Subjetiva: resulta de una construcción mental
del investigador acerca del grado de “certeza
racional” que tenga acerca de una
afirmación
Estadística Bayesiana
La probabilidad es una medida
directa de la incertidumbre.
Puede o no puede representar una
frecuencia a largo plazo.
La pieza fundamental de esta
metodología es el “Teorema de
Bayes”
Estadística Bayesiana
Pensamiento clásico: se pronuncia
probabilísticamente sobre los datos a
partir de supuestos.
Pensamiento bayesiano: se pronuncia
probabilísticamente sobre los
supuestos partiendo de los datos.
Estadística Bayesiana
Teorema de Thomas Bayes (1701-
1761)
Bayes
Procedimiento para
determinar cuál de
varias hipótesis es
más probable sobre
la base de los datos.
Estadística Bayesiana

El teorema de Bayes es el puente para pasar de una


probabilidad a priori o inicial, P(H), de una hipótesis H a
una probabilidad a posteriori o actualizada, P(H|D),
basado en una nueva observación D.

Pb a posteriori= Likelihood * Pb. a priori


Estadística Bayesiana:
Probabilidades condicionadas y deducción del Teorema de Bayes

Análogamente

(1)
sustituyendo en [1]

Se llega a la expresión de la Regla de Bayes


Estadística Bayesiana:
Probabilidades condicionadas y deducción del Teorema de Bayes

Supóngase que A1, A2, ..., Ak son k sucesos


mutuamente excluyentes.
Por la ley de probabilidades totales se desprende que:
Estadística Bayesiana:
Probabilidades condicionadas y deducción del Teorema de Bayes

De modo que, tomando el suceso Aj en lugar de A en la


fórmula [2] y aplicando al denominador la mencionada
ley, se tiene:
Estadística Bayesiana:
Ejemplo comparativo de enfoque clásico y
Bayesiano
θ= tasa de prevalencia de asmáticos en una población.
Cual es?
Enfoque clásico: intervalo de confianza
N=200
11
p= = 0, 055
200
Z a = 1, 96
1-
2

Intervalo de confianza al 95%:


I=0,023 y S=0,087.
Estadística Bayesiana:
Ejemplo comparativo de enfoque clásico y
Bayesiano
Enfoque Bayesiano:
 Primer paso: fijar probabilidades a priori para k
valores de θ
Estadística Bayesiana:
Ejemplo comparativo de enfoque clásico y
Bayesiano

 La esperanza de θ será:

E(θ)=(0,05)(0,10)+(0,07)(0,20)+(0,09)(0,40)+(0,11)(0,20)+(0,13)(0,10)=0,09
Estadística Bayesiana:
Ejemplo comparativo de enfoque clásico y
Bayesiano

2º paso: los datos empíricos : Sabemos que e=11


individuos de n=200 padecen de asma.
3º paso: aplicamos el teorema de Bayes:
Estadística Bayesiana:
Ejemplo comparativo de enfoque clásico y
Bayesiano

 Calculamos los likelihoods:


Estadística Bayesiana:
Ejemplo comparativo de enfoque clásico y
Bayesiano

 Para θ=0.05, el likelihood es


Estadística Bayesiana:
Ejemplo comparativo de enfoque clásico y
Bayesiano

Obtuvimos una nueva esperanza para las


probabilidades:

Que tiene además un menor grado de incertidumbre


Estadística Bayesiana:
Ejemplo genético-forense

¿A cuál de los tres grupos étnicos


(Caucasianos, Maorí o Polinesia
occidental) pertenece el individuo cuya
mancha de sangre se encontró en la
escena de un crimen?
Estadística Bayesiana:
Ejemplo genético-forense
datos
 Genotipo multilocus (i.e. varios loci
microsatélite) (X1)
 Frecuencias poblacionales para los
alelos de los distintos loci
microsatélite, para cada grupo étnico.
 Porcentaje de cada grupo étnico en
Nueva Zelanda
Estadística Bayesiana:
Ejemplo genético-forense
Likelihoods (P(X1|θi))
 p(XI|θ1)= 3.96 x 10–9 (Causcasianos)

 p(XI|θ2)= 1.18 x 10–8 (Maoríes)

 y p(XI|θ3)= 1.91 x 10–7. (Polinesios occidentales)

¿Como se calcularon?
Estadística Bayesiana:
Ejemplo genético-forense
PRIORS
 Θ1= 0.819

 Θ2= 0.137

 Θ3= 0.044

¿DE DONDE SURGEN?


Estadística Bayesiana:
Ejemplo genético-forense
PROBABILIDADES POSTERIORES

¿Conclusión?
Estadística Bayesiana
El paso a la continuidad
 Las probabilidades a priori no son
discretas, ya que son infinitos los
valores que puede tomar la variable.
 Se deben usar funciones de densidad
de probabilidaes (p.ej. La función beta
que depende de dos parámetros, a y b)
Estadística Bayesiana
Estadística Bayesiana
Estadística Bayesiana

 Cuando el tamaño de la muestra es grande,


las probabilidades a posteriori o
actualizadas se parecen mucho a las del
likelihood, es decir que la distribución a
priori tiende a ser irrelevante.
 la máxima utilidad del “bayesianismo” se
produce cuando los tamaños muestrales no
son muy grandes.
Estadística Bayesiana y MCMC
´Como se calculan las pb posteriores?
En algunos casos es imposible
calcularlas analíticamente.

Se deben usar aproximaciones:


MCMC (Markov Chain Monte
Carlo)
Estadística Bayesiana y MCMC
1. Start at an arbitrary point
2. Make a small random move
3. Calculate height ratio (r) of new state to old state:
1. r > 1 -> new state accepted
2. r < 1 -> new state accepted with probability r. If new state
not accepted, stay in the old state
4. Go to step 2

always accept
2a
1
2b accept sometimes

20 % 48 % 32 %

tree 1 tree 2 tree 3


Estadística Bayesiana y MCMC

El mecanismo por el que se llega a un nuevo estado en


cada movimiento de la cadena debe cumplir con ciertos
requisitos:
 debe ser estocástico (dado un estado viejo, la
probabilidad de llegar a un estado nuevo debe ser
similar a la probabilidad de que dado un estado nuevo
se llegue al viejo)
 Cualquier estado debe ser accesible, si se repite
infinitas veces el mecanismo.
 Debe ser aperiódica (no puede repetir un determinado
mecanismo cada tanto)
Estadística Bayesiana y MCMC
 Esta cadena se repite miles y millones de
veces.
 Los movimientos pueden ser grandes o
pequeños, dependiendo esto de lo
establecido por el usuario (“tunning” de la
cadena).
 La fracción de tiempo que la cadena visita
un estado particular (p.ej. un árbol
particular) es una aproximación válida de la
probabilidad posterior de ese estado.
Estadística Bayesiana y MCMC

La cadena empieza típicamente de un punto en el


espacio de parámetros que puede estar muy lejos de las
probabilidades posteriores, y tomará cierto tiempo
(BURN IN) hasta que la cadena alcance los probables
parámetros y produzca una aproximación razonable de
la distribución a posteriori (PERIODO
ESTACIONARIO).
Estadística Bayesiana
stationary phase y MCMC
sampled with thinning
(rapid mixing essential)

burn-in
Glosario
Parametro
 Cantidad no observable de interés. Puede incluir parámteros
poblacionales, tales como frecuencias alélicas, o ubicación de un
QTL, o datos faltantes, o tasa de sustitución.

Parametros “ruido”
 Un parámetro que es necesario para definir un problema pero
que no es de interés primario. Por ejemplo, en el caso del desvío a
HWE, las frecuencias alélicas son “parámetros ruido”.

Espacio del parámetro.


 El conjunto de todos los valores posibles de la cantidad de
interés. El espacio de parámetros para las frecuencias alélicas de
una población incluye todos los valores entre 0 y uno, inclusive.
Glosario
Dimensionalidad
 Es el número de ejes en el espacio de parámetros. Por
ejemplo, si estamos interesados en medir el desvió de las
frecuencias del equilibrio de Hardy–Weinberg en una
población con dos alelos en el locus de interés, existen dos
parámetros a considerar. Uno es el de las frecuencias
alélicas, y otro es el parámetro que describe el desvió del
equilibrio HWE. Entonces el espacio de parámetros tiene
dos dimensiones.
Distribución Posterior
 La distribución de las probabilidades condicionadas de las
cantidades de interés no observadas (parámetros), dado los
datos observados.
Glosario
p(u|X)
 Símbolo que se refiere a la distribución posterior. Debe
ser leído como “distribución condicional de mu dado
los datos”, o simplemente la distribución posterior.
Distribución “a priori” vaga (dispersa)
 La distribución se esparce difusamente sobre el espacio
del parámetro. Un ejemplo es cuando todos los
posibles valores del parámetro tienen igual peso.
¿Que es ser un bayesiano?
“Un bayesiano es aquel que, tiene una vaga
esperanza de que venga un caballo, y echando un
vistazo a un burro, cree firmemente que ha visto
una mula”
“Sólo un estadístico bayesiano es capaz de explicar
coherentemente la declaración: Si hay una
posibilidad de 50-50 de que algo puede ir mal,
entonces 9 de cada diez veces lo hará”
“No se convierta en un artista, sea un Bayesiano,
mucho más espacio para la imaginación!”
Lectura recomendada:

https://www.elcohetealaluna.com/teorema-de-bayes/

Un ejemplo didáctico de Adrian Paenza sobre el teorema de Bayes


publicado en el blog “el cohete a la luna”.

También podría gustarte