Máxima Verosimilitud
Fisher (1922)
Verosimilitud: Probabilidad de
observar un conjunto de datos,
dado un modelo particular
L = Pr (D|H)
Máxima Verosimilitud
Un modelo simple, el ejemplo de la moneda
Distribución binomial
n h
Ph p, n p (1 p) nh
h
h= caras n n!
p=0.5 si la moneda es honesta
n= número de veces que tiro
h h!(n h)!
Máxima Verosimilitud
Supongamos una moneda cargada
Probabilidad de cara es: 1/3
Probabilidad de seca es: 2/3
Máxima Verosimilitud
Si tiro 3 veces en cada experimento, la
probabilidad de obtener los distintos resultados
va a estar dado por
Máxima Verosimilitud
Probabilidad de que de las tres veces
p=0,3 y n=3 que tiro, salga 1 vez cara es 0,45
Máxima Verosimilitud
Máxima Verosimilitud
Máxima Verosimilitud
Máxima Verosimilitud
Máxima Verosimilitud
Tres componentes de esta aproximación:
los datos,
un modelo que describa la probabilidad
de observar los datos,
y un criterio de máxima verosimilitud
Estadística Bayesiana vs. Estadística clásica
Estadística Clásica o paradigma
frecuentista
Fisher (1920) y Neyman y Pearson (1930)
Prueba de significación:
p= índice que mide la fuerza de la evidencia
Prueba de hipótesis:
Procedimiento de elección entre hipótesis.
Estadística Clásica o paradigma
frecuentista
La probabilidad se interpreta desde un
marco hipotético en el que se pudiera
repetir un experimento muchas veces
en idénticas circunstancias
-Se estudia la herencia de un carácter mediante pruebas
de cruzamiento.
-Se comparan los resultados observados con los
esperados por “bondad de ajuste”.
-Si el experimento se repitiera varias veces, un X2 ≥4.25
se obtendría 39 de cada 1000 veces (p=0.039),
asumiendo que la hipótesis nula de “no diferencia entre lo
observado y lo esperado” fuera cierta.
Críticas al paradigma clásico
Se debe tomar una decisión dicotómica
Esta decisión depende mucho del
tamaño de la muestra.
Ho: La mezcla para la reacción de PCR
da amplificación positiva con la misma
tasa de éxito cuando se agrega
Magnesio que cuando no se agrega.
Ha: La mezcla para la reacción de PCR
no da amplificación positiva con la
misma tasa de éxito cuando se agrega
Magnesio que cuando no se le agrega.
2
Χ = 2,06 p=0,15
Estadística Bayesiana
No sufre las críticas hechas a las
pruebas de significación.
Incorpora las evidencias aportadas
por experiencias previas dentro del
proceso analítico y las contempla,
por ende, en las conclusiones.
Probabilidad Objetiva vs. Probabilidad
subjetiva
Objetiva: la probabilidad es el límite de
frecuencias relativas (o proporciones) de
eventos observables.
Subjetiva: resulta de una construcción mental
del investigador acerca del grado de “certeza
racional” que tenga acerca de una
afirmación
Estadística Bayesiana
La probabilidad es una medida
directa de la incertidumbre.
Puede o no puede representar una
frecuencia a largo plazo.
La pieza fundamental de esta
metodología es el “Teorema de
Bayes”
Estadística Bayesiana
Pensamiento clásico: se pronuncia
probabilísticamente sobre los datos a
partir de supuestos.
Pensamiento bayesiano: se pronuncia
probabilísticamente sobre los
supuestos partiendo de los datos.
Estadística Bayesiana
Teorema de Thomas Bayes (1701-
1761)
Bayes
Procedimiento para
determinar cuál de
varias hipótesis es
más probable sobre
la base de los datos.
Estadística Bayesiana
El teorema de Bayes es el puente para pasar de una
probabilidad a priori o inicial, P(H), de una hipótesis H a
una probabilidad a posteriori o actualizada, P(H|D),
basado en una nueva observación D.
Pb a posteriori= Likelihood * Pb. a priori
Estadística Bayesiana:
Probabilidades condicionadas y deducción del Teorema de Bayes
Análogamente
(1)
sustituyendo en [1]
Se llega a la expresión de la Regla de Bayes
Estadística Bayesiana:
Probabilidades condicionadas y deducción del Teorema de Bayes
Supóngase que A1, A2, ..., Ak son k sucesos
mutuamente excluyentes.
Por la ley de probabilidades totales se desprende que:
Estadística Bayesiana:
Probabilidades condicionadas y deducción del Teorema de Bayes
De modo que, tomando el suceso Aj en lugar de A en la
fórmula [2] y aplicando al denominador la mencionada
ley, se tiene:
Estadística Bayesiana:
Ejemplo comparativo de enfoque clásico y
Bayesiano
θ= tasa de prevalencia de asmáticos en una población.
Cual es?
Enfoque clásico: intervalo de confianza
N=200
11
p= = 0, 055
200
Z a = 1, 96
1-
2
Intervalo de confianza al 95%:
I=0,023 y S=0,087.
Estadística Bayesiana:
Ejemplo comparativo de enfoque clásico y
Bayesiano
Enfoque Bayesiano:
Primer paso: fijar probabilidades a priori para k
valores de θ
Estadística Bayesiana:
Ejemplo comparativo de enfoque clásico y
Bayesiano
La esperanza de θ será:
E(θ)=(0,05)(0,10)+(0,07)(0,20)+(0,09)(0,40)+(0,11)(0,20)+(0,13)(0,10)=0,09
Estadística Bayesiana:
Ejemplo comparativo de enfoque clásico y
Bayesiano
2º paso: los datos empíricos : Sabemos que e=11
individuos de n=200 padecen de asma.
3º paso: aplicamos el teorema de Bayes:
Estadística Bayesiana:
Ejemplo comparativo de enfoque clásico y
Bayesiano
Calculamos los likelihoods:
Estadística Bayesiana:
Ejemplo comparativo de enfoque clásico y
Bayesiano
Para θ=0.05, el likelihood es
Estadística Bayesiana:
Ejemplo comparativo de enfoque clásico y
Bayesiano
Obtuvimos una nueva esperanza para las
probabilidades:
Que tiene además un menor grado de incertidumbre
Estadística Bayesiana:
Ejemplo genético-forense
¿A cuál de los tres grupos étnicos
(Caucasianos, Maorí o Polinesia
occidental) pertenece el individuo cuya
mancha de sangre se encontró en la
escena de un crimen?
Estadística Bayesiana:
Ejemplo genético-forense
datos
Genotipo multilocus (i.e. varios loci
microsatélite) (X1)
Frecuencias poblacionales para los
alelos de los distintos loci
microsatélite, para cada grupo étnico.
Porcentaje de cada grupo étnico en
Nueva Zelanda
Estadística Bayesiana:
Ejemplo genético-forense
Likelihoods (P(X1|θi))
p(XI|θ1)= 3.96 x 10–9 (Causcasianos)
p(XI|θ2)= 1.18 x 10–8 (Maoríes)
y p(XI|θ3)= 1.91 x 10–7. (Polinesios occidentales)
¿Como se calcularon?
Estadística Bayesiana:
Ejemplo genético-forense
PRIORS
Θ1= 0.819
Θ2= 0.137
Θ3= 0.044
¿DE DONDE SURGEN?
Estadística Bayesiana:
Ejemplo genético-forense
PROBABILIDADES POSTERIORES
¿Conclusión?
Estadística Bayesiana
El paso a la continuidad
Las probabilidades a priori no son
discretas, ya que son infinitos los
valores que puede tomar la variable.
Se deben usar funciones de densidad
de probabilidaes (p.ej. La función beta
que depende de dos parámetros, a y b)
Estadística Bayesiana
Estadística Bayesiana
Estadística Bayesiana
Cuando el tamaño de la muestra es grande,
las probabilidades a posteriori o
actualizadas se parecen mucho a las del
likelihood, es decir que la distribución a
priori tiende a ser irrelevante.
la máxima utilidad del “bayesianismo” se
produce cuando los tamaños muestrales no
son muy grandes.
Estadística Bayesiana y MCMC
´Como se calculan las pb posteriores?
En algunos casos es imposible
calcularlas analíticamente.
Se deben usar aproximaciones:
MCMC (Markov Chain Monte
Carlo)
Estadística Bayesiana y MCMC
1. Start at an arbitrary point
2. Make a small random move
3. Calculate height ratio (r) of new state to old state:
1. r > 1 -> new state accepted
2. r < 1 -> new state accepted with probability r. If new state
not accepted, stay in the old state
4. Go to step 2
always accept
2a
1
2b accept sometimes
20 % 48 % 32 %
tree 1 tree 2 tree 3
Estadística Bayesiana y MCMC
El mecanismo por el que se llega a un nuevo estado en
cada movimiento de la cadena debe cumplir con ciertos
requisitos:
debe ser estocástico (dado un estado viejo, la
probabilidad de llegar a un estado nuevo debe ser
similar a la probabilidad de que dado un estado nuevo
se llegue al viejo)
Cualquier estado debe ser accesible, si se repite
infinitas veces el mecanismo.
Debe ser aperiódica (no puede repetir un determinado
mecanismo cada tanto)
Estadística Bayesiana y MCMC
Esta cadena se repite miles y millones de
veces.
Los movimientos pueden ser grandes o
pequeños, dependiendo esto de lo
establecido por el usuario (“tunning” de la
cadena).
La fracción de tiempo que la cadena visita
un estado particular (p.ej. un árbol
particular) es una aproximación válida de la
probabilidad posterior de ese estado.
Estadística Bayesiana y MCMC
La cadena empieza típicamente de un punto en el
espacio de parámetros que puede estar muy lejos de las
probabilidades posteriores, y tomará cierto tiempo
(BURN IN) hasta que la cadena alcance los probables
parámetros y produzca una aproximación razonable de
la distribución a posteriori (PERIODO
ESTACIONARIO).
Estadística Bayesiana
stationary phase y MCMC
sampled with thinning
(rapid mixing essential)
burn-in
Glosario
Parametro
Cantidad no observable de interés. Puede incluir parámteros
poblacionales, tales como frecuencias alélicas, o ubicación de un
QTL, o datos faltantes, o tasa de sustitución.
Parametros “ruido”
Un parámetro que es necesario para definir un problema pero
que no es de interés primario. Por ejemplo, en el caso del desvío a
HWE, las frecuencias alélicas son “parámetros ruido”.
Espacio del parámetro.
El conjunto de todos los valores posibles de la cantidad de
interés. El espacio de parámetros para las frecuencias alélicas de
una población incluye todos los valores entre 0 y uno, inclusive.
Glosario
Dimensionalidad
Es el número de ejes en el espacio de parámetros. Por
ejemplo, si estamos interesados en medir el desvió de las
frecuencias del equilibrio de Hardy–Weinberg en una
población con dos alelos en el locus de interés, existen dos
parámetros a considerar. Uno es el de las frecuencias
alélicas, y otro es el parámetro que describe el desvió del
equilibrio HWE. Entonces el espacio de parámetros tiene
dos dimensiones.
Distribución Posterior
La distribución de las probabilidades condicionadas de las
cantidades de interés no observadas (parámetros), dado los
datos observados.
Glosario
p(u|X)
Símbolo que se refiere a la distribución posterior. Debe
ser leído como “distribución condicional de mu dado
los datos”, o simplemente la distribución posterior.
Distribución “a priori” vaga (dispersa)
La distribución se esparce difusamente sobre el espacio
del parámetro. Un ejemplo es cuando todos los
posibles valores del parámetro tienen igual peso.
¿Que es ser un bayesiano?
“Un bayesiano es aquel que, tiene una vaga
esperanza de que venga un caballo, y echando un
vistazo a un burro, cree firmemente que ha visto
una mula”
“Sólo un estadístico bayesiano es capaz de explicar
coherentemente la declaración: Si hay una
posibilidad de 50-50 de que algo puede ir mal,
entonces 9 de cada diez veces lo hará”
“No se convierta en un artista, sea un Bayesiano,
mucho más espacio para la imaginación!”
Lectura recomendada:
https://www.elcohetealaluna.com/teorema-de-bayes/
Un ejemplo didáctico de Adrian Paenza sobre el teorema de Bayes
publicado en el blog “el cohete a la luna”.