0% encontró este documento útil (0 votos)
18 vistas15 páginas

Pec2 Ie

El documento presenta ejercicios sobre el cálculo de probabilidades utilizando distribuciones de Poisson y geométrica, así como la estimación de parámetros mediante métodos de máxima verosimilitud y momentos. Se discuten dos enfoques para calcular la probabilidad de contaminación bacteriana en agua, comparando resultados de Poisson y aproximaciones normales. Además, se analiza un experimento genético para estimar el parámetro de mutaciones en colonias de bacterias, incluyendo la representación gráfica de la función de verosimilitud y el cálculo de sesgos de los estimadores.

Cargado por

didicampos491
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
18 vistas15 páginas

Pec2 Ie

El documento presenta ejercicios sobre el cálculo de probabilidades utilizando distribuciones de Poisson y geométrica, así como la estimación de parámetros mediante métodos de máxima verosimilitud y momentos. Se discuten dos enfoques para calcular la probabilidad de contaminación bacteriana en agua, comparando resultados de Poisson y aproximaciones normales. Además, se analiza un experimento genético para estimar el parámetro de mutaciones en colonias de bacterias, incluyendo la representación gráfica de la función de verosimilitud y el cálculo de sesgos de los estimadores.

Cargado por

didicampos491
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

PEC2_IE_DCL

Diana Campos López

2024-12-17

Índice
Ejercicio 1 (3 puntos) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
Ejercicio 2 (3 puntos) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
Ejercicio 3 (5 puntos) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

Ejercicio 1 (3 puntos)

En el interés de controlar la contaminación, un experimentador desea contar el


número de bacterias en un pequeño volumen de agua. Denote con 𝑋 la cantidad de
bacterias por centímetro cúbico de agua y suponga que 𝑋 tiene una distribución
de probabilidad de Poisson con media 𝜆 = 100. Si la contaminación permisible
en un suministro de agua es de 110 bacterias por centímetro cúbico, calcule la
probabilidad de que 𝑋 sea a lo sumo de 110. Realice el cálculo de dos formas:

1. Basándose directamente en una distribución de Poisson.

La distribución de Poisson para 𝑋 (cantidad de bacterias por 𝑐𝑚3 ) tiene una


función de densidad:

𝜆𝑥 𝑒−𝜆
𝑓(𝑥; 𝜆) = , 𝑥 = 0, 1, 2, …
𝑥!
Formula corregida de: https://es.wikipedia.org/wiki/Distribución_de_Poisson

1
Como 𝜆 = 100:

100𝑘
𝑒−100 ⋅ 𝑘! si 𝑘 = 0, 1, 2, …
𝑓(𝑘) = 𝑃 [𝑋 = 𝑘] = { }
0 en caso contrario

Si aplicamos directamente la formula obtenemos 𝑃 (110). Sin embargo, nosotros


buscamos 𝑃 (≤ 110). Para ello debemos realizar el sumatorio de todos los valores
hasta 110. Para ello vamos a abrir un bucle for que nos sume cada caso. Si
tuviesemos que hacerlo a mano sería muy tedioso y probablemente acumularíamos
errores en la ejecución:

l <- 100 # lambda


k <- 110

PX <- 0
for (i in 0:k) {
PX <- PX + exp(-l) * (l^i) / factorial(i)
}

cat("La probabilidad de que haya como máximo 110 bacterias es de", PX ,".")

## La probabilidad de que haya como máximo 110 bacterias es de 0.8528627 .

Ahora vamos a comprobar que el resultado es el mismo que utilizando las funciones
predeterminadas por R:

ppois(k, l) #con ppois calculamos la probabilidad acumulada

## [1] 0.8528627

2. Utilizando una aproximación normal a la distribución de Poisson.

El Teorema Central del Límite (TCL) establece que, para un tamaño de muestra
suficientemente grande (n), la distribución de la suma o media de variables

2
aleatorias independientes e idénticamente distribuidas tiende a una distribución
normal, independientemente de la distribución original.
Como consecuencia del teorema central del límite, para valores grandes de 𝜆, una
variable aleatoria de Poisson 𝑋 puede aproximarse por otra normal dado que el
cociente

𝑋−𝜆
𝑌 = √
𝜆

converge a una distribución normal de media 0 y varianza 1.


Fuente: https://es.wikipedia.org/wiki/Distribución_de_Poisson
Como se explica en el apartado 5.3.5.3., una variable aleatoria 𝑃 (𝜆), su media será
𝜆 y varianza 𝜆. La aproximación normal sería:


𝑃 (100) ∼ 𝑁 (100, 100)

Ahora que la hemos transformado en una Normal, vamos a calcular 𝑃 (≤ 110):

PN <- pnorm(110, mean = 100, sd = sqrt(100))


PN

## [1] 0.8413447

3. Compare las dos soluciones y comente acerca de cual es preferible

Eabs <- ((PX-PN)/PX)*100 # Calculamos el error absoluto


Eabs

## [1] 1.350499

La probabilidad obtenida utilizando la aproximación de Poisson es de 85.29%,


mientras que la obtenida utilizando la aproximación Normal ha sido de 84.13%.
El error cometido al realizar esta aproximación es de 1.3%. Personalmente creo

3
que es preferible utilizar directamente la aproximación de Poisson si utilizamos
sistemas informaticos como R, que cuentan con un función integrada para ello (en
este caso ppois). Sin embargo, si tuviesemos que realizar esta operación a mano,
sería preferible utilizar la Normal, ya que el error cometido será menor (es mas
fácil tener un error en un sumatorio de 110 operaciones, que realizando el calculo
normal con las tablas).

Ejercicio 2 (3 puntos)

En un experimento genético, se cuenta el número de mutaciones observadas en


𝑛 colonias independientes de bacterias cultivadas bajo condiciones controladas.
Se supone que el número de mutaciones en cada colonia sigue una distribución
geométrica con parámetro 𝑝, es decir, la probabilidad de observar 𝑥 mutaciones en
una colonia es:

𝑃 (𝑋 = 𝑥) = (1 − 𝑝)𝑥 𝑝, 𝑥 = 0, 1, 2, …

Se observaron los siguientes números de mutaciones en 𝑛 = 5 colonias: 𝑥1 = 3,


𝑥2 = 1, 𝑥3 = 0, 𝑥4 = 2, 𝑥5 = 4.

1. Obtened y representar gráficamente la función de verosimilitud para


p.

Como se dice en el enunciado estamos trabajando con un vector aleatorio


independiente e identicamente distribuido con la función de probabilidad
geométrica. En estos casos, la función de verosimilitud se define como:

𝑛
𝐿(𝑥1 , 𝑥2 … , 𝑥𝑛 ; 𝑝) = ∏ 𝑃 (𝑋𝑖 ∣ 𝑝).
𝑖=1

Donde fijamos 𝑥 𝑥 = (𝑥1 , 𝑥2 , ..., 𝑥𝑛 ), y variamos 𝑝.


En nuestro caso, primero sustituimos 𝑃 (𝑋𝑖 |𝑝) por la función de masa de
probabilidad de la distribución geométrica:

4
𝑛
𝐿(𝑝) = ∏ [(1 − 𝑝)𝑥𝑖 𝑝] .
𝑖=1

Si desarrollamos esta fórmula:

𝑛
𝐿(𝑝) = (1 − 𝑝)∑𝑖=1 𝑋𝑖 ⋅ 𝑝𝑛

La función de distribución cuando 𝑋 es discreta (como en nuestro caso) indica


la probabilidad de observar la muestra, dado un valor del parámetro. Su
representación gráfica es:

# Definimos la función de verlosimilitud


X <- c(3, 1, 0, 2, 4)
n <- 5
p <- seq(0.01, 0.99, length.out = 1000)

likelihood <- p^n * (1 - p)^sum(X)

# Graficamos
plot(p, likelihood, type = "l", lwd = 2, col = "violet",
xlab = "p", ylab = "L(p)", main = "Función de verosimilitud")

5
6e−05
4e−05 Función de verosimilitud
L(p)

2e−05
0e+00

0.0 0.2 0.4 0.6 0.8 1.0

Al contrario que en los ejercicios resueltos, el valor del eje horizontal es entre 0 y
1 porque en la función geométrica 𝑝 es una probabilidad y por tanto solo puede
tomar ese rango de valores.

2. Encontrad el estimador máximo verosímil 𝑝EMV


̂ de 𝑝

El 𝑝EMV
̂ lo podemos encontrar en el máximo de la función de verosimilitud. Para
ello debemos tomar el logaritmo de 𝐿 y derivar igualando a 0:

𝑛 𝑛
𝑑 𝑛 ∑ 𝑥𝑖
ℓ(𝑝) = log 𝐿(𝑝) = 𝑛 log 𝑝 + (∑ 𝑥𝑖 ) log(1 − 𝑝) ℓ(𝑝) = − 𝑖=1
𝑖=1
𝑑𝑝 𝑝 1−𝑝

Igualamos a 0:

𝑛 𝑛
𝑛 ∑𝑖=1 𝑥𝑖 𝑛 ∑ 𝑥𝑖
− = 0 → = 𝑖=1
𝑝 1−𝑝 𝑝 1−𝑝

6
𝑛
𝑝̂ = 𝑛
𝑛 + ∑𝑖=1 𝑥𝑖

Estrictamente hablando, para comprobar que el valor obtenido es un máximo


debemos verificar que la segunda derivada log-verosimilitud con respecto a 𝑝 es
negativa en 𝑝:̂
Primero calculamos la segunda derivada,

𝑛
𝑑2 𝑛 ∑𝑖=1 𝑥𝑖
ℓ(𝑝) = − −
𝑑𝑝2 𝑝2 (1 − 𝑝)2

En este caso no va a hacer falta sustiuir con 𝑝̂ ya que toda la segunda derivada
es negativa. Esto la sabemos porque, los valores de 𝑛 y 𝑝 siempre serán positivos
al igual que los de 𝑥𝑖 , por lo que con los simbolos - obtenemos que la segunda
derivada es negativa. En conclusión:

𝑛
𝑝EMV
̂ = 𝑛
𝑛 + ∑𝑖=1 𝑥𝑖

La condición para que sea un máximo es que la primera derivada sea igual a 0 y
la segunda sea negativa, por lo que, aunque la segunda derivada siempre va a ser
negativa, solo hay un máximo que es donde se iguala a 0.
A continuación, sustituimos con los números del enunciado para saber cuanto será:

𝑛 5 5 1
𝑝EMV
̂ = 𝑛 = = =
𝑛 + ∑𝑖=1 𝑥𝑖 5 + (3 + 1 + 0 + 2 + 4) 15 3

3. Obtened el estimador, 𝑝EMM


̂ , del método de los momentos de 𝑝.

1−𝑝
NOTA: Tened en cuenta que 𝔼[𝑋] = 𝑝

Queremos estimar 𝑝 con el método de los momentos. Este método dice que si 𝑝
es una función de los momentos poblacionales, entonces una estimación razonable
puede consistir en tomar como estimador la misma función en la que los momentos
poblacionales han sido sustituidos por los momentos muestrales.
Sabemos que 𝑚1 = 𝐸(𝑋 1 ):

7
1−𝑝
𝑚1 = 𝔼[𝑋] =
𝑝

Para obtener el estimador debemos igualar 𝑚1 (momento poblacional) y por 𝑋̄


(momento muestral) y despejar 𝑝.
El primer momento muestral viene definido por:

𝑛
𝑛𝑖
𝛼1 = ∑ 𝑥𝑖 = 𝑥̄
𝑖=1
𝑁
Así que si sustituimos:

1 1
= 𝑋̄ → 𝑝 =
1−𝑝 1 + 𝑋̄

Por lo tanto:

1
𝑝EMM
̂ =
1 + 𝑋̄
Si sustituímos:

1 1 1 1
𝑝EMM
̂ = = = =
1 + 𝑋̄ 1+ (3+1+0+2+4)
5
1+2 3

4. Calculad el sesgo de ambos estimadores, 𝑝EMV


̂ y 𝑝EMM
̂ .

::: NOTA: Los apartados 4 y 5 podéis resolverlos analíticamente o mediante


simulación con 𝑛 = 5 y 𝑝 = 0.4. Generad muestras de tamaño 𝑛, repetid el
experimento al menos 1000 veces y estimad el sesgo y la varianza a partir de las
estimaciones obtenidas sobre las muestras simuladas. :::

set.seed(123) # Fijar la semilla para reproducibilidad

# Parámetros
n <- 5
replicas <- 1000

8
p <- 0.4

# Simulaciones
simulaciones <- replicate(replicas, {
muestra <- rgeom(n, prob = p)
p_emv <- n / (n + sum(muestra) )
p_emm <- 1 / (1 + mean(muestra))
c(p_emv, p_emm)
})

# Convertimos las simulaciones en una matriz


simulaciones <- t(simulaciones)
colnames(simulaciones) <- c("EMV", "EMM")

# Calculamos los valores promedio de los estimadores


promedios <- colMeans(simulaciones)

# Calculamos el sesgo de cada estimador


sesgos <- promedios - p

# Resultados
cat("El sesgo del EMV es:", sesgos["EMV"], "\n")

## El sesgo del EMV es: 0.05270829

cat("El sesgo del EMM es:", sesgos["EMM"])

## El sesgo del EMM es: 0.05270829

Estamos trabajando con estimadores que nos permiten averiguar 𝑝. El sesgo indica
si el estimador tiende a sobrestimar o subestimar el verdadero valor del parámetro.
En este caso, que sea 0.0527 nos indica que el estimador es sesgado, y que tiende
a sobreestimar 𝑝 por 0.0527.

9
5. Calculad la varianza de ambos estimadores.

A partir de la simulación anterior podemos obtener directamente la varianza:

var_emv <- var(simulaciones[, "EMV"])


var_emm <- var(simulaciones[, "EMM"])

cat("La varianza del EMV es:", var_emv, "\n")

## La varianza del EMV es: 0.02511761

cat("La varianza del EMM es:", var_emm )

## La varianza del EMM es: 0.02511761

La varianza mide la dispersión de los valores alrededor de su valor esperado. Como


vemos, nuestros estimadores tienen una varianza muy pequeña, por lo que, no solo
tienen un sesgo muy bajo si no que ademas los valores estan muy concentrados al
rededor de este valor.

Ejercicio 3 (5 puntos)

En el año 2010 se publicó en la prestigiosa revista The New England Journal of


Medicine el artículo A Randomized Trial of Tai Chi for Fibromyalgia, que podéis
encontrar en https://www.nejm.org/doi/full/10.1056/NEJMoa0912611.
La variable primaria de interés es un score (puntuación) llamado Fibromyalgia
Impact Question naire (FIQ), que va de 0 a 100, con valores más altos indicando
una enfermedad más severa.
Basándoos en los resultados presentados en la Table 2: Changes in primary and
Secondary Out comes del artículo, responded a las siguientes cuestiones:

10
1. En la semana 24 del estudio, ¿se ha producido una reducción
importante del score FIQ en el grupo que ha practicado Tai Chi? ¿Cuál
ha sido la reducción con un 95% de confianza?

El primer paso para resolver este ejercicio es rescatar los datos:


| Grupo Tai Chi (N=33) | Grupo Control (N=33) | Tai Chi vs Control | p-value |
FIQ score | | | | |
Semana 24 | -28.6 (-34.8 a -22.4) | -10.2 (-16.4 a -4.0) | -18.3 (-27.1 a -9.6) | <
0.001 |
Para saber si la reducción en el grupo que ha practicado Tai Chi es importante
hay que mirar su p-value. El problema es que el p-value de la tabla viene dado
para la comparación entre el grupo control y el grupo Tai chi, no para el grupo
Tai Chi dentro de si mismo.
Todos los datos de la tabla tienen un nivel de confianza del 95%, por lo que para
contestar a la pregunta solo debemos obtener los datos de manera directa. Como
podemos observar en estos datos, la reudcción ha sido, de media, de -28.6 puntos,
con un mínimo de -22.4 a un máximo de la reducciónd el FIQ de -34.8.
Sabiendo que la variable FIQ tiene un rango es del 0 al 100 podemos decir que se
ha reducido un 28.6%. Considero que esta reducción es muy notable, especialmente
si nos fijamos en la reducción del grupo control que solo ha sido de un 10%, siendo
casi el triple la reducción del grupo Tai Chi. Además, si nos fijamos también en el
rango de la reducción, la reducción minima encontrada (22.4) es también bastante
importante.

2. En esta misma semana, ¿existe una diferencia importante entre la


reducción del grupo Tai Chi y la del grupo Control? ¿Cuál ha sido esta
diferencia con un 95% de confianza?

Entre ambos grupos existe una reducción importante ya que el p-value es < 0.05.
En esa misma semana la diferencia entre los grupos ha sido de -18.3 puntos de
media. La reducción del grupo que hace Tai Chi ha sido significativa respecto al
grupo control.

11
3. El intervalo de confianza que habéis utilizado para responder a
la cuestión anterior, ¿puede ser siempre utilizado o requiere algunos
requisitos para su construcción? En este último caso, especificad cuáles
son estos requisitos.

El intervalo de confianza que hemos usado en los apartados anteriores es el Intervalo


de confianza para la media cuando se conoce la desviación estándar de la población.
Este IC puede utilizarse en poblaciones que tengan una distribución Normal o que
sean suficientemente grandes para que, gracias al TCL puedan aproximarse a una
Normal, y además conozcamos su desviación estándar. Existen otros tipos de IC
depende del contexto y del resultado que queramos, por ejemplo, el IC para una
probabilidad o para la varianza.

4. Responded a las mismas preguntas de los apartados (1) y (2) pero


ahora referidas a la variable BMI (Body-mass Index).

Si rescatamos los datos de la variable BMI obtenemos:


| Grupo Tai Chi (N=33) | Grupo Control (N=33) | Tai Chi vs Control | p-value |
BMI | | | | |
Semana 24 | -0.2 (-0.7 a 0.3) | -0.3 (-0.8 a -0.2) | 0.1 (-0.6 a 0.8) | 0.76 |
En el grupo de Tai Chi, se observa una reducción media del BMI de -0.2, con
una reducción máxima de -0.7 y un aumento máximo de 0.3. Estos resultados
indican que no hay una disminución significativa del BMI, ya que, además de que
la reducción máxima es bastante pequeña, también se registran casos en los que el
BMI ha aumentado.
Asimismo, la comparación entre ambos grupos no muestra una reducción
significativa del BMI, dado que el valor de p es superior a 0.05, lo que implica
que las diferencias observadas no son estadísticamente significativas. En la misma
semana, la diferencia media entre los grupos fue de solo 0.1 puntos.
Por último, es importante mencionar que en el grupo de Tai Chi hay un paciente
cuyo valor de BMI no se encuentra registrado.

12
5. Supongamos que se quisiera diseñar el estudio para que el intervalo de
confianza para la reducción del score FIQ en el grupo de Tai Chi tuviera
una amplitud máxima de 5 puntos con un nivel de confianza del 95%.
Calculad el tamaño muestral que sería necesario en cada grupo para
alcanzar esta precisión, asumiendo que la desviación estándar observada
en el artículo es representativa. Repetid el cálculo para el intervalo de
confianza para la variable BMI (Body-mass Index). Viendo estos dos
resultados, que comentaríais sobre los estudios que realizan un cálculo
de tamaño muestral basándose tan sólo en una variable.

Primero vamos a definir los datos:

• IC = 95%

• Precisión = 2.5

• FIQ score basal grupo Tai Chi: 62.9±15.5

• FIQ score basal grupo control: 68.0±11

• n = ???

Como podemos asumir que la desviación estandar del artículo es representativa,


podemos basarnos en la normal estandar:

2
𝑍𝛼/2 ⋅ 𝜎
𝑛=( )
Precisión

En este caso habría que buscar el valor de Z para el intervalo de confianza deseado.
Considero más optimu utilizar la función propia de R MeanCIn()):

suppressMessages(suppressWarnings(library(DescTools)))

# Grupo Tai Chi


prec<- 2.5
m <- 62.9
sd <- 15.5

13
conf =0.95
MeanCIn(ci=c(m-prec, m+prec), sd=sd, conf.level=conf)

## [1] 150.0924

# Grupo Control
prec<- 2.5
m <- 68
sd <- 11
conf =0.95
MeanCIn(ci=c(m-prec, m+prec), sd=sd, conf.level=conf)

## [1] 76.80293

Deberiamos utilizar una muestra de n=150 para el grupo Tai Chi y n= 77 para el
grupo control.
Si realizamos los mismos cálculos pero tomando como referencia el BMI, tenemos
los siguientes datos:

• IC = 95%

• Precisión = 2.5

• BMI basal grupo Tai Chi: 33.9±8.9

• BMI basal grupo control: 31.5±7.4

• n = ???

Y los siguientes resultados:

# Grupo Tai Chi


prec<- 2.5
m <- 33.9
sd <- 8.9
conf =0.95
MeanCIn(ci=c(m-prec, m+prec), sd=sd, conf.level=conf)

14
## [1] 51.12301

# Grupo Control
prec<- 2.5
m <- 31.5
sd <- 7.4
conf =0.95
MeanCIn(ci=c(m-prec, m+prec), sd=sd, conf.level=conf)

## [1] 36.10202

En este caso, el número de participantes en el grupo Tai Chi debería ser de 51 y


el del grupo control de 36.
En estos casos los valores han sido mucho menores a los obtenidos tomando la
variabli FIQ score como referencia. Estos datos, junto los hayados anteriormente
que demuestranq ue hay diferencias significativas en el FIQ score, pero en el BMI
no, apoyan que no se debe seleccionar el tamaño de muestra basandose en una sola
variable ya que no se obtendrá información enriquecedora de todas, si no solamente
de aquella estuddiada.
Aún así, por lo que parece en el estudio, el número de participantes no fue solo
seleccionado por calculos, si no que también influyo las disponiblidad de los
pacientes. Como se muestra en la Figura 1 de los pacientes, aunque comenzaron
con 33 en cada grupo, no todos finalizaron el estudio, y la muestra de selección era
límitada ya que deben excluir a ciertos pacientes por razones de logistica, como
por ejemplo que vivan fuera de la ciudad, que ya hayan realizado Tai Chi etc.

15

También podría gustarte