Resumen del Capítulo 4 – Muestras y
Estimación
1. Introducción a la Inferencia Estadística
La inferencia estadística permite hacer conclusiones sobre una población a partir de una
muestra. Dado que en la mayoría de los estudios no es posible analizar toda la población, se
utilizan muestras representativas para estimar parámetros poblacionales.
2. Muestreo: Métodos y Consideraciones
El proceso de selección de una muestra es clave para que las estimaciones sean precisas y
representativas. Existen diferentes métodos de muestreo:
2.1 Tipos de Muestreo
1. Muestreo Aleatorio Simple:
o Todos los elementos de la población tienen la misma probabilidad de ser
seleccionados.
o Se puede realizar mediante una tabla de números aleatorios o generadores
computacionales.
2. Muestreo Sistemático:
o Se selecciona un punto de inicio aleatorio y luego se elige cada k-ésimo
elemento.
o Ejemplo: Si se quiere seleccionar una muestra de 50 personas en una
población de 1000, se selecciona cada 20ª persona.
3. Muestreo Estratificado:
o Se divide la población en subgrupos homogéneos (estratos) y luego se toma
una muestra de cada estrato de manera proporcional.
o Útil cuando hay características diferenciadas en la población (por ejemplo,
edad o sexo).
4. Muestreo por Conglomerados:
o Se divide la población en grupos heterogéneos y se selecciona
aleatoriamente algunos grupos completos.
o Es útil cuando la población está geográficamente dispersa.
3. Estimación Estadística
Existen dos tipos de estimaciones que se pueden hacer sobre una población a partir de una
muestra:
3.1 Estimación Puntual
Es un solo valor que se usa para estimar un parámetro poblacional.
Ejemplo: La media muestral (xˉ\bar{x}xˉ) se usa para estimar la media poblacional
(μ\muμ).
Tiene la limitación de que no muestra el grado de incertidumbre.
3.2 Estimación por Intervalos
Se calcula un intervalo dentro del cual se espera que esté el verdadero valor del
parámetro con una cierta confianza.
Se expresa en términos de intervalos de confianza (IC).
4. Intervalos de Confianza (IC)
Los IC se utilizan para expresar la incertidumbre en una estimación y se calculan como:
Estimador±(margen de error)\text{Estimador} \pm \text{(margen de error)}Estimador±
(margen de error)
Donde el margen de error depende del nivel de confianza y la variabilidad de la muestra.
4.1 Interpretación del Intervalo de Confianza
Un IC del 95% significa que si se repitiera el estudio muchas veces, el 95% de los
intervalos construidos contendrían el verdadero parámetro poblacional.
No significa que haya un 95% de probabilidad de que el parámetro esté en el
intervalo en un único estudio.
4.2 Cálculo del Intervalo de Confianza para la Media
Si la población sigue una distribución normal y la desviación estándar (σ\sigmaσ) es
conocida, el IC para la media se calcula como:
IC=xˉ±Zα/2⋅σnIC = \bar{x} \pm Z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}}IC=xˉ±Zα/2⋅n
σ
Donde:
Zα/2Z_{\alpha/2}Zα/2 es el valor crítico de la distribución normal estándar (para un
95% de confianza, Z=1.96Z = 1.96Z=1.96).
σ\sigmaσ es la desviación estándar poblacional.
nnn es el tamaño de la muestra.
Si σ\sigmaσ no es conocida, se usa la distribución t de Student y la fórmula se ajusta
utilizando la desviación estándar muestral (s) en lugar de σ\sigmaσ.
5. Error en la Estimación
5.1 Error Estándar (EE)
Mide la variabilidad de un estimador muestral.
Se calcula como: EE=snEE = \frac{s}{\sqrt{n}}EE=ns
A mayor tamaño de muestra, menor es el error estándar, lo que mejora la precisión
de la estimación.
5.2 Sesgo
Ocurre cuando la muestra no representa correctamente a la población.
Puede ser causado por:
o Un mal diseño del muestreo (sesgo de selección).
o Datos incorrectos o mal medidos (sesgo de medición).
6. Distribuciones Estadísticas Relevantes
6.1 Distribución Normal
La mayoría de las variables biológicas siguen una distribución normal.
Es simétrica y su forma depende de la media y la desviación estándar.
6.2 Distribución t de Student
Se usa cuando el tamaño de la muestra es pequeño (n<30n < 30n<30) y σ\sigmaσ no
es conocida.
Tiene colas más largas que la distribución normal, lo que refleja mayor
incertidumbre.
7. Aplicaciones en Estudios Científicos
La estimación por intervalos se usa en estudios clínicos para determinar si un
tratamiento es efectivo.
Se usan pruebas de hipótesis junto con los intervalos de confianza para evaluar la
validez de un resultado.
Un IC que no incluye el valor nulo (ejemplo: diferencia de medias = 0) indica que el
resultado es significativo.
Resumen Final
1. Las muestras deben ser representativas para hacer inferencias válidas sobre la
población.
2. Existen varios tipos de muestreo (aleatorio, sistemático, estratificado, por
conglomerados).
3. La estimación puede ser puntual o por intervalos.
4. Los intervalos de confianza expresan la incertidumbre de la estimación.
5. El error estándar mide la precisión y el sesgo afecta la validez del estudio.
6. La distribución normal y la t de Student son esenciales en la estimación.
7. Los estudios científicos utilizan estos conceptos para evaluar tratamientos y tomar
decisiones basadas en datos.
8.
Resumen del Capítulo 5 – Principios de
Inferencia
1. Introducción a la Inferencia Estadística
La inferencia estadística permite extraer conclusiones sobre una población a partir de una
muestra. Se basa en dos enfoques principales:
1. Estimación de parámetros poblacionales.
2. Pruebas de hipótesis para tomar decisiones sobre la población.
El objetivo es generalizar los hallazgos de la muestra a la población con un margen de
error conocido.
2. Conceptos Claves en Inferencia Estadística
2.1 Población y Muestra
Población: Conjunto completo de elementos sobre los que se quiere inferir.
Muestra: Subconjunto de la población seleccionado para el estudio.
Las muestras deben ser representativas para evitar sesgos y garantizar la validez de la
inferencia.
2.2 Parámetros y Estadísticos
Parámetro poblacional: Valor desconocido que describe una característica de la
población (ejemplo: media μ\muμ, proporción ppp).
Estadístico muestral: Valor calculado a partir de la muestra y usado para estimar
un parámetro (ejemplo: media muestral xˉ\bar{x}xˉ, proporción muestral p^\
hat{p}p^).
2.3 Variabilidad y Distribución de Muestreo
Los estadísticos muestrales varían de una muestra a otra.
La distribución de muestreo describe cómo se distribuyen los valores del estadístico
en todas las muestras posibles.
La Ley de los Grandes Números establece que, a mayor tamaño muestral, el
estadístico se acerca más al parámetro real.
3. Estimación Estadística
3.1 Estimación Puntual
Se usa un único valor para estimar un parámetro.
Ejemplo: La media muestral xˉ\bar{x}xˉ estima la media poblacional μ\muμ.
No proporciona información sobre la precisión o incertidumbre de la estimación.
3.2 Estimación por Intervalos
Se construye un intervalo de confianza (IC) alrededor del estimador puntual.
Se interpreta como el rango donde se espera que esté el verdadero parámetro con
una determinada confianza.
Cálculo del IC para la Media:
IC=xˉ±Zα/2⋅snIC = \bar{x} \pm Z_{\alpha/2} \cdot \frac{s}{\sqrt{n}}IC=xˉ±Zα/2⋅ns
Donde:
Zα/2Z_{\alpha/2}Zα/2 es el valor crítico de la distribución normal.
sss es la desviación estándar muestral.
nnn es el tamaño de la muestra.
Si la población no sigue una distribución normal o el tamaño de muestra es pequeño (n<30n
< 30n<30), se usa la distribución t de Student en lugar de la normal.
4. Pruebas de Hipótesis
4.1 Definición y Objetivo
Las pruebas de hipótesis permiten evaluar afirmaciones sobre parámetros poblacionales
usando datos muestrales. Se basan en el supuesto de que la variabilidad en los datos es
causada por el azar.
4.2 Pasos de una Prueba de Hipótesis
1. Formulación de hipótesis:
o Hipótesis nula (H0H_0H0): No hay efecto o diferencia significativa.
o Hipótesis alternativa (H1H_1H1): Se postula una diferencia o efecto real.
2. Elección del nivel de significancia (α\alphaα):
o Valor comúnmente usado: α=0.05\alpha = 0.05α=0.05 (5% de probabilidad
de error tipo I).
3. Cálculo del estadístico de prueba:
o Depende del tipo de prueba y distribución de los datos (normal, t de Student,
etc.).
4. Determinación del valor p:
o Valor p: Probabilidad de obtener resultados tan extremos como los
observados, suponiendo que H0H_0H0 es verdadera.
o Si p<αp < \alphap<α, se rechaza H0H_0H0 (indica una diferencia
significativa).
5. Conclusión:
o Si se rechaza H0H_0H0, hay evidencia estadística a favor de H1H_1H1.
o Si no se rechaza H0H_0H0, los datos no son suficientes para demostrar una
diferencia significativa.
5. Tipos de Errores en Pruebas de Hipótesis
1. Error Tipo I (α\alphaα):
o Ocurre cuando se rechaza H0H_0H0 siendo verdadera.
o Es controlado por el nivel de significancia (α\alphaα).
2. Error Tipo II (β\betaβ):
o Ocurre cuando no se rechaza H0H_0H0 siendo falsa.
o Relacionado con el poder estadístico de la prueba (probabilidad de detectar
un efecto real).
Factores que Afectan el Poder Estadístico
Tamaño de la muestra: A mayor tamaño, mayor poder.
Nivel de significancia (α\alphaα): Reducir α\alphaα disminuye el poder.
Magnitud del efecto: Si la diferencia entre grupos es grande, el poder aumenta.
6. Tipos de Pruebas Estadísticas
6.1 Pruebas Paramétricas
Se usan cuando los datos cumplen con ciertos supuestos, como normalidad. Ejemplos:
Prueba t para una muestra: Compara la media muestral con una media teórica.
Prueba t para dos muestras: Compara las medias de dos grupos independientes.
ANOVA: Compara más de dos medias al mismo tiempo.
6.2 Pruebas No Paramétricas
Se usan cuando los datos no siguen una distribución normal o son ordinales. Ejemplos:
Prueba de Mann-Whitney: Alternativa no paramétrica a la prueba t para dos
muestras.
Prueba de Wilcoxon: Para muestras relacionadas.
Prueba de Kruskal-Wallis: Alternativa no paramétrica a ANOVA.
7. Aplicaciones en Estudios Científicos
En estudios clínicos, las pruebas de hipótesis se usan para comparar tratamientos y
determinar su eficacia.
En epidemiología, se emplean para evaluar asociaciones entre factores de riesgo y
enfermedades.
En genética, permiten identificar diferencias en la expresión de genes entre grupos.
Resumen Final
1. La inferencia estadística permite generalizar conclusiones desde una muestra a la
población.
2. La estimación puede ser puntual o por intervalos, siendo los intervalos de
confianza una herramienta clave para expresar incertidumbre.
3. Las pruebas de hipótesis evalúan afirmaciones sobre la población y se interpretan
con el valor p.
4. El error tipo I y el error tipo II afectan la validez de los resultados.
5. El poder estadístico es crucial para detectar diferencias significativas.
6. Las pruebas paramétricas y no paramétricas se eligen según las características
de los datos.
7. Estos conceptos son aplicados en estudios científicos para validar hipótesis en
distintas disciplinas.
Resumen del Capítulo 6 – Intervalos de
Confianza
1. Introducción a los Intervalos de Confianza (IC)
Los intervalos de confianza (IC) son una herramienta fundamental en estadística para
expresar la incertidumbre en la estimación de un parámetro poblacional. En lugar de dar
una única estimación (estimación puntual), los IC proporcionan un rango de valores donde
es probable que se encuentre el parámetro verdadero con un nivel de confianza específico.
Ejemplo:
Si un estudio estima que el promedio de presión arterial en una población es 120 mmHg
con un IC del 95% de (118, 122), significa que hay un 95% de confianza de que el valor
real esté en ese rango.
2. Concepto y Interpretación de un Intervalo de
Confianza
2.1 Definición Formal
Un intervalo de confianza se expresa como:
Estimador±(margen de error)\text{Estimador} \pm \text{(margen de error)}Estimador±
(margen de error)
Donde el margen de error depende de:
1. Variabilidad de los datos (desviación estándar o error estándar).
2. Tamaño de la muestra (n).
3. Nivel de confianza elegido (1−α1 - \alpha1−α), usualmente 95%.
2.2 Interpretación Correcta
Un IC del 95% indica que si repitiéramos el estudio muchas veces, el 95% de los
intervalos construidos incluirían el valor real del parámetro.
No significa que haya un 95% de probabilidad de que el parámetro esté dentro del
intervalo en un único estudio.
3. Cálculo de Intervalos de Confianza
3.1 Intervalo de Confianza para la Media
Si los datos siguen una distribución normal y la desviación estándar poblacional (σ\sigmaσ)
es conocida, el IC se calcula como:
IC=xˉ±Zα/2⋅σnIC = \bar{x} \pm Z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}}IC=xˉ±Zα/2⋅n
σ
Donde:
xˉ\bar{x}xˉ = media muestral
Zα/2Z_{\alpha/2}Zα/2 = valor crítico de la distribución normal (para 95% de
confianza, Z=1.96Z = 1.96Z=1.96)
σ\sigmaσ = desviación estándar poblacional
nnn = tamaño de la muestra
Si σ\sigmaσ no es conocida, se usa la desviación estándar muestral (sss) y la
distribución t de Student, ajustando la fórmula:
IC=xˉ±tα/2,n−1⋅snIC = \bar{x} \pm t_{\alpha/2, n-1} \cdot
\frac{s}{\sqrt{n}}IC=xˉ±tα/2,n−1⋅ns
Donde tα/2,n−1t_{\alpha/2, n-1}tα/2,n−1 es el valor crítico de la distribución t con n−1n-
1n−1 grados de libertad.
🔹 Ejemplo: Si xˉ=50\bar{x} = 50xˉ=50, s=10s = 10s=10, n=25n = 25n=25 y el IC del 95%
usa t=2.064t = 2.064t=2.064:
IC=50±(2.064×1025)IC = 50 \pm (2.064 \times \frac{10}{\sqrt{25}})IC=50±(2.064×2510)
IC=50±4.13IC = 50 \pm 4.13IC=50±4.13 IC=(45.87,54.13)IC = (45.87,
54.13)IC=(45.87,54.13)
3.2 Intervalo de Confianza para una Proporción
Cuando se quiere estimar una proporción ppp en la población, el IC se calcula como:
IC=p^±Zα/2⋅p^(1−p^)nIC = \hat{p} \pm Z_{\alpha/2} \cdot \sqrt{\frac{\hat{p} (1-\
hat{p})}{n}}IC=p^±Zα/2⋅np^(1−p^)
Donde:
p^\hat{p}p^ es la proporción muestral (xn\frac{x}{n}nx, donde xxx es el número
de casos favorables y nnn el tamaño de la muestra).
Zα/2Z_{\alpha/2}Zα/2 es el valor crítico de la distribución normal.
🔹 Ejemplo: Si en una muestra de 200 personas, 60 tienen una característica de interés
(p^=60/200=0.30\hat{p} = 60/200 = 0.30p^=60/200=0.30), con Z0.025=1.96Z_{0.025} =
1.96Z0.025=1.96:
IC=0.30±1.96×0.30(0.70)200IC = 0.30 \pm 1.96 \times \sqrt{\frac{0.30(0.70)}
{200}}IC=0.30±1.96×2000.30(0.70) IC=0.30±0.064IC = 0.30 \pm 0.064IC=0.30±0.064
IC=(0.236,0.364)IC = (0.236, 0.364)IC=(0.236,0.364)
Esto indica que la proporción real en la población está entre 23.6% y 36.4% con un 95%
de confianza.
4. Factores que Afectan el Intervalo de Confianza
1. Nivel de confianza: A mayor confianza (por ejemplo, 99%), el intervalo será más
amplio.
2. Tamaño de la muestra: A mayor nnn, el intervalo será más estrecho, ya que hay
menos variabilidad.
3. Variabilidad de los datos: Si la dispersión en los datos es alta, el intervalo será
más amplio.
5. Aplicaciones de los Intervalos de Confianza
Medicina: Estimación de tasas de mortalidad, efectividad de tratamientos, valores
de referencia clínicos.
Epidemiología: Determinar prevalencia de enfermedades en poblaciones.
Ciencias sociales: Encuestas y estudios de opinión pública.
Ingeniería y control de calidad: Evaluar la confiabilidad de procesos y productos.
Resumen Final
1. Los intervalos de confianza proporcionan un rango donde es probable que se
encuentre un parámetro poblacional.
2. El margen de error depende de la variabilidad, el tamaño de muestra y el nivel de
confianza.
3. Se calculan diferentes IC para medias y proporciones usando las distribuciones
normal y t de Student.
4. Un IC del 95% no significa que el parámetro esté en el intervalo con 95% de
probabilidad, sino que en repetidos estudios, el 95% de los intervalos incluirían el
parámetro real.
5. Factores como el tamaño de la muestra y la variabilidad afectan la amplitud del
intervalo.
6. Se aplican en múltiples áreas como medicina, ciencias sociales e ingeniería
Resumen del Capítulo 11 – Conexión entre
Inferencia Estadística y Probabilidad
1. Introducción
La inferencia estadística se basa en la probabilidad para tomar decisiones sobre una
población a partir de una muestra. La probabilidad permite modelar la incertidumbre y
cuantificar el grado de confianza en las conclusiones obtenidas de los datos.
Este capítulo explora cómo se relacionan la probabilidad y la inferencia estadística,
destacando conceptos clave como la distribución de muestreo, los teoremas fundamentales
y la interpretación de los valores p y pruebas de hipótesis.
2. Probabilidad y Su Relación con la Inferencia
2.1 Definición de Probabilidad
La probabilidad mide la posibilidad de que ocurra un evento dentro de un conjunto de
resultados posibles. Se representa como un número entre 0 y 1.
Ejemplo:
La probabilidad de obtener cara al lanzar una moneda es 0.5 (o 50%).
2.2 Probabilidad y Muestreo
Cuando se extrae una muestra de una población, cada posible muestra tiene una
probabilidad de ser seleccionada.
Si el muestreo es aleatorio, cada muestra tiene la misma probabilidad de ocurrir.
Si el muestreo es sesgado, la probabilidad de seleccionar ciertos elementos puede
ser mayor que la de otros, afectando la inferencia.
3. Distribución de Muestreo y Teorema del Límite
Central (TLC)
3.1 Distribución de Muestreo
Es la distribución de un estadístico (como la media xˉ\bar{x}xˉ) calculado en
múltiples muestras de la misma población.
Permite entender cómo varían los valores del estadístico entre diferentes muestras.
3.2 Teorema del Límite Central (TLC)
El TLC establece que, si se toman muestras grandes (n>30n > 30n>30) de cualquier
población, la distribución de la media muestral:
Se aproximará a una distribución normal, sin importar la forma de la
distribución original.
Tendrá una media igual a la media poblacional (μ\muμ).
Su desviación estándar será menor que la de la población, y se denomina error
estándar: σxˉ=σn\sigma_{\bar{x}} = \frac{\sigma}{\sqrt{n}}σxˉ=nσ
🔹 Ejemplo: Si la media de una población es 100 y su desviación estándar es 15, una
muestra de n=25n=25n=25 tendrá una desviación de:
σxˉ=1525=3\sigma_{\bar{x}} = \frac{15}{\sqrt{25}} = 3σxˉ=2515=3
Este concepto es clave porque permite hacer inferencias sobre la media poblacional usando
la distribución normal, incluso si los datos originales no son normales.
4. Pruebas de Hipótesis y Valor p
4.1 Hipótesis Nula y Alternativa
Hipótesis nula (H0H_0H0): No hay efecto o diferencia (ejemplo: "el tratamiento
no tiene efecto").
Hipótesis alternativa (H1H_1H1): Se plantea que hay un efecto o diferencia
(ejemplo: "el tratamiento mejora la condición del paciente").
4.2 El Valor p
El valor p es la probabilidad de obtener un resultado tan extremo como el observado,
asumiendo que la hipótesis nula es verdadera.
Si p<αp < \alphap<α (por ejemplo, 0.05), se rechaza H0H_0H0 y se considera que
el resultado es estadísticamente significativo.
Si p>αp > \alphap>α, no se rechaza H0H_0H0, lo que indica que no hay suficiente
evidencia para concluir que hay una diferencia real.
🔹 Ejemplo:
Un experimento prueba un nuevo medicamento y encuentra un valor p de 0.03. Si el nivel
de significancia es 0.05, se rechaza H0H_0H0 y se concluye que el medicamento tiene un
efecto significativo.
4.3 Relación entre Probabilidad y Pruebas de Hipótesis
La probabilidad se usa para calcular el valor p.
Cuanto menor sea el valor p, menos probable es que los resultados se deban al azar.
La estadística de prueba (z o t) se obtiene utilizando la probabilidad de obtener
valores extremos bajo la hipótesis nula.
5. Intervalos de Confianza y Probabilidad
Los intervalos de confianza (IC) están directamente relacionados con la probabilidad
porque se construyen con la idea de que, en múltiples repeticiones del estudio, un
porcentaje de los intervalos incluirá el verdadero parámetro poblacional.
IC=xˉ±Zα/2⋅σnIC = \bar{x} \pm Z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}}IC=xˉ±Zα/2⋅n
σ
Un IC del 95% significa que en 95 de cada 100 muestras, el intervalo contendrá la
media poblacional.
Si el IC excluye el valor nulo (por ejemplo, una diferencia de 0 en comparación de
medias), se considera que el resultado es significativo.
🔹 Ejemplo:
Si un estudio sobre presión arterial da un IC del 95% (118, 122), significa que hay 95% de
confianza de que el valor real esté en ese rango.
6. Errores en Inferencia Estadística
6.1 Error Tipo I (α\alphaα)
Ocurre cuando se rechaza H0H_0H0 siendo verdadera.
Su probabilidad es el nivel de significancia α\alphaα, usualmente 0.05.
Ejemplo: Un test indica que un medicamento funciona cuando en realidad no lo hace.
6.2 Error Tipo II (β\betaβ)
Ocurre cuando no se rechaza H0H_0H0 siendo falsa.
Se relaciona con el poder estadístico (1−β1 - \beta1−β), que mide la capacidad de
detectar un efecto real.
Ejemplo: Un test no detecta un medicamento efectivo cuando en realidad sí funciona.
Factores que afectan el poder estadístico:
Tamaño de la muestra: A mayor nnn, menor probabilidad de error tipo II.
Nivel de significancia (α\alphaα): Reducir α\alphaα aumenta la probabilidad de
error tipo II.
Magnitud del efecto: Si la diferencia es grande, el poder estadístico aumenta.
7. Aplicaciones en Estudios Científicos
Epidemiología: Evaluación del riesgo de enfermedades basado en estudios
probabilísticos.
Medicina: Evaluación de la eficacia de tratamientos y diagnóstico de enfermedades.
Ingeniería: Pruebas de calidad basadas en inferencia estadística.
Ciencias Sociales: Encuestas y estudios de comportamiento.
Resumen Final
1. La inferencia estadística depende de la probabilidad para evaluar la
incertidumbre en la estimación de parámetros.
2. El Teorema del Límite Central permite usar la normalidad en la estimación de
medias muestrales.
3. Las pruebas de hipótesis usan la probabilidad para evaluar la significancia
estadística (valor p).
4. Los intervalos de confianza representan la incertidumbre en la estimación de un
parámetro.
5. Existen errores tipo I y tipo II, y su control es clave en el diseño de estudios.
6. Estos conceptos son esenciales en investigación científica y toma de decisiones.
Resumen del Capítulo 13 – Estimación por
Intervalo
1. Introducción a la Estimación por Intervalo
La estimación por intervalo es un método en estadística que proporciona un rango de
valores dentro del cual se espera que esté un parámetro poblacional con un nivel de
confianza determinado.
En lugar de dar una única estimación (como en la estimación puntual), la estimación por
intervalo considera la incertidumbre y permite tomar decisiones con mayor precisión.
🔹 Ejemplo:
Si queremos estimar la media de presión arterial en una población, una estimación puntual
podría ser 120 mmHg, pero una estimación por intervalo podría ser (118, 122) mmHg con
un 95% de confianza.
2. Diferencia entre Estimación Puntual y Estimación por
Intervalo
Tipo de
Definición Ejemplo
Estimación
Un solo valor estimado a partir de
Puntual xˉ=120\bar{x} = 120xˉ=120 mmHg
la muestra.
Rango de valores dentro del cual se
IC95%=(118,122)IC_{95\%} = (118,
Por Intervalo encuentra el parámetro poblacional
122)IC95%=(118,122) mmHg
con un nivel de confianza dado.
🔹 Ventajas de la Estimación por Intervalo:
Permite conocer la incertidumbre de la estimación.
Ofrece una mejor base para la toma de decisiones en estudios científicos.
3. Intervalos de Confianza (IC)
3.1 Definición de Intervalo de Confianza
Un intervalo de confianza (IC) es un rango de valores que probablemente contiene el
verdadero valor del parámetro poblacional con una probabilidad determinada (nivel de
confianza).
Se calcula como:
IC=Estimador±(margen de error)IC = \text{Estimador} \pm \text{(margen de
error)}IC=Estimador±(margen de error)
Donde el margen de error depende de:
1. Variabilidad de los datos (desviación estándar o error estándar).
2. Tamaño de la muestra (nnn).
3. Nivel de confianza elegido (1−α1 - \alpha1−α), usualmente 95% o 99%.
4. Cálculo de Intervalos de Confianza
4.1 Intervalo de Confianza para la Media
Si la población sigue una distribución normal y la desviación estándar (σ\sigmaσ) es
conocida, el IC se calcula como:
IC=xˉ±Zα/2⋅σnIC = \bar{x} \pm Z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}}IC=xˉ±Zα/2⋅n
σ
Donde:
xˉ\bar{x}xˉ = media muestral
Zα/2Z_{\alpha/2}Zα/2 = valor crítico de la distribución normal (para 95% de
confianza, Z=1.96Z = 1.96Z=1.96)
σ\sigmaσ = desviación estándar poblacional
nnn = tamaño de la muestra
🔹 Ejemplo:
Si una muestra de 25 personas tiene una media de presión arterial de 120 mmHg, con
σ=10\sigma = 10σ=10 mmHg y un nivel de confianza del 95%:
IC=120±1.96×1025IC = 120 \pm 1.96 \times \frac{10}{\sqrt{25}}IC=120±1.96×2510
IC=120±3.92IC = 120 \pm 3.92IC=120±3.92 IC=(116.08,123.92)IC = (116.08,
123.92)IC=(116.08,123.92)
Esto significa que con un 95% de confianza, la media poblacional está entre 116.08 y
123.92 mmHg.
4.2 Intervalo de Confianza para la Media con σ\sigmaσ Desconocida
Si σ\sigmaσ no es conocida, se usa la desviación estándar muestral (sss) y la distribución
t de Student en lugar de la normal:
IC=xˉ±tα/2,n−1⋅snIC = \bar{x} \pm t_{\alpha/2, n-1} \cdot
\frac{s}{\sqrt{n}}IC=xˉ±tα/2,n−1⋅ns
Donde tα/2,n−1t_{\alpha/2, n-1}tα/2,n−1 es el valor crítico de la distribución t con n−1n-
1n−1 grados de libertad.
🔹 Diferencias clave entre Z y t:
Se usa Z cuando la desviación estándar poblacional σ\sigmaσ es conocida.
Se usa t de Student cuando σ\sigmaσ es desconocida y n<30n < 30n<30.
4.3 Intervalo de Confianza para una Proporción
Cuando se quiere estimar una proporción poblacional ppp, el IC se calcula como:
IC=p^±Zα/2⋅p^(1−p^)nIC = \hat{p} \pm Z_{\alpha/2} \cdot \sqrt{\frac{\hat{p} (1-\
hat{p})}{n}}IC=p^±Zα/2⋅np^(1−p^)
Donde:
p^\hat{p}p^ es la proporción muestral (xn\frac{x}{n}nx, donde xxx es el número
de casos favorables y nnn el tamaño de la muestra).
Zα/2Z_{\alpha/2}Zα/2 es el valor crítico de la distribución normal.
🔹 Ejemplo:
En una muestra de 200 personas, 60 tienen una característica de interés (p^=60/200=0.30\
hat{p} = 60/200 = 0.30p^=60/200=0.30). Para un nivel de confianza del 95% (Z=1.96Z =
1.96Z=1.96):
IC=0.30±1.96×0.30(0.70)200IC = 0.30 \pm 1.96 \times \sqrt{\frac{0.30(0.70)}
{200}}IC=0.30±1.96×2000.30(0.70) IC=0.30±0.064IC = 0.30 \pm 0.064IC=0.30±0.064
IC=(0.236,0.364)IC = (0.236, 0.364)IC=(0.236,0.364)
Esto indica que la proporción real en la población está entre 23.6% y 36.4% con un 95%
de confianza.
5. Factores que Afectan el Intervalo de Confianza
1. Nivel de confianza:
o Un nivel mayor (por ejemplo, 99% en lugar de 95%) hace que el intervalo
sea más amplio.
o Un nivel menor hace que el intervalo sea más estrecho.
2. Tamaño de la muestra (nnn):
o A mayor nnn, el intervalo se hace más estrecho.
o Muestras pequeñas generan intervalos más amplios y menos precisos.
3. Variabilidad en los datos (σ\sigmaσ o sss):
o Mayor dispersión en los datos aumenta el margen de error y hace que el IC
sea más amplio.
6. Aplicaciones de los Intervalos de Confianza
Medicina: Evaluación de la eficacia de un tratamiento.
Epidemiología: Determinación de tasas de infección en una población.
Ciencias sociales: Encuestas políticas y de opinión pública.
Ingeniería y calidad: Medición de defectos en productos.
Resumen Final
1. Los intervalos de confianza proporcionan un rango estimado en el que se
encuentra un parámetro poblacional con cierta probabilidad.
2. El margen de error depende del tamaño muestral, la variabilidad de los datos y el
nivel de confianza.
3. Diferentes fórmulas se aplican según el tipo de dato (media conocida, media
desconocida, proporción).
4. Factores como el nivel de confianza y el tamaño de la muestra afectan la
precisión del intervalo.
5. Los intervalos de confianza tienen amplias aplicaciones en investigación y toma
de decisiones.
Resumen del Capítulo 15 – Sesgo en
Inferencia
1. Introducción al Sesgo en Inferencia Estadística
El sesgo es un error sistemático que afecta la validez de los resultados de un estudio. Se
produce cuando la estimación de un parámetro poblacional se desvía sistemáticamente de
su verdadero valor, generando conclusiones incorrectas.
Importancia del Sesgo
Puede llevar a errores en la toma de decisiones en estudios científicos.
Afecta la validez interna y externa de los resultados.
Puede surgir en cualquier etapa del estudio: diseño, recopilación de datos, análisis
o interpretación.
2. Tipos de Sesgo
2.1 Sesgo de Selección
Ocurre cuando la muestra analizada no es representativa de la población de interés.
🔹 Ejemplo:
Un estudio sobre hipertensión usa solo pacientes de una clínica privada, excluyendo
personas de sectores públicos con diferente acceso a la salud.
🔹 Cómo evitarlo:
Usar muestreo aleatorio.
Asegurar que la muestra sea representativa de la población objetivo.
Minimizar la pérdida de participantes en estudios longitudinales.
2.2 Sesgo de Información o Medición
Se produce cuando los datos recolectados no reflejan con precisión la variable de interés.
🔹 Ejemplo:
Un estudio sobre peso corporal usa balanzas mal calibradas, lo que introduce errores en la
medición.
Causas comunes:
Errores en la recolección de datos.
Uso de instrumentos de medición poco precisos.
Diferencias en la forma en que los entrevistadores formulan preguntas.
🔹 Cómo evitarlo:
Usar métodos de medición validados.
Entrenar a los recolectores de datos.
Estandarizar procedimientos de medición.
2.3 Sesgo de Confusión
Ocurre cuando una variable externa influye en la relación entre la variable independiente y
la dependiente, dando una impresión falsa de asociación.
🔹 Ejemplo:
Un estudio encuentra que las personas que beben café tienen más enfermedades
cardíacas. Sin embargo, los bebedores de café pueden fumar más, y el tabaquismo (no el
café) es la verdadera causa del problema.
🔹 Cómo evitarlo:
Usar ajustes estadísticos (como regresión múltiple).
Realizar emparejamiento entre grupos para comparar condiciones similares.
Estratificar los análisis según posibles factores de confusión.
2.4 Sesgo de Publicación
Se da cuando los estudios con resultados significativos tienen más probabilidades de ser
publicados que aquellos con resultados negativos o nulos.
🔹 Ejemplo:
Un estudio encuentra que un nuevo medicamento no tiene efectos diferentes a un placebo,
pero no se publica porque los investigadores prefieren mostrar hallazgos positivos.
🔹 Cómo evitarlo:
Publicar estudios independientemente de los resultados.
Usar registros de ensayos clínicos donde se documenten todos los estudios
realizados.
3. Impacto del Sesgo en la Inferencia Estadística
El sesgo afecta la validez de los estudios de dos maneras:
3.1 Validez Interna
Se refiere a qué tan bien un estudio mide lo que realmente quiere medir.
Si hay sesgo de selección o medición, los resultados pueden no reflejar la realidad.
3.2 Validez Externa
Se refiere a la generalización de los resultados a otras poblaciones.
Si el estudio no tiene una muestra representativa, los resultados no se pueden
aplicar a otras poblaciones.
4. Diferencia entre Sesgo y Error Aleatorio
Característica Sesgo Error Aleatorio
Error sistemático que causa Variabilidad debida al azar,
Definición
desviaciones en la estimación. presente en cualquier estudio.
Dirección del Siempre en una dirección Puede aumentar o disminuir la
error específica. estimación sin patrón fijo.
Se puede evitar con un buen diseño Se reduce aumentando el tamaño de
Corrección
del estudio. la muestra.
🔹 Ejemplo:
Un termómetro descalibrado introduce un sesgo porque siempre dará valores
incorrectos en una dirección.
Las fluctuaciones normales en mediciones de temperatura entre sujetos representan
error aleatorio.
5. Métodos para Minimizar el Sesgo en Estudios
Científicos
5.1 En el Diseño del Estudio
Usar muestreo aleatorio para evitar sesgo de selección.
Definir criterios de inclusión y exclusión claros.
Asegurar que la población estudiada sea representativa de la real.
5.2 En la Recolección de Datos
Estandarizar métodos de medición y capacitar al personal.
Usar instrumentos de medición validados y precisos.
Realizar estudios doble ciego para evitar sesgo de información.
5.3 En el Análisis de Datos
Ajustar por factores de confusión mediante modelos estadísticos.
Realizar análisis de sensibilidad para evaluar el impacto de posibles sesgos.
6. Aplicaciones en Estudios Científicos
Medicina: Evitar sesgos en ensayos clínicos para evaluar correctamente la eficacia
de tratamientos.
Epidemiología: Controlar factores de confusión en estudios sobre enfermedades.
Ciencias Sociales: Diseñar encuestas sin preguntas que induzcan respuestas
sesgadas.
Resumen Final
1. El sesgo es un error sistemático que afecta la validez de la inferencia estadística.
2. Existen varios tipos de sesgo, incluyendo sesgo de selección, medición, confusión
y publicación.
3. El sesgo de selección ocurre cuando la muestra no es representativa de la
población.
4. El sesgo de medición se da por errores en la recolección de datos, como
instrumentos defectuosos o mal calibrados.
5. El sesgo de confusión surge cuando una tercera variable altera la relación
entre las variables de estudio.
6. El sesgo de publicación favorece la publicación de resultados positivos,
ocultando estudios con resultados nulos.
7. El sesgo afecta la validez interna y externa, limitando la aplicabilidad de los
resultados.
8. Diferencia entre sesgo y error aleatorio: el sesgo es sistemático y corregible,
mientras que el error aleatorio es impredecible y se reduce con un mayor tamaño de
muestra.
9. Para minimizar el sesgo, se deben aplicar técnicas como muestreo aleatorio,
estandarización de mediciones y ajustes estadísticos.
10. El sesgo es un problema en todas las áreas de investigación y debe ser
controlado para garantizar resultados confiables.