0% encontró este documento útil (0 votos)
42 vistas21 páginas

Fundamentos de Estadística Descriptiva

Cargado por

190278192
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
42 vistas21 páginas

Fundamentos de Estadística Descriptiva

Cargado por

190278192
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

E S TA D Í S T I C A

Christiam Ochoa
ÍNDICE
01 pág. 11

Conceptos y Estadística descriptiva


Introducción
Bioestadística
Variables
Estadística Descriptiva – Gráficos
Gráficos Exploratorios

02 pág. 19

Estadística Inferencial
Introducción
Teoría de Probabilidades
Distribución de Probabilidades
Muestreo
Estadística Inferencial

03 pág. 26

Cuestionario
E S TA D Í S T I C A

Estadística es considerado un
capítulo menor, representa en
1% promedio el 1% (2 de 200
preguntas) del Examen Nacional de
Aspirantes a Residentado Médico.

Número de preguntas por temas en el capítulo Estadística

12 09 08

Estadística Estadística Conceptos


inferencial descriptiva

08 03

Probabilidades Muestreo

ENARM 2000-2022
01. CONCEPTOS Y ESTADÍSTICA DESCRIPTIVA
Introducción
En el Manual de Epidemiología aprendimos los fundamentos de la investigación clínica.
Aprendimos la importancia de la pregunta de investigación, definir la población de estudio,
diseñar el estudio, entre otras cosas. Sin embargo, ¿Qué vamos a hacer con los datos que
generamos u obtendremos en el estudio? ¿Cómo analizaremos los datos y cómo vamos a
interpretar los resultados? En este Manual nos introduciremos dentro de la bioestadística,
donde les proporcionaremos conocimientos y herramientas para formular un plan de
análisis de datos que nos ayude a responder estas preguntas en la parte clínica y a la hora
del examen.

Bioestadística
— La bioestadística proporciona métodos para describir y resumir los datos que
Recuerda hemos recogido de una muestra y nos permite extrapolar los resultados para hacer
inferencias sobre la población de la que se ha extraído la muestra. La Estadística
La Estadística puede clasificarse en 2 categorías: Estadística Descriptiva y la Estadística Inferencial.
puede clasificarse — El término Estadística Descriptiva se refiere a las medidas que resumen y caracterizan
en 2 categorías: un conjunto de datos que nos permiten comprender mejor los atributos de un grupo
Estadística o población. Cabe mencionar que, estas medidas pueden ser gráficas o numéricas.
Descriptiva y Mientras que la Estadística Inferencial y la prueba de hipótesis tienen como objetivo
la Estadística utilizar los datos de la muestra para aprender sobre la población de la que se ha
Inferencial. extraído esta, basándose en la teoría de la probabilidad.

Variables
— Se conoce como variable a toda característica o atributo susceptible de tomar un
valor y ser clasificado o medido. Debe tener dos o más valores. Cuando hablamos del
Recuerda valor operacional de la variable, nos referimos al lugar donde nosotros exponemos
cómo vamos a medir nuestra variable. Ahora, esto depende de una herramienta, del
Se conoce como instrumento de medición. Con este se le asignará un tipo (cualitativa o cuantitativa)
variable a toda y una escala (nominal, ordinal, razón, intervalo). Cuando nos referimos al tipo, nos
característica o referimos a si la variable será cualitativa o cuantitativa. Por ejemplo, imaginémonos
atributo susceptible que queremos medir la luz de nuestra habitación. Cualitativamente podemos medirla
de tomar un valor mencionando si hay o no hay luz. Mientras que cuantitativamente la podemos medir
y ser clasificado o a través de la candela (unidad de medida de luz).
medido.

— Las variables cualitativas se clasifican en dicotómicas o politómicas dependiendo de la cantidad


de valores que serán asignadas. Por ejemplo, al querer medir la luz de la habitación, una variable
dicotómica solo tendría 2 opciones (hay luz o no hay luz). Mientras que la variable politómica
puede tener más de 1 valor (no hay luz, poca luz, regular luz, mucha luz).
— Las variables cuantitativas pueden dividirse en discretas (cuando los valores sólo pueden
asignarse como número enteros) o en continuas (cuando se dan en número racionales).

w w w. q x m e d i c . c o m PA G . 7
E S TA D Í S T I C A

Por ejemplo:
— Variables Cuantitativas Discretas:
♦ Los datos discretos son valores numéricos que representan cantidades medibles. Se limitan a valores
enteros y a menudo se denominan datos de recuento. Ejemplos de datos discretos son el número de
muertes en Perú en 2012 y el número de años que un grupo de individuos ha recibido educación, el
número de hijos.
— Variables Cuantitativas Continuas:
♦ Los datos continuos también representan cantidades medibles, pero no se limitan a valores enteros
(números racionales) y pueden incluir valores fraccionarios y decimales. Por lo tanto, la diferencia entre
dos valores puede ser arbitrariamente pequeña en función de la precisión de nuestro instrumento de
medición. Algunos ejemplos de datos continuos son la temperatura, el peso y el nivel de colesterol en
sangre, entre otros.

CUALITATIVAS CUANTITATIVAS
DICOTÓMICAS DISCRETAS
(Ejemplo: Masculino o Femenino) (Ejemplo: 1,2,3,4,5)
POLITÓMICAS
CONTINUAS
(Ejemplo: lavado de manos, uso de
(Ejemplo, 1.1,.1.2, 1.3, etc)
guantes, uso de mascarilla, etc)

Tabla 1. Resumen de la medición de Variables según el Tipo

Por otro lado, la Escala de Medición es el grado de exactitud con que se va


a expresar la medida de una variable. Según el instrumento que usamos para
Recuerda acercarnos a la verdad, tendremos una escala de medición Nominal, Ordinal,
Intervalo y Razón.
La Escala de
Medición es el — Nominal: representan categorías o clases de datos no ordenadas. Por ejemplo, una
grado de exactitud de las posibles formas de categorizar la etnia en los seres humanos es "Blanco",
con que se va a "Negro" y "Otras etnias"
expresar la medida — Ordinal: Cuando existe un orden natural entre las categorías, los datos se denominan
de una variable ordinales. La clasificación de la New York Heart Association (NYHA) describe cuatro
La razón asigna categorías de insuficiencia cardíaca según la gravedad de los síntomas y el grado
distancias de limitación para realizar las actividades diarias actividades diarias o el score de
constantes y APGAR. (Ver tabla 2).
numéricas entre — Intervalo: se le conoce así porque asigna distancias constantes y numéricas entre las
categorías, pero el categorías. Por ejemplo, medir la temperatura con el termómetro en grados Celsius,
0 es REAL. por cada grado de temperatura se dilata el mercurio, los valores que aumentan
son constantes. En esta escala el cero no siginifica ausencia real del fenómeno. Es
arbitrario. Por ejemplo, 0° Celsius no significa ausencia de temperatura.
— Razón: asigna distancias constantes y numéricas entre categorías, pero el 0 es REAL. En otras
palabras, el 0 es ausencia total del fenómeno. Por ejemplo, medir la temperatura, pero en grados
Kelvin, donde el 0 representa lo absoluto. Otros ejemplos son las unidades de los sistemas
internacionales de medidas (metro, milímetros, kilo, litro, newton, etc) .

PA G . 8 w w w. q x m e d i c . c o m
E S TA D Í S T I C A

TIPO CARACTERÍSTICAS EJEMPLOS


Categorías o clases no ordenadas, Raza: Blanco, Negra, Asiática, otros.
NOMINAL nomenclatura especial: dicotómica o
binario- 2 valores distintos Género: Femenino y masculino

Categorías ordenadas, la magnitud no es New York Heart Association (NYHA)


ORDINAL
importante Clasificación de la IC: I, II, III, IV
INTERVALO El espacio entre los valores es significativo Temperatura en grados C°
Posibilidad de valores fraccionarios y
Temperatura en grados K° donde el 0 es
RAZÓN decimales, se pueden aplicar operaciones
absoluto
aritméticas

Tabla 2. Escalas de medición, características y ejemplos.

Estadística descriptiva – Gráficos


El primer paso en el análisis de datos es describir o resumir los datos que has recogido
mediante tablas, gráficos y/o valores numéricos. Este es un paso importante, porque nos
permitirá evaluar cómo se distribuyen los datos y cómo deben ser analizados.
Los gráficos proporcionan una evaluación general de los datos y pueden permitirle
comprender rápidamente cómo se distribuyen los datos o encontrar patrones y relaciones
entre las variables. Las estadísticas de resumen numérico son números que representan
los datos y resumen cuantitativamente lo que puede verse a través de los gráficos. Tanto
las medidas de resumen gráfico como las numéricas constituyen estadísticas descriptivas.

A. Gráficos exploratorios
— Gráfico de Tallo y hojas (stem plot): sirve para explorar las unidades de todos los
Recuerda datos con el objetivo de no perder el dato individual.
Gráfico de
— Gráfico de Dispersión: sirve para ver asociación de 2 variables, también es útil para
Dispersión: sirve evaluar la correlación (R2) .
para ver asociación — Gráfico de Cajas (boxplot): ayuda a comparar grupos de acorde a sus medianas y su
de 2 variables. rango intercuartilar. De tal manera que nos permita tener una mejor lectura a la hora
Si estás contando de comparar ambos grupos.
variables cualitativas
o cuantitativas B. Gráficos de distribuciones de frecuencia
discretas se usa Son aquellos gráficos que se utilizan para contar la frecuencia de ocurrencia de
principalmente las una variable.
Barras Simples,
gráfico donde las — Si estás contando variables cualitativas o cuantitativas discretas se usa:
bases no se tocan. ♦ Barras simples → gráfico donde las bases no se tocan (ESSALUD 2005)
♦ Circular o “pie” → expresan porcentajes

w w w. q x m e d i c . c o m PA G . 9
E S TA D Í S T I C A

♦ Pictograma → se le añade un dibujo explicativo


♦ Dot chart → compara 2 o más mediciones por categoría.
Recuerda — Si estás contando variables cuantitativas continuas:
♦ Histograma → las bases de las columnas se tocan porque los números son
En el histograma las bases de las infinitos .
columnas se tocan porque los ♦ Polígonos de frecuencias → se utiliza para comparar varios histogramas a
números son infinitos. la vez. Se trazan líneas a partir de los puntos medios de las columnas del
histograma.

TASAS CÁLCULO TASAS CÁLCULO


Tallo Hoja Pictograma
2 1
Gráfico de
3 3 6
Tallo y Hojas
4 0 6 7

Dot Chart

Gráfico de
Dispersión

Histograma

Gráfico de
Cajas (boxplot)

Polígono de
Frecuencias

Barras Simples

Circular o Pie

PA G . 1 0 w w w. q x m e d i c . c o m
E S TA D Í S T I C A

B. Gráficos de tendencia
Gráficos que sirven para predecir estadísticamente el futuro y permiten evaluar las variables y/o medidas en el
tiempo. Solo aplica con variables cuantitativas. Tenemos las curvas que responde a una función matemáticas
y de estas, un tipo especial son las curvas lineales. Se les conoce como lineal porque la función
representa: X + Y (ambos elevados a la 1) y son las más usadas en la bioestadística.

Medidas de Resumen Numérico


Nos permite resumir las medidas en números para permitirnos hacer cálculos con las
variables. Para ello tenemos que evaluar primero que tipo es nuestra variable. Al igual que
con la representación gráfica, la elección de la representación numérica dependerá del
tipo de variable que se esté considerando.

Para variables Cualitativas:


Recuerda — Razón: X/Y, nos permite ver la relación numérica entre 2 variables cualitativas. Por
ejemplo, cuántos cardiólogos hay por cada neurólogo. Cabe resaltar que X e Y son
Razón: X/Y nos totalmente excluyentes, no tienen nada que ver una con la otra.
permite ver la — Proporción: X/X+Y, son las que permiten ver el porcentaje (%) o la fracción que
relación numérica representa del total. En otras palabras, yo puedo ver cuántos cardiólogos hay de
entre 2 variables
entre el total de médicos.
cualitativas.
— Tasa: ocurre cuando expresas la Razón o la Proporción en función de las variables de la
estadística descriptiva. Entre estas tenemos tiempo, persona y lugar. A continuación,
algunas tasas epidemiológicas fundamentales (ver tabla 3).

Recuerda TASAS CÁLCULO

• Tasa de MUERTES
TASA DE LETALIDAD X 100
mortalidad ENFERMOS
infantil: MUERTOS < 1 AÑO
TASA DE MORTALIDAD INFANTIL X 1000
(muertos < 1 NACIDOS VIVOS
año/nacidos
MUERTES MATERNAS
vivos) X 1000 TASA DE MORTALIDAD MATERNA X 1000
MUJERES EN EDAD FÉRTIL
• Razón de
mortalidad RAZÓN DE MORTALIDAD MUERTES MATERNAS
X 100000
materna MATERNA NACIDOS VIVOS
(muertesmaternas/
nacidos vivos) X
100000 Tabla 3. Principales Tasas a nivel nacional
Para variables Cuantitativas:
Medidas de Tendencia Central
A. Moda:
— El valor más frecuente de un determinado conjunto de datos se denomina moda. La
Recuerda moda puede ser un resumen estadístico útil para los datos categóricos u ordinales,
La media es pero normalmente no es informativa para los datos discretos o continuos, ya que los
sensible a los valores únicos pueden ocurrir con baja frecuencia
valores extremos y
es única. 110mmHg 134mmHg 126mmHg 154mmHg 168mmHg
128mmHg 168mmHg 158mmHg 170mmHg 188mmHg

— Partamos de este ejemplo: la moda sería el valor que más se repite, en este caso 168
mmHg (2 veces)
168 mmHg (2 veces)

w w w. q x m e d i c . c o m PA G . 1 1
E S TA D Í S T I C A

B. Promedio o media:
La medida de tendencia central más común para los datos discretos y continuos
Recuerda es la media, también denominada promedio. La media de una variable se
Si la distribución calcula sumando todas las observaciones y dividiéndolas por el número total de
de los datos observaciones. Por lo tanto, la media es sensible a los valores extremos y es única.
es simétrica y Tomando como ejemplo la figura anterior, en este grupo de presiones el cálculo
unimodal, la del promedio sería:
media, la mediana
y la moda deben (110 + 134 + 126 + 154 + 168 + 128 + 168 + 158 + 170 + 188) / 10 = 150.4 mmHg.
ser las mismas. C. Mediana:
Cuando los datos
no son simétricos,
— La mediana se define como el número medio de una lista de valores ordenados
de menor a mayor. (Si no hay un número medio, la mediana es la media de los
la mediana es la
mejor medida de la
dos valores medios). La mediana es una medida de tendencia central que no es
tendencia central. tan sensible a los valores atípicos extremos en comparación con la media. Puede
utilizarse para resumir datos discretos o continuos. Tomando el ejemplo anterior,
ordenamos de menor a mayor:
110, 126, 128, 134, 154, 158, 168, 168, 170, 188

— Dado que tenemos 10 valores, la mediana es el promedio entre los 2 valores medios, en este
caso:
154 y 158 → 156 mmHg.
— OJO: La medida de tendencia central más adecuada depende de la distribución de los valores.
Si la distribución de los datos es simétrica y unimodal, la media, la mediana y la moda deben
ser las mismas.. En este caso, se suele preferir la media. Cuando los datos no son simétricos, la
mediana es la mejor medida de la tendencia central.
Medidas de Dispersión
Aunque dos distribuciones diferentes pueden tener la misma media, mediana y moda, el
conjunto total de datos puede ser muy diferentes. Por ello, las medidas de dispersión son
necesarias para describir mejor los datos y complementar la información proporcionada
por las medidas de tendencia central.
A. Rango
El rango de un grupo de observaciones se define como la diferencia entre la observación
más grande y la más pequeña. El rango es fácil de calcular y nos da una idea aproximada
de la dispersión de los datos; sin embargo, su utilidad es limitada. El rango es muy sensible
a los valores atípicos, ya que sólo tiene en cuenta los dos valores más extremos de un
conjunto de datos, el mínimo y el máximo.
B. Rango Intercuartílico
El rango intercuartílico (IQR) representa el medio 50% de todos los datos. Para calcular
el rango intercuartílico, primero hay que encontrar los percentiles 25 y 75. El percentil 25,
también llamado primer cuartil y denotado Q1, es el valor por debajo del cual cae el 25%
de los de los datos, cuando los datos están ordenados de menor a mayor. Del mismo
modo, el percentil 75, también llamado tercer cuartil y denominado Q3, es el valor por
debajo del cual cae en el 75% de los datos. El rango intercuartílico se encuentra tomando
la diferencia entre los percentiles 75 y 25. Este se suele comunicar junto con la mediana, ya
que no se ve afectado por los valores extremos.
C. Varianza y Desviación Estándar
La medida de dispersión más común es la desviación estándar. La varianza de la muestra
se define como la desviación estándar de la muestra al cuadrado. Ambas describen la
cantidad de variabilidad en torno a la media. La desviación estándar puede considerarse
como la distancia media de una observación individual con respecto a X. Normalmente,

PA G . 1 2 w w w. q x m e d i c . c o m
E S TA D Í S T I C A

la media y la desviación estándar se utilizan para describir las características de


toda la distribución de valores. Si aumenta el número de individuos la varianza
disminuye.
Recuerda
Medidas de Posición
Medidas de
posición: en el — Son aquellas medidas que nos permiten saber cuál es el lugar de un valor dentro de
aspecto clínico, los la curva. En primer lugar, la mediana es el punto medio de todo conjunto de datos.
más usados son Nos permite determinar el 50% de los datos inferiores a la mediana y a los 50%
los percentiles, restantes superiores a la misma.
se utilizan en el — Los cuartiles (Q1, Q2 o mediana y Q3) son los que dividen a la curva en 4 partes (25%
diagnóstico clínico. en 4 partes), y por último los percentiles, que dividen a la data hasta en 100 partes.
En el aspecto clínico, los más usados son los percentiles, se utilizan en el diagnóstico
clínico.

Medidas de Forma
— Son medidas que nos permiten estudiar la forma de la curva representada por los datos
obtenidos del estudio. Para ello debemos tener en cuenta dos aspectos fundamentales, la
Simetría y la Kurtosis. La primera, es la relación que tiene el centro con sus colas. Por ende, se
dice que una curva es simétrica cuando en un mismo punto coinciden la media, la moda y la
mediana (ver figura 1) .
— En la otra mano, la Kurtosis se define como el grado de apuntalamiento, en otras palabras, la
distancia que hay entre la punta de la curva respecto de sus colas (ver figura y). Por ende, si en el
gráfico observamos una curva bien parada hacia arriba se le conoce de Kurtosis positiva (curva
picuda). Mientras que, si el apuntalamiento es más corto de la distancia de las colas, estamos
frente a una Kurtosis negativa (curva plana).

Figura 1. Curvas simétricas y asimétricas

Figura 2. Kurtosis positiva, normal y negativa

w w w. q x m e d i c . c o m PA G . 1 3
02. ESTADÍSTICA INFERENCIAL
Introducción
La estadística descriptiva nos enseñó su utilidad en resumir y evaluar un conjunto de datos,
lo que representa el primer paso en el análisis estadístico de un conjunto de datos. No
obstante, cuando realizamos un experimento u observamos un fenómeno en una muestra,
nuestros intereses van hacia poder generalizar nuestros resultados a la población de la que
se ha extraído la muestra. Esto último es posible gracias a la inferencia estadística. En la
presente unidad, se utilizará mucho este concepto para explicar la base de las diferentes
pruebas estadísticas y para hablar sobre el muestreo. El antecedente más relevante para
comenzar con el tema de la estadística inferencial es la teoría de las probabilidades.

Teoría de probabilidades
La teoría de las probabilidades cumple con los siguientes principios:
— Experimento aleatorio (e): el resultado es producto del azar, en otras palabras, no se sabe a
ciencia cierta lo que va a suceder.
— Espacio muestral (omega): representa todos los resultados posibles. Estos se pueden colocar en
una curva lo que forma una curva de probabilidades (distribución de probabilidades u Omega)
— Evento: es lo que ocurre. Por ejemplo, que nos salga cara en el lanzamiento de la moneda, que
salga 2 en el lanzamiento de un dado, etc.
— Eventos mutuamente excluyentes: se define cuando la ocurrencia del evento A no tiene nada
que ver con la ocurrencia del evento B. Por ejemplo, el hecho de sacar cara en el lanzamiento de
la moneda no guarda ningún tipo de relación con sacar un número en un lanzamiento de dados,
etc.
Con estos principios vamos a poder calcular lo ejemplificado en la siguiente tabla (ver
tabla).

PRINCIPIOS CÁLCULO
FÓRMULA PROBABILIDAD Probabilidad de A = Evento de A/ Omega
PROBABILIDAD CONJUNTA Probabilidad A x Probabilidad B
PROBABILIDAD DE 2 EVENTOS
Probabilidad A + Probabilidad B
CUALESQUIERA
PROBABILIDAD CONDICIONADA Probabilidad A / Probabilidad B

Tabla 4. Principios de las Probabilidades y su cálculo

Distribución de probabilidades
Si queremos colocar todos los resultados posibles de un ensayo aleatorio en una tabla, gráfico
o función matemática, entonces estamos creando una DISTRIBUCIÓN de probabilidades.
Esta distribución variará de acuerdo con la variable en cuestión del experimento aleatorio.

w w w. q x m e d i c . c o m PA G . 1 5
E S TA D Í S T I C A

A. Distribución de Probabilidades de Variables Discretas


Distribución Binomial
Recuerda — Deriva del ensayo de Bernoulli
Distribución — 2 eventos mutuamente excluyentes
Binomial Distribución Poisson o Politómica
- Deriva del
ensayo de — Más de 2 eventos excluyentes
Bernoulli — No relacionados
- 2 eventos
mutuamente B. Distribución de Probabilidades de Variables Continuas - Curva Normal
excluyentes de Gauss
— La función de densidad de probabilidad de una variable aleatoria continua se dice
que es normal si cumple con las siguientes proporcionalidades → 1.96 Desviaciones
estándar (DS) = 95% de la curva, 1 DS = 68.2% de la curva.
— La Curva de Gauss es una curva simétrica que respeta un porcentaje de proporción
Recuerda constante que dice que, si partimos de la media, 1DS para cada lado, se está
La función de representando al 68.2% de la curva. Luego, 1.96 DS para cada lado, representa al 95%
densidad de de la curva . Por ello, Gauss demostró que, si la variable en cuestión es un fenómeno
probabilidad de una biológico, probablemente la distribución de probabilidades sea normal. En otras
variable aleatoria palabras, si nos encontramos estudiando una variable biológica, esta debería ser
continua se dice que normal, y si esta es así, nosotros podemos calcular sus probabilidades de ocurrencia
es normal si cumple según la teoría de Gauss, lo que nos permite conocer el 95% que está al centro (en
con las siguientes el aspecto clínico, lo correcto) y al 5% que está afuera (en el aspecto clínico, lo malo).
proporcionalidades A este punto de intersección se le conoce como el punto de Significancia o también
→ 1.96 Desviaciones conocido como el error Alfa. Se le conoce así porque todo lo que esté fuera de ese
estándar (DS) = 95% punto lo hemos considerado como anormal. Sin embargo, debemos recordar que
de la curva, 1 DS = esta distinción es arbitraria y se hizo por consenso científico. Finalmente, la curva
68.2% de la curva. normal de Gauss se estandariza o es estándar cuando a la media se le asigna un valor
de 0 y a la DS un valor de 1.

Recuerda
La curva normal de
Gauss se estandariza
o es estándar
cuando a la media
se le asigna un valor
de 0 y a la DS un
valor de 1.

Figura 3. Curva de Gauss

Muestreo
El muestreo es importante en la estadística porque representa la herramienta principal que
nos permite ahorrar tiempo y dinero utilizando la matemática, asumiendo que la variable
es normal, para así poder extrapolar nuestros resultados en poblaciones grandes.
El Muestreo debe ser representativo (calidad) y significativo (cantidad) y partir de este
estudio infiere (deduce) lo que sucede en la población. Por ejemplo, si queremos vacunar a
todos los peruanos contra el COVID-19, partimos desde el ejemplo que los laboratorios han

PA G . 1 6 w w w. q x m e d i c . c o m
E S TA D Í S T I C A

vacunado a miles de pacientes, y gracias a estos resultados podemos extrapolar


y vacunar a millones de personas. Y todo esto es gracias a un buen muestreo con
Recuerda buena estadística probabilística de fondo.
El Muestreo debe Para recordar un poco más el concepto veamos las siguientes definiciones para
ser representativo tener en cuenta.
(calidad) y — Población Objetivo: Es aquella población a la cual queremos extrapolar los
significativo resultados de nuestro estudio. Por ejemplo, todos los millones de peruanos que
(cantidad) y partir deben ser vacunados contra el COVID-19. Estos necesitan Criterios de Inclusión y
de este estudio Criterios de Exclusión.
infiere (deduce) lo
♦ Criterios de Inclusión: son generales y van primero. Ejem. Adultos mayores de 18 años que
que sucede en la vivan en el territorio peruano.
población.
♦ Criterios de Exclusión: son específicos y van al final. Ejem. Se excluyen adultos peruanos
con prueba positiva actual de COVID-19.

— Población Accesible - Marco Muestral: Es la población donde se obtiene la muestra. Se


diferencia de la población objetivo ya que ésta última es un concepto o una idea, mientras que
la población accesible o marco muestral es algo concreto y representa la fuente de datos real.
♦ Ejem. Si mi población objetivo son peruanos mayores de 18 años, mi población accesible serán los
peruanos mayores de 18 años registrados en el Instituto Nacional de Estadística Informática (INEI).
— Muestra: es el conjunto de unidades muestrales tomados de la población accesible. Todo lo
que se calcule en la muestra se llamará Estadístico Muestral (e), se podrá calcular la media,
desviación estándar, R de Pearson, entre otros. Sin embargo, cuando nosotros deseamos inferir
a nuestra población, estos datos serán transformados en un Parámetro (P).

ORDEN PASO
Recuerda 1 Determinar la población (criterios de inclusión y exclusión) y
parámetros a medir
Criterios de
Inclusión: son 2 Escoger un marco muestral apropiado
generales y van 3 Seleccionar tipo de muestreo (disminuir error alfa) y
primero. seleccionar método de muestreo
Muestra: todo lo
que se calcule 4 Definir tamaño de muestra (minimizar error beta)
en la muestra se 5 Seleccionar muestra y tomar información (validar la muestra)
llamará Estadístico
Muestral (e),
Tabla 5. Pasos para la realización de un correcto muestreo

Muestreo Representativo

Recuerda El muestreo es representativo cuando comete poco error alfa. Por ende, si
queremos un muestreo “representativo” tenemos que optar por un muestreo
El muestreo es de tipo probabilístico.
representativo
cuando comete
— Muestreo No Probabilístico: no son representativos, ya que no es posible reducir el
poco error alfa. error alfa. Se utiliza en estudios cualitativos, donde la variable principal es de tipo
subjetiva (una opinión, estudios de calidad) (Ver tabla 6)
— Muestreo Probabilístico: utiliza la probabilidad de Gauss, por ende, comete un error
alfa controlado, hasta un 5% como máximo, según consenso científico. Se utiliza
generalmente en estudios cuantitativos objetivos. (Ver tabla 7)

w w w. q x m e d i c . c o m PA G . 1 7
E S TA D Í S T I C A

MUESTREO NO
USO/APLICACIÓN
PROBABILÍSTICO

POR El investigador elige a quién va y quién no va a su muestra. Cuando al


CONVENIENCIA investigador le interesa a quién muestrear usamos este tipo de muestreo
CASOS
Una muestra llega en función del orden de llegada de los sujetos.
Recuerda CONSECUTIVOS
POR CUOTAS Se da cuando cerramos un número exacto de cuotas requerido para la muestra.
- El muestreo
estratificado Donde cada sujeto muestreado nos recomienda a otro sujeto similar
para la muestra y así consecutivamente (se da cuando las muestras
se utiliza para BOLA DE NIEVE
son difíciles de conseguir, por ejemplo, trabajadoras sexuales,
controlar
drogadicción, etc).
una variable
confusora Se usa en la investigación cualitativa y ocurre cuando ya se ha
al momento POR SATURACIÓN escuchado una cierta cantidad de ideas y con cada entrevista u
de tomar la observación adicional no aparecen nuevos elementos de análisis.
muestra. Es el
muestreo más
representativo Tabla 6. Resumen de los principales tipos de muestreo no probabilístico
en el ámbito de
la medicina
- El muestreo por MUESTREO
USO/APLICACIÓN
conglomerados PROBABILÍSTICO
se utiliza cuando
trabajamos ALEATORIO SIMPLE Se basa en el azar para la selección de sujetos
con una SISTEMÁTICO Trata de abarcar todo el marco muestral
población muy
Se utiliza para controlar una variable confusora al momento de
heterogénea.
ESTRATIFICADO tomar la muestra. Es el muestreo más representativo en el ámbito
de la medicina
POR
Se utiliza cuando trabajamos con una población muy heterogénea
CONGLOMERADOS
Cuando se combina 1 o más de los anteriores tipos de muestreo
MULTIETÁPICO
probabilístico

Tabla 7. Resumen de los principales tipos de muestreo probabilístico

Muestreo Significativo
El muestreo es significativo cuando tiene suficiente cantidad de sujetos para no cometer el
error beta. Es importante tener el tamaño suficiente de muestra para no cometer este error,
pero no lo suficientemente grande como para incurrir en costos adicionales innecesarios.
Fornula para calcular el tamaño de Cálculo muestral para media Ajuste en poblaciones finitas
muestra infinita
2 S2
NC =
N
2 N = Za
Za xpxq d2 N
n= 1+
e2
N: Tamaño muestral
PT
n: Tamaño de muestra buscado NC: tamaño muestral corregido;
Za: Nivel de confianza
N: Tamaño de la población o Universo N: tamaño muestral calculado;
z: Parámetro estadístico que depende el S2: varianza poblacional
PT: tamaño de la población
Nivel de Confianza (NC) d: precisión de la estimación
e: Error de estimación máximo aceptado
p: Probabilidad de que ocurra el evento
estudiado (éxito)
q: (1-p)= Probabilidad de que no ocurra el
evento estudiado

PA G . 1 8 w w w. q x m e d i c . c o m
E S TA D Í S T I C A

Estadística inferencial
Es la parte de la estadística que utiliza la teoría de probabilidades y el muestreo para
extrapolar los resultados o estadísticos muestrales en la población objetivo, determinando
así la estimación del parámetro poblacional.

Antes de adentrarnos en la estadística inferencial debemos definir los tipos de


Recuerda las hipótesis de investigación.

- Hipótesis de
Tipos hipótesis de Investigación
una Cola: se — Descriptivas: se utiliza cuando solo — De Diferencia: se utiliza cuando
utiliza cuando queremos conocer y describir a queremos probar que el grupo A es
el operador profundidad una variable diferente al grupo B. (A ≠ B)
matemático en — Correlacionales: se utiliza cuando — De Causalidad: se utiliza cuando
bioestadística queremos asociar a una variable con la otra queremos demostrar que A genera o
es mayor > o (ejem. tabaco se asocia con cáncer) (A ↔ B) causa B (A → B)
menor <
- Hipótesis de Tipos de hipótesis Estadísticas
dos Colas: se Cuando hablamos de estadística tenemos otro tipo de hipótesis a las cuáles nos
utiliza cuando
referimos desde el punto de vista matemático, estas son:
hablamos de
hipótesis iguales — Hipótesis de una Cola: se utiliza cuando el operador matemático en bioestadística
o diferentes. es mayor > o menor <
— Hipótesis de dos Colas: se utiliza cuando hablamos de hipótesis iguales o diferentes.
Una vez revisado esto, para simplificar el estudio clasificaremos a la estadística
inferencial en intervalo de confianza y prueba de hipótesis.
Recuerda Intervalo de Confianza (IC)
El error alfa o Es el conjunto de valores que estiman el parámetro poblacional indicando el
también conocido
error: alfa y beta. Se usa para estudios de una sola variable donde se busca
como nivel de
significancia nos extrapolar el estadístico con el parámetro poblacional sin compararlo con otro
permite establecer grupo de estudio o variable en cuestión.
un nivel de — Condiciones que debe cumplir: que la población provenga de una variable normal
confianza (1-alfa o (para poder usar la curva Z de Gauss) y que se conozca la varianza para poder hablar
95%). del error beta de la muestra.
— ¿Cómo se interpreta? Según un 95% de probabilidad podemos encontrar el
parámetro poblacional en este intervalo.
La precisión del IC será la amplitud del intervalo. Cabe resaltar que todo lo anteriormente
Recuerda mencionado se da gracias al Teorema del Límite Central (TLC), el cuál es la explicación
matemática del cálculo del IC. Dentro de este teorema se explica el error estándar
Podemos crear un de la media, el cual se calcula a través de la varianza dividida entre la muestra, lo que
intervalo alrededor representa el valor del error beta. El error alfa o también conocido como nivel de
de la media de la significancia nos permite establecer un nivel de confianza (1-alfa o 95%) .
muestra con un
margen de error Como se ha mencionado anteriormente, la media de una muestra es sólo una estimación
que es 2 veces el de la media real, de la que se han extraído los datos. Se puede concebir que hay algún
error estándar de error en la estimación de la población con la estimación mediante la media de una sola
la media (SEM), muestra. Podemos crear un intervalo alrededor de la media de la muestra con un margen
lo que se llama de error que es 2 veces el error estándar de la media (SEM), lo que se llama un intervalo
un intervalo de
de confianza del 95% para la verdadera media de la población. Decimos que "tenemos
confianza del 95%
para la verdadera un 95% de confianza en que la verdadera media de la población cae en este intervalo". Lo
media de la que realmente significa es lo siguiente: imaginemos que se extraen muchas muestras del
población. mismo tamaño de una población; entonces el 95% de estas muestras tendrán intervalos
de confianza que capturan la verdadera media de la población.

w w w. q x m e d i c . c o m PA G . 1 9
E S TA D Í S T I C A

Prueba de Hipótesis
Generalmente se utiliza cuando se desea comprobar si el parámetro de una población A
es igual, diferente, mayor o menor al parámetro de una población B. Es decir, la prueba de
hipótesis supone una comparación de grupos. Para formularla se requiere seguir una serie
de pasos de forma ordenada para no cometer error sistemático:

ORDEN PASO
Ver las variables y los parámetros. Verificar la normalidad de la variable en
1
estudio.
2 Formular las hipótesis alterna y nula. H0 y H1
3 Fijar el nivel de significación (error alfa)
Seleccionar la prueba estadística dependiendo del tipo de variable y la
4
normalidad.

5 Formular la regla de decisión, es decir elegir la zona de rechazo de la H0

Calcular el estadístico de prueba, se somete a cálculo estadístico la H0


6
solamente.
Formular la decisión estadística
7 - No rechazar la hipótesis nula H0
- Rechazar la hipótesis nula H0 y aceptar hipótesis alterna H1
8 Conclusión en términos del problema de investigación

Tabla 8. Pasos para hacer una correcta prueba de hipótesis

Condiciones:
— La conclusión deseada es H1 (hipótesis alterna o lo que busca demostrar el investigador)
— Crear una hipótesis nula (H0) para demostrar lo contrario
— La H0 debe contener la igualdad, NO puede tener la desigualdad.
— La H0 es la que debe ser comprobada matemáticamente.
— La H1 y H0 son complementarias, es decir suman 100% de todas las probabilidades posibles.
— La conclusión no es verdadera, es probablemente verdadera desde el punto de vista estadístico.
Ahora veamos los 4 escenarios posibles de una toma de decisión estadística, asumiendo
que NO tenemos certeza de que la H0 sea falsa o verdadera.

Recuerda DECISIÓN REALIDAD DEL FENÓMENO


ESTADÍSTICA H0: 1 (cierta) H0 = 0 (falsa)
Condiciones:
La H1 y H0 son NO RECHAZAR H0 Nivel de confianza Error II o beta
complementarias,
es decir suman RECHAZAR H0 Error I o alfa Potencia estadística
100% de todas
las probabilidades
posibles. Tabla 9. Decisión estadística

PA G . 2 0 w w w. q x m e d i c . c o m
E S TA D Í S T I C A

De aquí pueden verse 2 escenarios:


— Escenario 1: la H0 es verdadera (supongamos que es posible saberlo). Se realiza el
Recuerda experimento y, efectivamente, se encuentra un valor p superior a 0,05, por lo que no
se rechaza la H0. Por tanto, el resultado del experimento coincide con la verdad (de
- Error tipo 1 (falso
nuevo, si fuera posible conocer la verdad)
positivo): Rechazar
la hipótesis nula, — Escenario 2: la H0 es falsa (de nuevo, supongamos que es posible saberlo). Usted
aunque esta es realiza el experimento y, efectivamente, encuentra un valor p inferior a 0,05, con lo
verdadera (en que rechaza la H0. Por tanto, el resultado del experimento coincide con la verdad (de
otras palabras, nuevo, si fuera posible conocer la verdad)
afirmar que hay En estos dos escenarios el experimento coincide con la verdad. Pero ¿y si no lo
una diferencia hace?
significativa cuando
en realidad no hay La tabla anterior muestra que también pueden producirse dos tipos de errores
diferencia). al realizar una prueba estadística:
- Error tipo 2 (falso — Error tipo 1 (falso positivo): Rechazar la hipótesis nula, aunque esta es verdadera
negativo): No (en otras palabras, afirmar que hay una diferencia significativa cuando en realidad
rechazar la hipótesis no hay diferencia). Este error NO se puede acortar aumentando el tamaño de la
nula cuando es falsa muestra, ya que es un error de diseño.
(en otras palabras, — Error tipo 2 (falso negativo): No rechazar la hipótesis nula cuando es falsa (en otras
afirmar que no palabras, afirmar que no hay diferencias significativas cuando en realidad sí las hay;
hay diferencias esto ocurre cuando el experimento tiene poca potencia). Directamente relacionado
significativas cuando con la potencia (Potencia = 1-β). La mayoría de los estudios establecen un β de
en realidad sí las hay. 0,2. Esto significa que su potencia será de 0,8 (80%), y que aceptaremos un 20% de
Además, se puede posibilidades de no rechazar la hipótesis nula (H0) cuando esta es realmente cierta.
acortar aumentando
Este error tipo 2 se puede acortar aumentando el tamaño de la muestra .
el tamaño de la
muestra

Test Estadísticos

OBJETIVO CONTINUOS ORDINALES BINARIOS SUPERVIVENCIA

Curva Kaplan-
DESCRIPCIÓN 1 GRUPO Media, DS Media, DS Proporción
Meier
COMPARAR CON 1 Chi2, prueba
T Student – Z Gauss Wilcoxon
VARIABLE binomial
COMPARAR 2 GRUPOS T Student muestras Long-rank test
Mann-Whitney Fisher, Chi 2
INDEPENDIENTE independientes Mantel-Haenzsel
COMPARAR +2 GRUPOS Kruskal-Wallis
ANOVA 1 vía Chi2 Regresión Cox
INDEPENDIENTE Jockheere-Terpstra
COMPARAR 2 GRUPOS T Student muestras Ref. Riesgos
Wilcoxon McNemar
DEPENDIENTE apareadas proporcionales
COMPARAR +2 GRUPOS
ANOVA 2 vías Friedman Q Cochran ¿?
DEPENDIENTE
ASOCIACIÓN 2 Correlación Coeficiente
Correlación Pearson ¿?
VARIABLE Spearman contingencia
ASOCIACIÓN +2
Correlación canónica ¿? An. De fc multivía ¿?
VARIABLE
Regresiones (lineal, no Reg. No
PREDECIR 1 VARIABLE Regresión logística Regresión Cox
lineal, simple, múltiple) paramétrica

Tabla 10. Test estadísticos

w w w. q x m e d i c . c o m PA G . 2 1

También podría gustarte