0% encontró este documento útil (0 votos)
38 vistas15 páginas

Guía de Estadística para Exámenes MIR

El documento es una introducción a la asignatura de Estadística, orientada a estudiantes que se preparan para el examen MIR, y destaca la importancia de entender conceptos estadísticos en lugar de memorizar. Se analizan los temas más relevantes y se proporcionan recursos como tablas y diagramas para facilitar el estudio, centrándose en inferencia estadística y pruebas de contraste. Además, se discuten los tipos de variables y muestreos, así como la distribución normal y sus propiedades.

Cargado por

Felipe Murillo
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
38 vistas15 páginas

Guía de Estadística para Exámenes MIR

El documento es una introducción a la asignatura de Estadística, orientada a estudiantes que se preparan para el examen MIR, y destaca la importancia de entender conceptos estadísticos en lugar de memorizar. Se analizan los temas más relevantes y se proporcionan recursos como tablas y diagramas para facilitar el estudio, centrándose en inferencia estadística y pruebas de contraste. Además, se discuten los tipos de variables y muestreos, así como la distribución normal y sus propiedades.

Cargado por

Felipe Murillo
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

1 de 1 Norella Rocio Mercado García | Introducción a la asignatura de Estadística

0 Introducción a la asignatura de Estadística


Orientación MIR
El objetivo de esta introducción es guiar al opositor en el estudio de esta asignatura para obtener el máximo rendimiento en el examen.
Se ha realizado un análisis de los temas y subtemas más preguntados en el examen MIR durante los últimos años y se han preparado diferentes
recursos para facilitar el estudio:
Enfoque de la asignatura: texto donde se indica cómo enfocar el estudio de la asignatura y se desglosan aquellos temas más relevantes y los
apartados más rentables.
Figura con el esquema del número de preguntas de la asignatura por año y Diagrama de bolas interactivo.
Tablas del peso MIR de la asignatura.

interactivo se representan los temas y subtemas de la asignatura


1. Enfoque de Estadística según el peso MIR. Se indica con el código de color de rojo a verde
(de mayor a menor proporción), y cuando se selecciona un tema o
La Estadística es un tema complejo de estudiar, rompe con la un subtema se incluye el número de preguntas MIR y PROMIR y
forma «memorística» de estudio que emplean los estudiantes de su porcentaje dentro de la asignatura.
Medicina y nos invita a salir de nuestra zona de confort para tra-
tar de entender una serie de conceptos abstractos. Sin embargo,
como buena noticia, podemos afirmar que si bien es cierto que su 3. Peso MIR de Estadística
estudio era de importancia en los exámenes desde los años no-
venta hasta 2010, cada vez es un tema menos preguntado. Representación del resultado extraído del análisis de los te-
Para aquellos que tengan menos tiempo, los conceptos im- mas más preguntados de la asignatura en la serie histórica de
prescindibles y que deben llegar súper machacados al examen los exámenes del MIR, y la tendencia de los últimos 5 años.
son: También se muestra una tabla con los subtemas o apartados
más preguntados, que recogen el 50 % de las preguntas de la
Inferencia estadística: diferencias entre error tipo 1 y tipo 2, asignatura en la serie histórica. Para hacer más visual la con-
diferencias entre media e intervalo de confianza de una sulta se ha utilizado un código de colores que va del rojo, que
muestra y media de medias y error estándar de la media de indica aquellos apartados imprescindibles de estudiar, al verde
una población. que muestra los menos relevantes (Fig. 0-1). Además, se puede
Pruebas de contraste estadístico: es importante saber qué descargar un archivo pdf con las tablas en este enlace: Tablas
análisis emplear en función de si la variable dependiente es de Estadística.
paramétrica, no paramétrica, continua o discreta, etcétera.

Para facilitar el estudio se aportan tablas y esquemas al final de


cada capítulo y en los resúmenes, que pueden ser de utilidad para Peso MIR histórico por tema Peso MIR por tema últimos 5 años
«darle forma» y hacer un «mapa mental» de estos conceptos Tema Peso MIR
Peso MIR en
Tema Peso MIR
Peso MIR en
la asignatura la asignatura
que, a priori, nos parecen más abstractos. Estadística inferencial 1,33 % 81,10 % Estadística inferencial 0,30 % 75,00 %
Introducción a la Estadística descriptiva 0,10 % 25,00 %
0,22 % 13,41 %
estadística
Introducción a la
Estadística descriptiva 0,09 % 5,49 % 0% 0,00 %
estadística

2. Número de preguntas de los últimos Peso MIR histórico por subtemas más preguntados
años y diagrama interactivo Tema Subtema
Peso MIR en
asignatura
Estadística inferencial Contrastes de hipótesis 29 %

En la figura preguntas por año se muestra el esquema del nú- Estadística inferencial Pruebas estadísticas univariantes 21 %

mero de preguntas por asignatura y año y en el diagrama de bolas Fig. 0-1 | Peso MIR de la asignatura de Estadística.

2/10/24, 9:31 AM © Editorial Médica Panamericana


1 de 3 Norella Rocio Mercado García | Introducción a la estadística

1 Introducción a la estadística
Orientación MIR
Capítulo que tradicionalmente ha suscitado relativamente pocas preguntas. Las preguntas han versado sobre tipos de variables y tipos de mues-
treo.

La estadística puede definirse como el conjunto de métodos Escala de proporción: tiene las mismas propiedades que la es-
científicos ligados a la toma, organización, recopilación, pre- cala de intervalo pero con un origen de referencia, un punto
sentación y análisis de datos, tanto para la deducción de con- cero, absoluto no arbitrario, en el cual la característica no
clusiones como para tomar decisiones razonables de acuerdo existe. Ejemplo: número de hijos, tamaño de una lesión, peso.
con tales análisis (MIR 2005-2006, P194).
Un último tipo de variable es la que representa el tiempo hasta
la ocurrencia de un evento (por ejemplo, la muerte) y que da lu-
1. Variables aleatorias. Tipos gar a las técnicas de análisis de supervivencia.

A cada característica de los elementos de una población se le


llama variable. Se dice que es una variable aleatoria si los valo-
res se obtienen de mediciones en algún tipo de experimento
2. Distribución de probabilidad:
aleatorio. Hay dos tipos de variables: cualitativas y cuantitati- binomial, normal
vas. Las variables cualitativas o categóricas son aquéllas que se
refieren a categorías o atributos de los individuos estudiados.
Las variables cuantitativas son aquéllas cuyos datos son de tipo
numérico.
En este apartado es frecuente preguntas relacionadas con la
distribución normal.

1.1. Tipos de variables cualitativas


Una variable aleatoria es una función que asigna un valor,
Se pueden clasificar en tres grupos (MIR 2003-2004, P195; usualmente numérico, al resultado de un experimento aleatorio u
MIR 2014-2015, P184; MIR 2008-2009, P193): observación. Una distribución de probabilidad de una variable
aleatoria es una función que asigna a cada valor o conjunto de va-
Dicotómico: sólo hay dos categorías, que son excluyentes lores de la variable aleatoria la probabilidad de que ocurra.
una de otra. Ejem plo: enfermo-sano, muerto-vi vo, varón-
mujer.
Nominal: tiene más de dos categorías y no hay orden entre 2.1. Distribución binomial
ellas. Ejem plo: color de ojos, grupo sanguíneo.
Ordinal: tiene varias categorías y hay orden entre ellas. Es muy frecuente en el ámbito biomédico que la variable de in-
Ejem plo: grado tumoral, cali fi cación del riesgo en anestesia. terés sea de tipo dicotómico, es decir, sólo dos categorías y ambas
excluyentes; por ejemplo, recidiva-no recidiva, muerto-vivo, hi-
pertenso-no hipertenso.
1.2. Tipos de variables cuantitativas Se denomina «éxito» a una de las categorías y su probabili-
dad se representa por p; la otra se define como «fracaso» y tiene
Se pueden distinguir los siguientes tipos: una probabilidad complementaria (1-p). A la variable que asocia el
1 al éxito y el 0 al fracaso se le denomina variable de Bernoulli y se
Continuas: número infinito no numerable de elementos. le denota por B(1, p).
Tienen asociado el concepto de medida. Ejem plo: pre sión ar- Si un experimento Bernoulli es repetido n veces de forma in-
te rial, edad, peso. dependiente con idéntica probabilidad p en cada réplica, se dice
Discretas: sólo pueden tomar algunos valores dentro de un que la variable X, número de éxitos, se distribuye como una varia-
conjunto numerable. Ejem plo: núme ro de hi jos, núme ro de ble aleatoria binomial con parámetros n y p, y se suele denotar
leucoci tos. por B(n, p). La media de una variable aleatoria binomial es np y la
varianza npq.
La medición de las variables puede realizarse por medio de
dos escalas:
2.2. Distribución normal
Escala de intervalo: carece de un punto cero absoluto, el
punto cero es arbitrario, no real. Ejem plo: la tem pe ratura, una Muchas variables aleatorias continuas se distribuyen según la
escala analógi ca visual. distribución normal o de Gauss. Se trata de una distribución uni-

2/10/24, 9:32 AM © Editorial Médica Panamericana


2 de 3 Norella Rocio Mercado García | Introducción a la estadística

mediana y moda en el mismo punto. En el intervalo media ± 2


modal en la que se concentra gran parte de los valores alrededor
desviaciones típicas se encuentra el 95,5 % de los valores.
de su punto central y cuya probabilidad en los extremos es peque-
Tipificar una variable consiste en restarle su media y dividirla
ña (Fig. 1-1). Es simétrica y sin apuntamiento. Para evaluar la si-
por su desviación típica.
metría se utiliza el coeficiente de asimetría de Fisher. La evalua-
ción del apuntamiento se realiza mediante la curtosis (MIR 2012-
2013, P177).
Una variable aleatoria normal depende de dos parámetros: la 3. Población y muestra. Muestreos
media, representada por μ, y la desviación típica, que es repre-
sentada por σ; se denota por N(μ,σ). (MIR 2004-2005, P197; MIR 2006-2007, P193; MIR 2006-
Propiedades de la distribución normal 2007, P203; MIR 2008-2009, P210; MIR 2011-2012, P186)
(MIR 2006-2007, P201; MIR 2012-2013, P175; MIR 2014- Se puede definir población como el conjunto total de indivi-
2015, P185) duos que poseen algunas características comunes observables
Al ser una variable continua, la probabilidad de que tome un en un lugar y en un momento determinado. Esta población ha-
valor concreto es igual a 0. bitualmente no puede ser estudiada completamente. Se define
La probabilidad de que la variable tome valores entre dos pun- muestra como una parte de la población que, si es representa-
tos a y b es igual al área bajo la curva entre a y b. tiva, debería reflejar las características principales de la
Una variable aleatoria X que sigue una normal N(μ,σ) se trans- población.
forma en una variable aleatoria Z conμ igual a 0 y σ igual a 1, res- El muestreo no probabilístico es una técnica de muestreo
tándole la media y dividiendo por la desviación típica, lo que se donde las muestras se recogen en un proceso que no ofrece a
conoce como tipificación o estandarización. todos los individuos de la población iguales oportunidades de
En una variable aleatoria normal, la media, mediana y moda ser seleccionados y la probabilidad de ser seleccionado no se
coinciden. puede determinar a priori. Por ejemplo, seleccionando casos
La gráfica de la función de densidad de probabilidad tiene dos consecutivos, muestreo por conveniencia, discrecional o bola
puntos de inflexión, donde cambia la concavidad, que coinciden de nieve. Si en un estudio se recogen los cinco primeros pa-
con los puntos media menos una desviación típica y media más cientes que acuden cada día a una consulta, el muestreo no se-
una desviación típica. Entre estos dos puntos se encuentra el ría probabilístico.
68,3 % de los valores de la variable. En un muestreo probabilístico todos los elementos de la po-
Dentro del intervalo comprendido entre la media ± 2 desvia- blación tienen una probabilidad mayor de cero de ser seleccio-
ciones típicas se sitúa el 95,5 % de los valores de la variable. Es nados en la muestra y se puede estimar de forma precisa dicha
decir, que por encima del valor correspondiente a media más 2 probabilidad para cada elemento.
desviaciones típicas hay menos del 2,5 % de los valores. Por Los muestreos probabilísticos más frecuentemente utiliza-
ejemplo, si la glucemia se distribuyera en una población siguien- dos en investigación clínica son:
do una distribución normal N(100,10), entre los valores 80 y 120
se situaría el 95,5 % de los pacientes. Análogamente, entre los Muestreo aleatorio simple: en el que se selecciona cada in-
puntos media ± 3 desviaciones típicas se encuentra el 99,5 % de dividuo de forma aleatoria, al azar y todos los individuos
los valores. tienen la misma probabilidad de ser seleccionados.
Muestreo estratificado simple: se estratifica a la población
por alguna característica conocida y dentro de cada estrato
se realiza un muestreo aleatorio; por ejemplo, es frecuente
La distribución normal tiene forma de campana, es simétrica y
la estratificación por hospitales o por alguna característica
no es ni excesivamente plana ni apuntada. Coinciden media,
pronóstica (como puede ser presencia de metástasis, o pre-
mediana y moda en el mismo punto. En el intervalo media ± 2
sencia de diabetes, o simplemente estratificado por edad y
sexo).
Muestreo por conglomerados: donde las unidades muestra-
.08
les no son pacientes sino conjuntos de pacientes, como por
ejemplo en los muestreos donde se seleccionan médicos o
centros de salud y posteriormente se seleccionan todos los
.06 pacientes atendidos por ese médico o en ese centro de salud.
Densidad

.04
El muestreo de casos consecutivos no es un muestreo proba-
bilístico. En un muestreo probabilístico (muestreo aleatorio
simple, muestreo estratificado y muestro por conglomerados)
.02
se puede estimar la probabilidad que tiene un individuo de ser
seleccionado.

0
80 90 100 110 120

×1

Fig. 1-1 | Distribución normal.

2/10/24, 9:32 AM © Editorial Médica Panamericana


3 de 3 Norella Rocio Mercado García | Introducción a la estadística

tes. La probabilidad de obtener un 2 en una tirada y de obtener un


4. Introducción a la probabilidad 2 en la segunda, al ser sucesos independientes, es la probabilidad
del producto de cada uno de los sucesos: (P(2) x P(2) = 1/6 x 1/6 =
1/36). La probabilidad de obtener un número menor o igual a 3 o
Apartado no muy preguntado. Incidir en las propiedades de la
de obtener un número par, al no ser excluyentes, es la suma de la
probabilidad.
probabilidad de ambos sucesos menos la probabilidad de la inter-
sección: la probabilidad de menor o igual a 3 es P(1)+P(2)+P(3) y
La idea intuitiva de probabilidad define a ésta como un núme- la de ser par es P(2)+P(4)+P(6), por lo tanto, la probabilidad de
ro, entre 0 y 1, asociado con la verosimilitud de que ocurra un su- obtener un número menor o igual a 3 o un par es
ceso. La probabilidad de este suceso será igual a 0 cuando estamos P(1)+P(2)+P(3)+P(4)+P(6).
seguros de que el suceso no va a ocurrir (suceso imposible) e igual
a 1 cuando estamos seguros de que sí va a ocurrir (suceso seguro).
Si todos los posibles resultados del experimento son igualmente 4.2. Probabilidad condicionada
probables, es decir, equiprobables, la definición clásica de Laplace
define la probabilidad como el número de sucesos favorables di- El hecho de que ocurra un suceso puede cambiar la probabi-
vidido por el número de casos posibles. lidad de los demás. El proceso de realizar la historia clínica, ex-
plorar y realizar pruebas complementarias ilustra este princi-
pio. La probabilidad de que ocurra el suceso A si ha ocurrido el
4.1. Propiedades de la probabilidad suceso B se denomina probabilidad condicionada, se denota por
p(A/B) y se define como:
La probabilidad de un suceso toma valores entre 0 y 1.
p(A∩B)
La probabilidad de la unión de sucesos mutuamente excluyen- p( BA ) = p(B)
tes, es decir, cuya intersección es el conjunto vacío, es igual a la
suma de probabilidades de los sucesos. Es decir, la probabilidad de la intersección de los dos sucesos
La probabilidad de dos sucesos independientes es igual al pro- dividido por p(B), siendo p(B) distinto de 0. Por ejemplo, si se
ducto de las probabilidades de cada uno de los sucesos. quiere estimar la probabilidad de sacar un 2 en el lanzamiento
La probabilidad de la suma de dos sucesos es igual a la proba- de un dado, la probabilidad sería 1/6. Si se condiciona a que se
bilidad de cada uno de los sucesos menos la probabilidad de la in- sabe que el resultado es par, el resultado sería 1/3. (Vídeo 1-1)
tersección. 1
A p par
Por ejemplo, en el lanzamiento de un dado, la probabilidad de p
( )= B
("2"∩ )
( )p par
6
= 1 = 13
un número concreto es 1/6, este valor está entre 0 y 1. Si quere- 2
mos estimar la probabilidad de ser par, ésta es igual a la probabi-
lidad de 2 más la de 4 más la de 6, dado que son sucesos excluyen-

Puntos clave
Las variables se pueden clasificar entre variables cualitativas y variables cuantitativas.
Las cualitativas se pueden clasificar en tres categorías:
Dicotómico: solo hay dos categorías, que son excluyentes una de otra.
Nominal: tiene más de dos categorías y no hay orden entre ellas.
Ordinal: tiene varias categorías y hay orden entre ellas.
Dentro del tipo de variables cuantitativas dis tinguiremos:
Continuas: número infinito no numerable de elementos. Tiene asociado el concepto de medida.
Dis cretas: Sólo puede tomar algunos valores dentro de un conjunto numerable.
La dis tribución normal tiene forma de campana, es simétrica y no es ni excesivamente plana ni apuntada. Coinciden media, mediana
y moda en el mis mo punto. En el intervalo media -/+ 2 des viaciones típicas se encuentra el 95,5% de los valores.
Tipificar una variable consis te en res tarle su media y dividirla por su des viación típica.
En un mues treo probabilís tico (mues treo aleatorio simple, mues treo es tratificado y mues tro por conglomerados) se puede es timar
la probabilidad que tiene un individuo de ser selec cionado. El mues treo de casos consecutivos no es un mues treo probabilís tico.
La probabilidad de un suceso toma valores entre 0 y 1. La probabilidad de la unión de sucesos mutuamente excluyentes o indepen-
dientes es igual a la suma de probabilidades de los sucesos. La probabilidad de 2 sucesos independientes es igual al produc to de
las probabilidades de cada uno de los sucesos. La probabilidad de la suma de 2 sucesos es igual a la probabilidad de cada uno de
los sucesos menos la probabilidad de la intersec ción. La probabilidad condicionada de A dado B se puede es timar mediante el co-
ciente de la intersec ción de los 2 sucesos dividido por probabilidad de B p(B), siendo p(B) dis tinto de 0.

2/10/24, 9:32 AM © Editorial Médica Panamericana


1 de 3 Norella Rocio Mercado García | Estadística descriptiva

2 Estadística descriptiva
Orientación MIR
Fundamental distinguir que la media puede estar muy influida por la existencia de valores extremos y la mediana no. Habitualmente cuando se
muestra media se acompaña con desviación típica y cuando se muestra mediana con cuartiles.
Hay que distinguir bien el tipo de variables para seleccionar el gráfico adecuado.

La estadística descriptiva trata de la forma de recoger, orga- 2. Medidas de dispersión


nizar y resumir las observaciones. Típicamente los índices usa-
dos en estadística descriptiva se dividen en medidas de tenden- Se ha visto en el apartado anterior que para describir una
cia central, o también llamadas de posición, y medidas de variable se pueden utilizar medidas de tendencia central. Estas
dispersión. medidas no dan información acerca de la variabilidad de los
datos. Las medidas más utilizadas para cuantificar la variabili-
dad de una variable son el rango, la desviación típica, la va-
rianza y el rango intercuartílico.
1. Medidas de centralización: media,
mediana, moda
2.1. Rango
1.1. Media aritmética
Se define como la diferencia entre el valor máximo y el valor
La medida que probablemente más se utiliza en estadística mínimo de la muestra. Tiene las mismas limitaciones que la
es la media aritmética, o simplemente media. Nos da una vi- media en cuanto que es totalmente dependiente de los valores
sión de dónde está el centro de las observaciones. Se calcula su- extremos. Es difícil de interpretar aisladamente si no se apor-
mando todos los valores de la muestra y dividiendo por el nú- tan el mínimo y el máximo.
mero de observaciones que componen la muestra. Se denota
por X barra. Sólo tiene sentido su uso en variables del tipo
cuantitativo. 2.2. Desviación típica y varianza
Es intuitiva y fácil de calcular pero en muestras pequeñas
puede estar muy influenciada por valores extremos (los llama- Para medir la variabilidad la medida más frecuente es la va-
dos «outliers» o fuera de rango). Su valor puede que no coinci- rianza, que se denota por V(X) o S2 y se define como la suma de
da con ninguno de los valores de la muestra. las diferencias al cuadrado de cada valor con respecto a la me-
dia dividido por el tamaño muestral menos 1.
Dada la definición de la varianza, sus unidades son el cua-
1.2. Mediana drado de las unidades de la variable que describe. Se propone
otro índice, la desviación típica o estándar, que se define como
Es aquel valor que divide por la mitad a la muestra y deja el la raíz cuadrada positiva de la varianza.
50 % de los datos de la muestra por debajo y el otro 50 % por La desviación típica, como la varianza, es siempre positiva.
encima y se suele denotar por Me(x). La mediana es poco sensi- Puede estar muy influenciada por la existencia de valores ex-
ble a valores extremos y se puede utilizar para variables cuan- tremos. Nótese que, a igualdad de medias, cuanta más disper-
titativas discretas. Su valor coincide con uno de los datos que sión haya en la muestra, mayor es la desviación típica
hemos estudiado si tenemos un número impar de elementos. (MIR 2013-2014, P190).

1.3. Moda 2.3. Percentiles de rango intercuartílico


Es una medida de tendencia central que se puede utilizar sea El percentil n es aquel valor que deja por debajo de él a un n
cual sea el tipo de variable a estudiar. La moda de un conjunto por ciento de la muestra ordenada de mayor a menor y por tan-
de observaciones es el valor que más se repite, aquél cuya fre- to deja un (100-n) por ciento por encima. Así, se habla del per-
cuencia absoluta es máxima. Puede ser única, que haya dos o centil 90, que es aquel valor que deja al 90 % de la muestra por
más, o no existir; éste es el caso típico de variables continuas. debajo de él. Casos particulares de los percentiles son el per-
centil 25, llamado primer cuartil (Q1), y el percentil 75, tam-
bién llamado tercer cuartil (Q3). La mediana se podría definir
Entre las medidas de posición central destaca la media aritmé-
como el segundo cuartil o análogamente el percentil 50. Los
tica. En el caso de distribuciones asimétricas o con valores ex-
tres cuartiles dividen la muestra en cuatro partes de igual ta-
tremos se utiliza la mediana en lugar de la media.
maño. Como medida de dispersión se utiliza el rango inter-

2/10/24, 9:32 AM © Editorial Médica Panamericana


2 de 3 Norella Rocio Mercado García | Estadística descriptiva

cuartílico (RI), definido como la diferencia entre el tercer cuar-


til menos el primero. 60

2.4. Coeficiente de variación


40
El coeficiente de variación es una medida de dispersión obte-

Porcentaje
nida de dividir la desviación típica por la media de la variable y
multiplicarlo por 100. Es una medida cuya principal ventaja es que
no depende de la unidad de la variable, por lo que es útil para 20
comparar dispersiones entre dos variables (MIR 2009-
2010, P178).

0
Las medidas de dispersión más utilizadas son la desviación tí- Hombre Mujer
pica en el caso de variables con distribución simétrica (por Fig. 2-1 | Diagrama de barras.
ejemplo, la normal) y el percentil 25 y 75 en el caso de variables
g y g p q
con distribución asimétrica
(menos de seis categorías) (Fig. 2-2).

3. Presentación de los datos. Gráficas 3.3. Histogramas

Es el tipo de gráfica más utilizado en bioestadística. Repre-


En este apartado lo más importante son las propiedades del
sentan gráficamente la distribución de frecuencias de la varia-
histograma.
ble continua que se está describiendo. En el eje vertical de or-
denadas se representa la densidad o la frecuencia, relativa o
Otra manera de presentar datos y de resumirlos consiste en la absoluta, de valores dentro de cada intervalo. En el eje hori-
utilización de una representación de los datos numéricos me- zontal se representan los intervalos de clase de la variable. Es-
diante gráficos. Éstos tienen que ser simples. Hay numerosos ti- tos intervalos deben ser de igual anchura, y en el eje se suele
pos de gráficos y se distinguen según el tipo de variable que se mostrar la marca de clase definida como el valor medio de los
quiera mostrar: límites de cada intervalo. La frecuencia de cada intervalo de un
histograma es proporcional al área de cada barra Fig. 2-3).
Si la variable es del tipo cualitativo Los histogramas ayudan a apreciar ciertas características de
Diagramas de barra la variable estudiada, como por ejemplo la existencia de máxi-
Diagramas de sectores mos, tendencias o si la distribución de la variable es simétrica
(MIR 2012-2013, P175; MIR 2012-2013, P177). Si se unen las
Si la variable es del tipo cuantitativo marcas de clase del histograma mediante una línea, el gráfico
Histograma resultante es un polígono de frecuencias.
Diagramas de cajas y bigotes
Diagramas de dispersión

3.1. Diagramas de barra

Se trata de un gráfico en el que en el eje horizontal o de absci-


sas se sitúan las distintas categorías de la variable y en el eje ver-
tical o de ordenadas se representan los valores de las variables
expresados como frecuencia absoluta o en forma de frecuencia
relativa cuando el fin pretende ser comparativo.
Las barras deben ser iguales de anchura para que la altura sea
proporcional al área y estar separadas entre las categorías; en el
eje de ordenadas, deben mostrar claramente si es frecuencia rela-
tiva (o porcentaje) o frecuencia absoluta (Fig. 2-1).

3.2. Diagramas de sectores


< 18,5 25-30 35-40
Se trata de un círculo en que a cada categoría se le asigna un 18,5-25 30-35 > 40
sector del área del círculo proporcional a la frecuencia de la cate-
goría. Son muy útiles cuando el número de categorías es pequeño Fig. 2-2 | Diagrama de sectores.

2/10/24, 9:32 AM © Editorial Médica Panamericana


3 de 3 Norella Rocio Mercado García | Estadística descriptiva

.15

.1
Densidad

.05

0
10 20 30 40
BMI

Fig. 2-3 | Histograma.

3.4. Diagramas de dispersión

Es una representación gráfica de dos variables continuas en


la que cada punto de la nube de puntos representa los valores
de ambas variables para cada paciente (Fig. 2-4). Se utiliza para
evaluar la relación entre dos variables y habitualmente en el eje
X se representan los valores de la variable independiente y en
el eje Y los valores de la variable dependiente.

280

260
Colesterol

240

220

200
40 50 60 70
Edad

Fig. 2-4 | Diagrama de dispersión.

Puntos clave
Entre las medidas de posición central des taca la media aritmética. En el caso de dis tribuciones asimétricas o con valores extremos
se utiliza la mediana en lugar de la media.
Las medidas de dis persión más utilizadas son la des viación típica en el caso de variables con dis tribución simétrica (ejemplo la nor-
mal) y el percentil 25 y 75 en el caso de variables con dis tribución asimétrica. El coeficiente de variación es una medida de dis per-
sión obtenida de dividir la des viación típica por la media de la variable y multiplicarlo por 100.
Los gráficos más utilizados son:
Si la variable es del tipo cualitativo: Diagramas de barra y Diagramas de sectores.
Si la variable es del tipo cuantitativa: His tograma y Diagramas de cajas y bigotes.
Para evaluar la relación entre dos variables continuas: diagramas de dispersión.
Los gráficos de barras y sec tores son los más utilizados en caso de variables categóricas. Los his togramas en caso de dis tribucio-
nes normales cons tituyen los gráficos de elec ción para variables numéricas. Para evaluar la asociación entre dos variables numéri-
cas el gráfico de dis persión es el adecuado.

2/10/24, 9:32 AM © Editorial Médica Panamericana


1 de 8 Norella Rocio Mercado García | Estadística inferencial

3 Estadística inferencial
Orientación MIR
En este tema los conceptos más preguntados han sido los relacionados con el contraste de hipótesis (valor p, potencia, error de tipo I) y con la in-
terpretación de los intervalos de confianza. Las preguntas sobre tipos de muestreo son habituales, al igual que sobre la distribución normal.
Es fundamental conocer la distinción entre pruebas paramétricas basadas en la distribución normal (t de Student, Anova, correlación de Pearson)
y pruebas no paramétricas (Mann-Whitney, Kruskal-Wallis y correlación de Spearman), y cuándo aplicar cada una según los tipos de variables de-
pendientes e independientes.
En los últimos años se han incorporado preguntas sobre gráficas, incluyéndose curvas de supervivencia de Kaplan-Meier.

Los dos tipos de problemas que resuelven las técnicas estadís-


ticas inferenciales son la estimación y el contraste de hipótesis. raíz cuadrada del tamaño muestral. Por tanto, entre la media de
En ambos casos se trata de generalizar la información obtenida esa distribución y dos errores típicos estaría el 95 % de los valo-
en una muestraa una población . res. Así se calcula el intervalo de confianza para la media. Para ser
precisos, en lugar de dos veces, se emplea el valor 1,96 si la va-
rianza poblacional de la variable es conocida. En el caso más ge-
Apartado muy preguntado. Las preguntas hacen referencia
neral de que no se conozca, en lugar del 1,96, se emplea un mul-
tanto a la interpretación del intervalo de confianza como a su
tiplicador que se obtiene de una distribución parecida a la nor-
similitud con un contraste de hipótesis.
mal, que es la t de Student, de la que se elegirá un valor corres-
pondiente al tamaño de la muestra empleada para esta estima-
ción.
1. Intervalos de confianza Ejemplo:
Si se quiere estimar el intervalo de confianza de la media de
Una forma de estimar los parámetros característicos de una la edad a partir de una muestra de 81 pacientes cuya media
población es mediante intervalos de confianza. Estos parámetros muestral es 62 y la desviación típica de 10, el intervalo de con-
pueden ser la media, una proporción, una diferencia de medias o fianza al 95 % es:
de proporciones entre dos poblaciones o incluso las medidas de
10
efecto (RR, OR) o de impacto (RAR, NNT). El intervalo de con- 62 ± 1, 96× = (59, 8; 64, 2)
√81
fianza de un cierto parámetro es un par de valores (a, b), deno-
minados límites, entre los cuales, con un nivel de confianza de- Tenemos una confianza del 95 % de que el verdadero valor
terminado, se encontraría el verdadero valor del parámetro esti- de la media poblacional estará comprendido entre 59,8 y 64,2.
mado. Este nivel de confianza refleja la probabilidad de que el Para este cálculo se ha obtenido un valor de la t de Student para
verdadero valor esté entre esos límites. El nivel de confianza más n = 81 de 1,99. Se puede observar que es aproximadamente 2. A
usado en investigación clínica es el de 95 %, que se corresponde partir de n > 30, los valores de t se aproximan al famoso 1,96
con el nivel de significación habitual del 5 %. La interpretación (MIR 2005-2006, P212; MIR 2011-2012, P172).
del intervalo de confianza es escurridiza. Intuitivamente se puede
ver como que si se repitiera el estudio 100 veces, se obtendrían
intervalos de confianza similares al obtenido en nuestro estudio y 1.2. Intervalo de confianza para una proporción
se sabe que 95 de ellos contendrían el verdadero valor del pará-
metro estimado (media, proporción, OR, RR, etc.). El intervalo En el caso de que la variable sea dicotómica, es frecuente que
obtenido en nuestro estudio es uno de esos 100. (Vídeo 3-1) lo que se desee estimar sea la proporción de individuos que po-
(MIR 2004-2005, P204; MIR 2005-2006, P259; MIR 2005- seen una determinada característica. Por ejemplo, podría ser de
2006, P212; MIR 2006-2007, P201; MIR 2006-2007, P211; interés estimar la proporción de infecciones en catéteres cen-
MIR 2010-2011, P174; MIR 2011-2012, P175; MIR 2012- trales, o la proporción de éxito de una intervención quirúrgica.
2013, P175). Esta proporción se calcula como el número de individuos con la
característica (éxito) respecto al total de individuos observados.
En las variables dicotómicas los sucesos son excluyentes e in-
1.1. Intervalo de confianza para una media dependiente la ocurrencia de uno u otro, por lo tanto, siguen
una distribución binomial de parámetros n y p. Se asume que en
Si un estudio con el objetivo de estimar una media poblacional cada ensayo la probabilidad de éxito p es la misma. Si n es
se repitiera muchas veces y en cada una de las réplicas se estimara grande y p no está próximo a 0 ni a 1 (por lo tanto np es mayor
la media, se obtendrían medias muestrales que serían distintas en de 5), el número de éxitos es aproximadamente normal con
cada réplica. La distribución de estas medias sería normal. La dis- media np y varianza npq (siendo q = 1 - p). Sabiendo esto, se
persión de esta distribución, es decir, su desviación típica, se de- puede calcular el intervalo de confianza para la proporción a
nomina error estándar o error típico de la media. El error típico partir de la proporción estimada ± 1,96 veces el error estándar,
se calcula como la desviación típica de la muestra dividida por la que en este caso se calcula como la raíz cuadrada de (pq/n).

2/10/24, 9:33 AM © Editorial Médica Panamericana


2 de 8 Norella Rocio Mercado García | Estadística inferencial

Ejemplo:
Tabla 3-1. Posibilidades de hipótesis
Si en una muestra de 100 pacientes, 38 tienen hipertensión, el
intervalo de confianza para la proporción de hipertensos es: H0 cierta H0 falsa
38
100
± 1, 96 √ 0,38×(1−0,38)
100
= 0, 38 ± 1, 96 × 0, 0485 =
H0 rechazada Error de tipo I (α) Decisión correcta
(0, 285; 0, 475)
H0 no rechazada Decisión correcta Error de tipo II (β)

2. Contrastes de hipótesis
En casi todas las investigaciones biomédicas se quiere probar muy pequeña se afirmaría que la hipótesis que se había formula-
una hipótesis acerca de un parámetro poblacional de una o más do (hipótesis nula) era falsa y se aceptaría la hipótesis alternativa.
poblaciones. Por ejemplo, si se quiere contrastar la hipótesis de Si la probabilidad fuera muy grande no se podría rechazar la hi-
que la media de descenso de presión arterial en una población de pótesis nula.
hipertensos tratados con un tratamiento es superior a un deter- El valor p cuantifica la probabilidad de encontrar unos resulta-
minado valor en mm Hg. También se puede querer contrastar si dos muestrales como los que se han obtenido o más alejados de la
la proporción de infecciones de la herida quirúrgica es distinta en hipótesis nula de igualdad si la hipótesis nula es verdadera. Si el
dos poblaciones de pacientes con tratamientos antibióticos dis- valor p es pequeño, menor del nivel de significación α prefijado,
tintos. Esta hipótesis se somete a un contraste, y dependiendo del habitualmente el 0,05, se rechaza la hipótesis nula, y se dice que
resultado, se rechaza o se acepta. En general se trata de formular el resultado es estadísticamente significativo. Significación esta-
una asunción que puede ser cierta o no y a través de los datos de dística no es sinónimo de relevancia clínica. Se puede obtener un
la muestra se toma la decisión de rechazarla o [Link] hipótesis resultado estadísticamente significativo sin relevancia clíni-
con intención de rechazarla se suele llamar hipótesis nula, H0, y ca(MIR 2004-2005, P212; MIR 2007-2008, P209; MIR 2009-
la hipótesis que se desea aceptar hipótesis alternativa, H1. Recha- 2010, P176; MIR 2012-2013, P174; MIR 2013-2014, P034).
zar la hipótesis nula supone aceptar la alternativa. La hipótesis Cuando se rechaza la hipótesis nula, se acepta la hipótesis al-
nula se plantea en términos de igualdad (nulas diferencias) y las ternativa. Si no se rechaza la hipótesis nula no se puede afirmar
alternativas pueden ser planteadas en términos de desigualdad en que ésta sea verdadera, simplemente no se han encontrado evi-
cualquier sentido (alternativa bilateral), o en términos de desi- dencias muestrales para poder rechazarla. (Vídeo 3-2)
gualdad con un sentido de superioridad (unilateral por la dere-
cha) o inferioridad (unilateral por la izquierda). En el ejemplo
Se comete un error de tipo I cuando se rechaza H0 siendo en
anterior se puede plantear como hipótesis nula que las propor-
realidad verdadera.
ciones de infecciones de herida quirúrgica sean iguales en las dos
Se comete un error de tipo II si no se rechaza H0 y ésta es
poblaciones comparadas (H0). Como hipótesis alternativa se pue-
falsa.
de plantear que estas proporciones fueran distintas (H1 bilateral),
El valor p cuantifica la probabilidad de encontrar unos resul-
o que la población con antibiótico A tuviera una proporción ma-
tados como los que se han obtenido o más alejados de la
yor de infecciones que la otra población (H1 unilateral por la de-
igualdad si la hipótesis nula es verdadera.
recha) o que esta proporción fuera inferior (H1 unilateral por la
izquierda).
Hay que dejar claro que, al trabajar con muestras y no con toda (MIR 2003-2004, P193; MIR 2005-2006, P194; MIR 2005-
la población, la decisión de rechazar o no rechazar la hipótesis 2006, P207; MIR 2010-2011, P172; MIR 2011-2012, P173;
puede comportar un error (MIR 2003-2004, P193). MIR 2011-2012, P176)
Esquemáticamente las cuatro posibles situaciones se muestran
en la Tabla 3-1. Se comete un error de tipo I cuando se rechaza H0
siendo en realidad verdadera. La probabilidad de cometer este 2.1. Contraste de hipótesis para una proporción
error se denota por α (MIR 2007-2008, P195; MIR 2008-
2009, P195; MIR 2010-2011, P172; MIR 2011-2012, P173). Si el objetivo de la investigación es contrastar la hipótesis de
Si se rechaza la hipótesis nula y ésta es falsa se habrá acertado, que una determinada parte de la población posee una caracterís-
que es lo que normalmente se busca. El otro error que se puede tica, la hipótesis nula se establece afirmando que la proporción de
cometer es el de no rechazar la hipótesis nula, H0, y ser ésta falsa. la población con esa característica es igual a una proporción teó-
Este error se conoce como error de tipo II, y la probabilidad de rica determinada. Por ejemplo, se quiere contrastar si la propor-
cometerlo se denota por β. ción de obesos en la población en edad escolar es igual al 6 %. Se
En un contraste de hipótesis estadístico, la potencia estadística obtendría una estimación puntual de esa proporción de obesos en
viene determinada por la probabilidad de acertar al rechazar la la población escolar a partir de una muestra aleatoria de escolares
hipótesis nula y se corresponde con (1-β)(MIR 2009-2010, P179). y se calcularía la probabilidad de encontrar una proporción
α y β están inversamente relacionadas. Sólo pueden disminuirse muestral tan distinta de la planteada teóricamente (6 %) si real-
las dos aumentando n. mente la población tuviera esa proporción de obesos, es decir, si
La forma de resolver un contraste de hipótesis se basa en el la hipótesis nula es cierta. Para hacer estos cálculos se emplea un
supuesto de que la hipótesis nula es cierta. Se calcula la probabili- estadístico del contraste, es decir, un resumen de la muestra, cal-
dad de obtener un resultado en la muestra del estudio tan alejado culado a partir de los datos muestrales y del que se sabe su distri-
o más de lo esperado bajo la hipótesis nula. Si esta probabilidad es bución de probabilidad bajo la hipótesis nula.

2/10/24, 9:33 AM © Editorial Médica Panamericana


3 de 8 Norella Rocio Mercado García | Estadística inferencial

El estadístico elegido es: Nivel de error tipo II (β) o su com plementario (1-β) o po -
tencia estadística: cuan to mayor sea la po ten cia deseada
p^−p0
mayor será el tamaño muestral requeri do.
√ p0 (1−p0 )
n
Contrastes bilaterales o unilaterales: los con trastes bi la-
terales requieren mayor tamaño muestral.
don de p es la propor ción de obesos obser vada en la muestra Diseño y objetivo del estudio: si se plan tea un estudio de
de tamaño n y p0 es la propor ción teórica en la hipótesis nula no in ferio ri dad o de equi valen cia en lugar de un en sayo
(en nuestro caso 6 %). de superio ri dad, el tamaño muestral requeri do será
Este estadístico, para muestras gran des, tiene una distribu- mayor.
ción que es aproximadamen te una nor mal tipificada y por Número de contrastes estadísticos realizados: el número
tan to podemos usar esta distribución para calcular el valor de de con trastes de hi pó tesis den tro de un estudio puede ne-
p, es decir, la probabilidad de haber obtenido una propor ción cesi tar de ajustes en el ni vel de sig ni fi cación, co mo es el
en la muesta como la obtenida o más alejada aún de las hipó- caso por ejemplo de los análi sis in ter medios (inte rim) en
tesis nula si ésta fuera cier ta. Si es valor p es muy bajo, menor un en sayo clí ni co, o la presen cia de análi sis de subgrupos.
de 5%, diríamos que la hipótesis nula es falsa y la rechazaría- En su presen cia se necesi tará mayor tamaño muestral.
mos, y la propor ción es diferen te de 6% de for ma estadística- Asunción del número de pér didas durante el seguimiento:
men te significativa. el tamaño muestral necesario para un estudio debe in cre-
men tar se para so brepo ner se a las inevi tables pér di das que
ocurri rán en el segui mien to y man tener así el tamaño
2.2. Contraste de hipótesis para una media muestral en los valo res calculados.

Se trata de comparar la media de una población con una Si el objeti vo de un estudio es esti mar un parámetro po -
media teórica. La hipótesis nula se establece como que no hay blacio nal en lugar de reali zar un con traste de hi pó tesis, el
diferen cias (nula diferen cia) en tre la media poblacional y el tamaño muestral va a depen der fun damen talmen te del mar -
valor teórico, y la hipótesis alter nativa depen de del objetivo gen de error máxi mo per mi ti do en la esti mación, o lo que es
de la in vestigación. De nuevo se puede plan tear una hipótesis lo mismo, la preci sión o ampli tud del in ter valo de con fian za
alter nativa bilateral, unilateral superior o inferior de ese parámetro a esti mar. A mayor tamaño muestral, me-
H0 : μ = μ 0 nor error tí pi co y por tan to menor ampli tud del in ter valo de
I. H1: μ distin to de μ0 (con traste bilateral) con fian za y mayor preci sión. No in fluye en este caso la
II. H1: μ>μ0 (con traste unilateral por la derecha) potencia.
III. H1: μ<μ0 (con traste unilateral por la izquierda) Para el caso del tamaño muestral para una esti mación de
Como en la sección an terior, se procedería a obtener una una pro por ción, necesi tamos fi jar el ni vel de con fian za
muestra y resumir sus resultados median te un estadístico del (95 % habi tualmen te), el error máxi mo per mi ti do (supon ga-
que se conozca su distribución de probabilidad bajo la hipóte- mos un 2 %) y la pro por ción esperada po blacio nal que deter -
sis nula. En este caso se trata de la t de Student, y con ella se mi nará la disper sión (varian za) de esa pro por ción, que, nó -
podría calcular la probabilidad de haber en con trado en la tese, será máxi ma cuan do p = q = 0,5.
muestra una media tan alejada o más de la hipótesis nula, es z α2 p(1−p)
1,962 ×0,1×0,9
decir, el valor p. Si este valor p es menor que el nivel de signi- n= 2
= = 864
d2 0,022
ficación fijado, habitualmen te el 5 %, se rechazaría la hipóte-
sis nula aceptán dose la alter nativa plan teada. Para calcular el tamaño muestral para una comparación de
pro por cio nes en tre dos grupos, por ejemplo, la pro por ción
de alta precoz de los pacien tes in gresados en fun ción de dos
3. Tamaño muestral alter nati vas de gestión de camas, necesi tamos fi jar la po ten -
cia estadísti ca (supon gamos el 80 %), el ni vel de sig ni fi ca-
La estimación del tamaño muestral es un apar tado obligado ción α (supon gamos el habi tual 5 %), la pro por ción de even -
en cualquier tipo de in vestigación clínica. Este tamaño va a tos (altas) si guien do la estrategia con ven cio nal (supon gamos
depen der de diver sos factores, en tre los que se pueden un 45 %) y la di feren cia que esperamos en con trar con la otra
destacar: estrategia (supon gamos un in cremen to del 10 % para pasar a
un 45 %). Con esas asun cio nes, deberí an in cluir se en el estu-
Tipo de variable: el tamaño muestral diferirá si la variable dio 752 pacien tes (376 por grupo) para que una di feren cia así
es dicotómica, con tinua o si se trata de una variable de resultase sig ni fi cati va con esa pro babi li dad del 80 % si real-
tiempo hasta un evento. men te fuese efi caz la alter nati va de gestión.
Magnitud de la diferencia esperada: cuan to más pequeña De for ma si mi lar, para calcular el tamaño muestral para
sea la diferen cia esperada mayor será el tamaño muestral una di feren cia de medias de una variable, se necesi ta fi jar la
necesario para que esa diferen cia sea en con trada estadísti- po ten cia (1-β), el ni vel de sig ni fi cación (α), la variabi li dad de
camen te significativa (MIR 2005-2006, P208). la variable (desviación tí pi ca) y la di feren cia esperada en tre
Dispersión de la variable: cuan to mayor sea la disper sión los dos grupos.
de la variable mayor tamaño muestral es necesario. (MIR 2004-2005, P211; MIR 2005-2006, P203; MIR 2006-
Nivel de significación α: cuan to más pequeño sea el valor 2007, P194; MIR 2005-2006, P208; MIR 2007-2008, P210;
de α más tamaño muestral (MIR 2009-2010, P190). MIR 2013-2014, P191)

2/10/24, 9:33 AM © Editorial Médica Panamericana


4 de 8 Norella Rocio Mercado García | Estadística inferencial

Si a partir de los resultados muestrales del estudio, t se aleja


El tamaño muestral va a depender de varios factores: variable
mucho de 0, de forma que la probabilidad de tener datos tan ale-
de medida, dispersión, efecto que creemos que vamos a en-
jados de 0 o más que los obtenidos fuera menor que el nivel de
contrar.
significación α, (0,05), entonces se rechaza la hipótesis nula de
A menor nivel de significación (α) y mayor potencia (1-β) mayor
igualdad de medias. Dada la forma de estimar el valor t a partir de
tamaño muestral.
la muestra, se ha de hacer notar que será más grande y por lo
tanto más fácil de rechazar la hipótesis nula cuando las diferen-
cias de medias sean más grandes, o cuando las desviaciones típi-
4. Pruebas estadísticas univariantes cas sean más pequeñas y cuando los tamaños muestrales sean más
grandes.
En la Tabla 3-2 se resumen las distintas pruebas estadísticas Cuando hay más de dos grupos y la variable dependiente o de
univariantes. resultado es continua, y en los grupos que se comparan la variable
se comporta como una distribución normal y con la misma va-
rianza, la prueba estadística de elección es el análisis de la varian-
4.1. Prueba t de Student. ANOVA za (ANOVA). El análisis de la varianza permite determinar si más
de dos grupos muestran diferencias significativas en la media de
Cuando la variable que se analiza (variable dependiente) es la variable dependiente o por el contrario puede suponerse que
continua, la forma más habitual de comparación de dos poblacio- las medias son todas iguales.
nes es mediante la comparación de las medias de ambas. Un obje- (MIR 2004-2005, P213; MIR 2005-2006, P193; MIR 2006-
tivo de una investigación podría ser estudiar si el FEV1 (medido en 2007, P210; MIR 2007-2008, P195; MIR 2013-2014, P204)
mL/s) es distinto en fumadores y en no fumadores, o si el peso Hasta aquí se ha insistido en que los grupos que se comparan
perdido tras una dieta de los pacientes de una consulta es distinto son independientes. En clínica es muy frecuente que la compara-
en pacientes con hipertensión o sin ella. La hipótesis nula se for- ción de medias que se quiere hacer no es en individuos indepen-
mula en términos de igualdad (nulas diferencias): dientes sino en los mismos individuos en dos momentos diferen-
H0 : μ1 − μ2 = d tes, típicamente antes y después de un tratamiento o en estudios
H1 : μ1 − μ2 ≠ d de casos y controles donde cada caso se empareja individualmente
donde d generalmente es igual a 0, pues lo que se contrasta es con un control. En este caso, el contraste equivale a estudiar si la
la igualdad de medias de las poblaciones. El contraste paramétrico media de las diferencias en cada sujeto entre los tiempos antes y
de estas hipótesis asume que la variable a estudiar sigue una dis- después es igual a 0. Si se llama d a la diferencia entre las dos de-
tribución normal en cada una de las poblaciones y que las mues- terminaciones, la prueba estadística para la hipótesis de que la
tras son aleatorias e independientes (MIR 2003-2004, P194; diferencia d es 0 se calcula con:

t = sd̄d √n
MIR 2007-2008, P197; MIR 2008-2009, P194).
El estadístico de elección en este tipo de pregunta de investi-
gación es la prueba de la t de Student. El estadístico t se puede
formular como: siendo d la media muestral de las diferencias, n el tamaño

t = xS12−x2S 2
muestral y Sd la varianza muestral de las diferencias. Al igual que
en el caso anterior de la t de Student de grupos independientes, a
√ n11+ + n22 mayor t menor valor p, es decir, menor probabilidad de que si no
hubiera diferencias entre los valores de los dos tiempos se hubie-
ran encontrado en el estudio unas diferencias tan grandes o ma-

Tabla 3-2. Pruebas estadísticas univariantes

Variable dependiente (Y)

Cualitativa Cuantitativa Cuantitativa


(binaria) (normal) (no normal)

t de Student Diseño apareado: Wilcoxon


Diseño da datos Diseño de grupos
Cualitativa binaria Chi cuadrado o emparejados independientes: U de Mann-
Prueba exacta de Fisher si la frecuencia Diseño de grupos Whitney
esperada es menor de 5 en más de un 20 % de independientes
Variable las celdas
independiente (X) Prueba de McNemar, diseño apareado Análisis de la varianza Kruskal-Wallis
Cualitativa más de 2
(Pruebas a posteriori si es Friedman para muestras
categorías
significativa) emparejadas

Regresión logística Regresión lineal Correlación de Spearman


Cuantitativa
Correlación de Pearson

2/10/24, 9:33 AM © Editorial Médica Panamericana


5 de 8 Norella Rocio Mercado García | Estadística inferencial

p ,
yores a las encontradas. Se concluiría con que las diferencias son do y la prueba que se utiliza es la prueba exacta de Fisher
estadísticamente significativas. (MIR 2003-2014, P194).

Si la distribución se puede asumir normal en cada grupo, el es- La prueba de chi cuadrado permite evaluar la independencia
tadístico t de Student permite contrastar la asunción de entre dos variables categóricas. Esta prueba se realiza me-
igualdad de medias. Cuando hay más de dos grupos y la va- diante una tabla cruzada. Si las frecuencias esperadas son
riable es continua y con distribución normal, el estadístico de menores de 5 en más del 25 % de las casillas, el estadístico de
elección es el análisis de la varianza (ANOVA). elección sería la prueba exacta de Fisher.

(MIR 2005-2006, P212; MIR 2007-2008, P193; MIR 2013-


2014, P034) 4.4. Prueba de McNemar

Cuando tenemos un diseño apareado y la variable a contrastar


4.2. Alternativa no paramétrica es categórica dicotómica, como por ejemplo, nivel de conoci-
miento (adecuado; no adecuado) sobre dieta mediterránea antes y
La t de Student y el ANOVA que se han detallado en el apartado después de un programa de formación en un centro de salud, se
anterior asumen que las poblaciones de procedencia de las mues- utiliza la prueba no paramétrica de McNemar. En una tabla de
tras se distribuyen según una normal. Si las poblaciones no son contingencia se presentan los datos de la medición antes de reci-
normales, las pruebas basadas en la normal y en la t de Student bir el programa de formación, divididos en número de partici-
no se deben utilizar y la alternativa son los contrastes no para- pantes con conocimiento adecuado e inadecuado. Y se enfrenta al
métricos, que no asumen ninguna distribución. Cuando las número de participantes con conocimiento adecuado e inadecua-
muestras son independientes la prueba para contrastar si existen do tras recibir la formación. La hipótesis nula es que no hay cam-
diferencias en una variable cuantitativa entre dos grupos inde- bios en el nivel de conocimiento y la hipótesis alternativa, que sí
pendientes es la U de Mann-Whitney, y cuando están relaciona- los hay. Para obtener el estadístico de McNemar solo se tienen en
das se utiliza la prueba de Wilcoxon. La alternativa no paramétri- cuenta las discordancias (participantes con conocimientos inade-
ca al análisis de la varianza de un factor es la prueba de Kruskal- cuados antes de la formación que pasan a adecuados, y viceversa).
Wallis y al análisis de la varianza de medidas repetidas, el esta-
dístico de Friedman.
Para contrastar la normalidad de una variable se debe realizar 5. Introducción a la regresión
un histograma de la variable objeto de estudio en cada una de las
poblaciones, y además existen pruebas estadísticas, como la de 5.1. Correlación. Regresión lineal
Kolmogorov-Smirnov, que contrastan si la distribución de la va-
riable sigue una normal. En esta prueba la hipótesis nula, H0, es La relación entre dos variables continuas se puede cuantificar
que la variable se distribuye según una normal y la alternativa mediante el coeficiente decorrelación de Pearson. Para la esti-
que no sigue una normal. Se rechazará la hipótesis nula de nor- mación de este coeficiente se debe asumir que las dos variables
malidad cuando la significación en el contraste sea menor del son normales. Si alguna de las dos variables no es normal se debe
famoso 0,05 (MIR 2005-2006, P193). utilizar la alternativa no paramétrica del coeficiente de correla-
ción de Spearman. Para el cálculo de estos coeficientes no es ne-
cesario fijar que una variable es independiente y la otra depen-
4.3. Prueba de chi cuadrado diente.
El valor de estos coeficientes oscila entre -1 y +1. Un coeficien-
En la investigación biomédica es muy frecuente que, dadas dos te de correlación de +1 o -1 indicaría correlación perfecta, el signo
variables cualitativas, de tipo dicotómico, se quiera evaluar si son + indica si la relación es positiva, es decir, que a medida que crece
independientes o por el contrario están relacionadas. Por ejem- una crece la otra. Por ejemplo, altura y peso podría tener una re-
plo, se puede querer evaluar si el ser fumador o no se relaciona lación directa positiva. Si dos variables son independientes el co-
con la aparición de infarto de miocardio. Este tipo de asociaciones eficiente de correlación es 0. Si el coeficiente es 0 no tiene por
se puede evaluar mediante un contraste de proporciones o me- qué indicar independencia, pueden existir otras relaciones no li-
diante la prueba de chi cuadrado. neales (MIR 2004-2005, P210; MIR 2013-2014, P192).
La hipótesis nula, H0, postula que las variables son indepen- El análisis de regresión es una técnica para estimar y cuantifi-
dientes y la alternativa, H1, que las variables están asociadas. Co- car la relación entre dos o más variables. En el caso de regresión
mo en todo contraste, si el valor p asociado a la prueba estadística lineal la variable tiene que ser una variable continua.
es menor que el nivel de significación fijado (habitualmente α = La forma más sencilla de establecer un modelo de regresión li-
0,05), entonces se rechaza la hipótesis nula (MIR 2009- neal es la expresión de una recta en el plano XY: y = ax + b, donde
2010, P177). Y es la variable dependiente, X es la variable independiente. Este
La prueba de chi cuadrado se basa en una aproximación que modelo se dice que es de regresión lineal simple dado que sólo
funciona bien cuando el tamaño muestral es grande. Cuando no hay una variable independiente; b representa la constante, tam-
es así y más de un 20 % de las casillas de la tabla de contingencia bién conocida como la ordenada en el origen, y representa el va-
que enfrenta a ambas variables categóricas tienen una frecuencia lor medio de Y cuando X es igual a 0. El coeficiente a representa la
esperada menor de 5, no se debe utilizar el estadístico chi cuadra- pendiente de la recta, es decir, el cambio medio en Y por unidad

2/10/24, 9:33 AM © Editorial Médica Panamericana


6 de 8 Norella Rocio Mercado García | Estadística inferencial

p , , p evento tampoco es conocido en los pacientes perdidos en el se-


de X. Si el coeficiente a resulta estadísticamente significativo, se guimiento. Al conjunto de técnicas que permiten estudiar la va-
puede interpretar como que las variables Y (dependiente) y X (in- riable «tiempo hasta que ocurre un evento» y su dependencia de
dependiente) están asociadas. otras posibles variables explicativas se le denomina análisis de
El modelo de regresión lineal simple se puede extender a más supervivencia, (Vídeo 3-3) y aunque este nombre sugiere que el
variables formando un modelo de regresión múltiple. Cada uno evento es muerte, se insiste en que también puede y debe usarse
de los coeficientes representa el efecto de cada covariable corre- para analizar el tiempo hasta cualquier otro evento, como por
gido por las otras variables que hay en el modelo. ejemplo la curación, la aparición de la enfermedad o el rechazo
(MIR 2007-2008, P194; MIR 2009-2010, P177; MIR 2014- del injerto (MIR 2007-2008, P196).
2015, P186) Existen tres motivos por los que pueden aparecer las censuras.
En primer lugar, por fin del estudio. La segunda causa es la pérdi-
El coeficiente de correlación de Pearson permite evaluar la co- da del seguimiento, algunos de los pacientes pudieron desapare-
rrelación entre dos variables continuas normalmente distri- cer del estudio en algún momento del mismo por diversos moti-
buidas. vos: cambio de domicilio, falta de interés, etc. Una última causa
Si la asunción de normalidad no puede ser asumida en alguna de censura es la ocurrencia de un evento competitivo que impida
de las variables, se utiliza el coeficiente de correlación de Spe- la observación del evento, por ejemplo, muerte por alguna otra
arman. causa ajena al estudio. Todos estos tiempos censurados infraesti-
La regresión lineal es el modelo de regresión más utilizado man el tiempo hasta el evento, que siempre ocurrirá, asumiendo
que ocurra, en un tiempo posterior al del último seguimiento de
cuando la variable dependiente es continua, permite cuantificar
estos pacientes.
el efecto de cada variable independiente en forma de coefi-
ciente y ajustar por otras variables.

6.1. Estimaciones de Kaplan-Meier


5.2. Regresión logística La variable «tiempo hasta que ocurre el evento», o «tiempo
de espera», es una variable aleatoria que generalmente suele
En el caso de que la variable dependiente sea dicotómica re- describirse y modelizarse mediante una función de supervivencia
presentando la ocurrencia de un evento, el modelo de regresión en el tiempo. La probabilidad de supervivencia, representada por
logística binaria va a permitir cuantificar el efecto de una o más la función de supervivencia S(t), es la probabilidad de que el
variables independientes en la probabilidad de ocurrencia del evento ocurra en un tiempo igual o mayor que t. Es decir, que si el
evento. A partir de los coeficientes del modelo de regresión se evento es muerte, es la probabilidad de que el individuo sobreviva
puede estimar la probabilidad predicha de ocurrencia del evento más que un tiempo t.
dadas las características de un paciente. Relacionado con el análisis de tiempo hasta un evento apare-
La exponenciación de los coeficientes de un modelo de regre- cen dos conceptos clave:
sión logística es el odds ratio (OR) por cada aumento de una unidad
en la variable correspondiente. Si en un modelo de regresión lo- Mediana de supervivencia: es el tiempo en el que la mitad de
gística en el que la variable dependiente es «cáncer de pulmón», la cohorte todavía no ha experimentado el evento, es decir,
el OR de la variable «tabaco» (codificada como 0 no fumador y 1 está libre del evento (sobrevive). En términos de la función de
fumador habitual) es 5, ello indicaría que el riesgo de cáncer de supervivencia S(t), la mediana de supervivencia es el tiempo t
pulmón, cuantificado en forma de odds, es 5 veces más elevado en para el que S(t) = 0,5. También se conoce como el tiempo de
los pacientes fumadores que en los no fumadores. El OR de fumar semivida.
es 5. Mediana de seguimiento: es el tiempo en el que la mitad de la
(MIR 2004-2005, P256; MIR 2011-2012, P176) cohorte ha dejado de estar en seguimiento, bien sea porque
ha experimentado el evento o porque ha sido censurado.

La regresión logística es el modelo de regresión más utilizado


La forma más habitual de estimar la función de supervivencia
cuando la variable dependiente es dicotómica.
es el método de Kaplan-Meier(MIR 2004-2005, P256; MIR 2010-
Permite cuantificar el efecto de cada variable independiente, en
2011, P173)(Fig. 3-1). Gráficamente, la mediana de supervivencia
forma de odds ratio, ajustado por otras variables.
se obtiene trazando una línea horizontal desde el valor 0,5 del eje
vertical hasta que corte a la curva de supervivencia, y desde este
punto de corte, una línea vertical hasta el eje horizontal. El tiem-
6. Análisis de supervivencia po donde corte esta línea vertical es la mediana de supervivencia.
Si la curva de supervivencia no desciende por debajo del 0,5 no se
En muchos estudios clínicos el principal resultado de interés puede estimar la mediana de supervivencia (MIR 2011-
no es la frecuencia de ocurrencia de un evento sino el tiempo 2012, P174).
hasta que ocurre uno. Este evento puede ser adverso, como la
muerte o el ingreso, o positivo, como el alta hospitalaria o la
reincorporación a la vida laboral. Al final del período de segui- 6.2. Prueba de log-rank
miento siempre hay individuos en los que no se ha podido obser-
var el evento. Son las censuras. Este tiempo de ocurrencia del La comparación de curvas de supervivencia se hace mediante la
evento tampoco es conocido en los pacientes perdidos en el se prueba del log rank traducida a veces como prueba del rango lo

2/10/24, 9:33 AM © Editorial Médica Panamericana


7 de 8 Norella Rocio Mercado García | Estadística inferencial

1.00 1.00

0.75 0.75

0.50 0.50

0.25 0.25

0.00 0.00
0 15 30 45 60 75 90 105 120 135 150 165 180 0 15 30 45 60 75 90 105 120 135 150 165 180
Días libres de ingreso Días libres de ingreso
La media de supe
rvivencia libre de ingreso es 119 días Hay diferencias significativas p<0.05

Fig. 3-1 | Método de Kaplan-Meier. Fig. 3-2 | Prueba de log-rank.


prueba del log-rank, traducida a veces como prueba del rango lo- ocurrencia de un evento en el tiempo, el HR es igual a 1
garítmico (Fig. 3-2). Es una prueba no paramétrica que compara (MIR 2010-2011, P173; MIR 2013-2014, P034; MIR 2013-
dos o más curvas de supervivencia. Para que pueda aplicarse, las 2014, P033).
curvas de supervivencia no deben cruzarse. Evalúa globalmente
para todos los tiempos si las curvas de supervivencia son iguales
El análisis de supervivencia es el conjunto de técnicas que es-
(hipótesis nula). Si el valor p asociado a la prueba, que está basada
tudian la variable «tiempo hasta que ocurre un evento».
en una chi cuadrado, es menor que el nivel de significación, en-
La función de supervivencia en un tiempo t es la probabilidad
tonces se rechaza y se afirma que existen diferencias entre las
de que, en un individuo de la cohorte, el evento ocurra (sobre-
curvas de supervivencia comparadas.
viva, si el evento es muerte) en un tiempo igual o mayor que t.
Esta función se suele estimar mediante el método de Kaplan-
6.3. Regresión de Cox Meier.
La mediana de supervivencia indica aquel tiempo en el que la
El análisis de regresión más utilizado para analizar el efecto de mitad de los pacientes no han tenido el evento, es decir, el
una o más variables sobre el riesgo de ocurrencia de un evento en tiempo al que sobrevivirá la mitad de la población.
el tiempo es el modelo de regresión de Cox. La exponenciación de Para comparar dos funciones de supervivencia se utiliza el es-
los coeficientes del modelo de regresión de Cox proporciona los tadístico de log-rank.
hazard ratio (HR). El HR se interpreta de igual forma que el riesgo Para cuantificar el efecto de una variable sobre el riesgo de un
relativo (RR). Si no hay efecto de una variable sobre el riesgo de evento se emplea el hazard ratio.
ocurrencia de un evento en el tiempo el HR es igual a 1

Puntos clave
Los dos tipos de problemas que resuelven las téc nicas es tadís ticas inferenciales son la es timación y contras te de hipótesis.
El intervalo de confianza de un cierto parámetro es un par de valores (a, b) denominados límites, entre los cuales, con un nivel de
confianza determinado, se encontraría el verdadero valor del parámetro es timado. Es te intervalo de confianza es más ancho cuanto
mayor sea el nivel de confianza y más pequeño cuanto mayor sea el tamaño mues tral si el res to de los parámetros permanecen
constantes.
En un contras te de hipótesis se trata de formular una asunción que puede ser cierta o no y a través de los datos de la mues tra se
toma la decisión de rechazarla o no. La hipótesis con intención de rechazarla se suele llamar hipótesis nula, H 0 y la hipótesis que se
desea aceptar hipótesis alternativa, H 1. Rechazar la hipótesis nula supone aceptar la alternativa. Se comete un error de tipo I cuan-
do se rechaza H 0 siendo en realidad verdadera. Se comete un error de tipo II si no se rechaza la hipótesis nula, H 0 y es ta es falsa. El
valor p cuantifica la probabilidad de encontrar unos resultados como los que se han obtenido o más alejados de la igualdad si la hi-
pótesis nula es verdadera.
El tamaño mues tral va a depender de varios fac tores: Variable de medida, dis persión, efec to que creemos que vamos encontrar. A
menor nivel de significación (α) y mayor potencia (1-β) mayor tamaño muestral.
Si la dis tribución se puede asumir normal en cada grupo el es tadís tico t de Student nos permite contras tar la asunción de igualdad
de medias. Cuando hay más de 2 grupos y la variable es continua y con dis tribución normal el es tadís tico de elec ción es el análisis
de la varianza (ANOVA). Las alternativas no paramétricas son Mann Whitney, Wilcoxon y Friedman. La prueba de Chi- cuadrado per-
mite evaluar la independencia entre 2 variables categóricas. Es ta prueba se realiza mediante una tabla cruzada. Si las frecuencias
es peradas son menores a 5 en más de 25% de las casillas el es tadís tico de elec ción sería la prueba exac ta de Fisher
El coeficiente de correlación de Pearson permite evaluar la correlación entre 2 variables continuas normalmente dis tribuidas. Si la
asunción de normalidad no puede ser asumida en alguna de las variables se utiliza el coeficiente de correlación de Spearman. La re-
gresión lineal es el modelo de regresión más utilizado cuando la variable dependiente es continua, permite cuantificar el efec to de
cada variable independiente en forma de coeficiente y ajus tar por otras variables.

2/10/24, 9:33 AM © Editorial Médica Panamericana


8 de 8 Norella Rocio Mercado García | Estadística inferencial

La regresión logís tica es el modelo de regresión más utilizado cuando la variable dependiente es dicotómica. Permite cuantificar el
efec to de cada variable independiente, en forma de odds ratio, ajus tado por otras variables.
El análisis de supervivencia es el conjunto de téc nicas que es tudian la variable tiempo a un [Link] función de supervivencia en
un tiempo t, es la probabilidad de que, en un individuo de la cohorte, el evento ocurra (sobreviva, si el evento es muerte) en un tiempo
igual o mayor que t. Es ta función se suele es timar mediante el método de Kaplan Meier. La mediana de supervivencia indica aquel
tiempo en el que la mitad de los pacientes no han tenido el evento, es decir, el tiempo al que sobrevivirá la mitad de los pacientes.
Para comparar dos funciones de supervivencia se utiliza el es tadís tico de Log Rank. El modelo de regresión de Cox permite cuantifi-
car el efec to de una variable sobre el ries go de un evento mediante el hazard ratio.

2/10/24, 9:33 AM © Editorial Médica Panamericana

También podría gustarte