BIOESTADISTICA
Variables y Escalas de medición
Dra. Fabiola Werlinger C.
La Estadística es la ciencia de la…
Sistematización, recogida, ordenamiento y presentación
de datos referentes a un fenómeno que presenta
variabilidad para su estudio cri p t i va
De s
metódico, con el fin de…
il i dad
…deducir las leyes que rigen estos fenómenos robab
P
…y poder de esta forma hacer predicciones sobre los
nci a
mismos, tomar decisiones u obtener conclusiones. Infer e
Conceptos Elementales
• Población (“population”): conjunto sobre el que estamos
interesados en obtener conclusiones (hacer inferencia)
PARÁMETROS
• Muestra (“sample”):subconjunto de la población al que
tenemos acceso y sobre el cual realmente hacemos las
mediciones. ESTADÍGRAFOS
• Variable: Característica observable que varía entre los
componentes de una población.
ESCALAS DE MEDICIÓN
variables
Variable Cualitativa:
Cualitativas Cuantitativas
Representan cualidades
de los individuos u objetos
Nominales Discretas
Ordinales Continuas
Variables Cuantitativas:
Dicotómicas
Se pueden medir o cuantificar .
Se pueden realizar Menor a mayor “manejo” estadístico
operaciones matemáticas. Precisión
ESCALA NOMINAL
Las diferentes categorías de la escala se distinguen por su
“nombre” (palabra o frase) que se les asigna. No existe
jerarquía entre las distintas categorías de la variable.
Grupo sanguíneo {A, B, AB, O}
Raza {caucásica, negra, mestiza}
Regiones {Arica, Antofagasta..,Pta. Arenas}
Código CIEX: A00.0; C25.3
ESCALA ORDINAL
Se puede establecer un “orden” o “jerarquía” entre las
distintas categorías . Hay una posición relativa:
4>3>2>1
Nivel socioeconómico {alto, medio, bajo}
Intensidad del dolor { intenso, moderado, leve,
inexistente}
Gravedad de enfermedad {1 – 2 – 3 }
ESCALAS DE INTERVALOS
Los números asignados a las distintas categorías tienen un
significado cuantitativo claro.
4 = 1+1+1+1
Las mediciones se agrupan en intervalos a una distancia
constante.
ESCALA DISCRETA
Los valores que toma la variable resultan del recuento de
elementos. No admite valores intermedios.
N hijos
N de camas {∈ N ∧ 0}
N controles prenatales
ESCALA CONTINUA
Los valores de la variable son susceptibles de medición
pudiendo ser decimales (infinitos valores intermedios)
Peso {gramos}
Estatura {cm} {N ℜ }
Presión arterial {mm Hg}
T { C}
EL ARTE DE MEDIR
DOLOR “NOMINAL”: Precordial - abdominal - renal
DOLOR “DICOTOMICO”: Sin dolor – Con dolor
DOLOR “ORDINAL”: Intolerable – Fuerte - Moderado- Leve
DOLOR “DISCRETO”: Nºde zonas dolorosas
0 - 1 - 2 - 3 - 4 - 5 - 6 - 7 - 8 - 9 - 10
DOLOR “CONTINUA” : Análogo visual
0 100
Relación entre escalas y variables:
TIPOS DE ESCALA TIPOS DE VARIABLES
NOMINAL CUALITATIVA
O
ORDINAL
CATEGÓRICA
DISCRETA
CUANTITATIVA
CONTINUA
BIOESTADISTICA
Tablas & Gráficos
PRESENTACIÓN RESUMIDA DE DATOS
Sexo Frec. (f)
Hombre 4
Mujer 6
Las tablas de frecuencia y gráficos son dos manera
equivalentes de presentar la información. Las dos exponen
ordenadamente la información recogida en una muestra.
SERIE DE DATOS
n = 60
DISTRIBICIÓN DE FRECUENCIAS
A. TABLAS ESTADÍSTICAS
Sirven para presentar los datos numéricos
obtenidos en un estudio de manera ordenada y
resumida.
Distribución de frecuencias
TABLAS
Asociación
TABLA DE DISTRIBUCIÓN DE
FRECUENCIAS
Las unidades de observación se clasifican de
acuerdo a 1 solo criterio
Estudiantes de Odontología según sexo,
U. De Chile, 2007
Sexo Frec. (f)
Hombre 4
Mujer 6
TABLAS DE ASOCIACIÓN
Son aquellas en que se desea mostrar la relación
entre 2 o más criterios
Estudiantes de Odontología según sexo y nºde
hijos, U. de Chile, 2007
Sexo Hijos Total
Con hijos Sin hijos
Hombre 1 3 4
Mujer 2 4 6
Total 3 6 10
CONSTRUCCIÓN DE TABLAS:
1. Definir el propósito de la tabla.
2. Colocar el título (Qué, cómo, donde, cuándo).
3. Asignar las escalas de clasificación a filas y columnas (1 o
más criterios).
4. Colocar los datos numéricos.
Magnitudes:
Frecuencia absoluta (fi): contabiliza el n de observaciones
que presenta cada categoría.
Frecuencia relativa (hi): ídem, pero respecto al total.
Frecuencia Acumulada (Fi): frecuencia simple de la categoría +
frecuencias simples anteriores. Útiles sólo en variables
nominales, ordinales y discretas.
Frecuencia relativa acumulada (Hi): frecuencias relativas de la
categoría + las frecuencias relativas anteriores
Magnitudes:
Variable: Sexo Frec. Frec Relativa Frec. Frec. Relativa
(f) (h) Acumulada Acumulada
Sexo (F) (H)
Hombre 4 4 / 10 = 0,4 4 40%
40 %
Categorías: Mujer 6 6 / 10 = 0,6 10 100%
60 %
Hombre Total n = 10 100 %
Mujer
Tamaño muestral:
10
Ejemplo:
N de hijos de trabajadoras de una fábrica de Alimentos,
¿Cuántas mujeres tienen año 2007
menos de 2 hijos?
N de hijos f h F H
Frec. Muj. s / hijos 419
+ 0 419 27.8 419 27.8
Frec. Muj. c /1 hijo 255 = 674 1 255 16.9 674 44.7
2 375 24.9 1049 69.6
¿Qué porcentaje de mujeres 3 215 14.2 1264 83.8
tiene 6 hijos o menos? 4 127 8.4 1391 92.2
97.3 % 5 54 3.6 1445 95.8
6 24 1.6 1469 97.3
¿Cuál es la cantidad de hijos 7 23 1.5 1492 98.9
que al menos el 50% de la 8o+ 17 1.1 1509 100
población tiene? Total 1509 100
2 hijos
B. GRÁFICOS
Es la representación gráfica de los resúmenes de datos
presentados en tablas. Debe ser sencillo, autoexplicativo y
fácil de interpretar (menor detalle)
Permite detectar patrones o tendencias
Fallas en la recolección de datos
Ausencia de datos
Evaluar distribución de datos
TIPOS DE GRÁFICOS
TIPO DE TABLA
ESCALA
D. de frecuencias Asociación
Nominal Barras simples Barras agrupadas
Ordinal Pictograma Barras subdivididas
Discreta Sectorial (torta)
Continua Histograma Dispersión o
Polígono de correlación, Lineal
frecuencias
TIPOS DE GRÁFICOS Egresos Hospitalario por grupos de edad y Causas , Region
Metropolitana año 2006
Síntomas Neuróticos y Funcionales en Pacientes del
Hospital Clínico de la U. Catolica de Chile, 2006 Resultados 1ªPrueba Bioestadística, S00-T98
2 año de IBM, DuocUC, 2007
Código CIE X
Depresión 47 I00-I99
Hipocondría 47
Q00-Q99
Cefalea 53 32%
Bueno
Síntomas
Nerviosismo 52
52% Moderado C00-D48
Falta de memoria 61
Malo
Insomnio 70 0 10000 20000 30000 40000 50000 60000
Angustia 78 Nº
16% < de 20 años > de 20 años
Tensión 96
0 20 40 60 80 100 120
Nº
Egresos Hospitalario por grupos de Causas y
Edad, Region Metropolitana año 2006
100%
80%
porcentaje
60%
40%
20%
0%
C00-D48 Q00-Q99 I00-I99 S00-T98
Grupo de causas
< de 20 años > de 20 años
Histograma
Notas Taller Nº 1 de Informática Biomédica
DuocUC, 2007 50
45
40
15
35
Frecuencia
30
10 25
Nº
20
15
5 10
5
0 0
28 33 38 43 48 53 58 63 68 73 78
1,0-2,0 2,0-3,0 3,1-4,0 4,0-5,0 5,0-6,0 6,0-7,0
Clase
Notas
Histograma
50
45
40
35
Frecuencia
30
25
20
15
10
5
0
28 33 38 43 48 53 58 63 68 73 78
Clase
Notas Taller Nº 1 de Informática Biomédica
DuocUC, 2007
15
10
Nº
0
1,0-2,0 2,0-3,0 3,1-4,0 4,0-5,0 5,0-6,0 6,0-7,0
Notas
BIOESTADISTICA
Medidas de Posición central
Media, Mediana y Moda Desviación estándar, varianza,
C. de Variación y Rango
Percentil, Cuartil, Quintil y Decil Asimetría y Curtosis
A. Medidas de Posición Central
Son medidas que buscan posiciones (valores) con respecto
a los cuales los datos tienden a agruparse.
Tienen por objetivo la obtención de un valor que
resuma en sí todas las mediciones:
[Link] o Media Aritmética
2. Mediana
3. Moda
[Link], Decil, Quintil y Quartil
1. MEDIA ARITMÉTICA (“mean”):
Se define como la suma de todos los valores observados,
dividido por el número total de observaciones (promedio
aritmético).
= Poblacional
X = Muestral
Cálculo de la Media en datos NO
agrupados
+ + +
= = =
Símbolo que denota suma de los valores que siguen
=
n= Número de observaciones
Xi= Valor de la variable de la i-ésima observación.
Datos sin agrupar
• Media de 2, 2, 3 y 7:
= (2 + 2 + 3 +7) = 3,5
4
Conviene calcularla cuando los valores se concentran
muy simétricamente con respecto a este valor
Cálculo de Media en datos organizados
en tabla
n
X = X1· ƒ1 + X2 · ƒ2 + .....Xn · ƒn = Xi · ƒi
i=1
n n
Xi Valor de la variable de la i-ésima observación.
ƒi Frecuencia absoluta la i-ésima observación
n N° de observaciones ( ƒi)
Ejemplo
N° de controles anuales de usuarios Fonasa en un centro de atención
primaria:
Xi ƒi Xi *ƒi
NºCONTROLES
0 4 0
1 8 8
2 3 6 = =
total n=15 14
Esto quiere decir que si cada persona tuviera el mismo n de
controles de salud en un año, tendría 0.93 controles
Limitaciones de la media aritmética:
• Sólo se puede obtener en variables medidas
cuantitativamente.
• El valor de la media puede no pertenecer al conjunto de
valores de la variable.
• Es sensible a valores extremos: en distribuciones
asimétricas la media aritmética no es recomendable
para caracterizar una distribución, pierde
representabilidad.
Ejemplo
Se tiene el nºde lesiones en piel de 5 pacientes:
X1= 2 X2 =7 X3 = 5 X4 = 12 X5 = 9
5
xi
X= 1
= 7 Piezas dentales
Lesiones cariadas
dérmicas
5
De no existir variación los 5 pacientes tendrían 7 lesiones
dérmicas.
X1= 2 X2 =7 X3 = 5 X4 = 125 X5 = 9
5
xi
X= 1
= 29,7 piezas dentales
Lesiones cariadas
dérmicas
5
2. MEDIANA Md (“median”):
Es un valor tal que, al ordenar los datos según magnitud,
el 50% es menor que él y el 50% mayor. mayor Divide a la
distribución en dos partes iguales.
En una serie de datos:
3 2 6 8 2 4 3 8 7 4 5 7 6 6 4
+
Lo primero es ORDENAR……luego aplicar
(15 + 1) / 2 = 8ªposición
Med = 5
Si n es par la mediana es el promedio de
los valores que ocupan esas posiciones.
2233444 5 6 6677889
En este caso la media adopta un valor no incluido
en las observaciones:
Med = 5,5
Ejemplo:
Se tiene el nºde lesiones en piel de 5 pacientes.
X1= 2 X2 = 5 X3 = 7 X4 = 9 X5 = 12
n +1 6
= = 3ª
2 2
X1= 2 X2 =5 X3 = 7 X4 = 9 X5 = 125
El 50% de los pacientes tiene 7 o más lesiones
dérmicas y el 50% restante menos de 7.
Propiedades de la Mediana
• No estar afectada por las observaciones extremas.
Por ello es adecuado su uso en distribuciones
asimétricas.
asimétricas
• Es de cálculo rápido y de interpretación sencilla.
• A diferencia de la media, la mediana de una variable
discreta es siempre un valor de la variable que
estudiamos
3. MODA o MODO Mo (“mode”):
• Es el valor de la variable que más se repite.
• Es el único estadígrafo de posición que se puede
calcular cuando la variable es nominal.
• Fácil de calcular
• La mayoría es siempre la moda, pero la moda
NO NECESARIAMENTE ES LA MAYORÍA.
Ejemplo:
Mod 1 Mod 2
Estado civil de 52 pacientes
Estado civil ni
Intervalo
soltero 30 más frecuente
casado 20
viudo 2 Moda = Soltero
total 52
Propiedades de la Moda:
• Es muy fácil de calcular.
• Puede no ser única.
• Único estadígrafo de posición central calculable
en variables nominales.
4. PERCENTILES (Pp)
Valores que dividen a la distribución en 100 partes
iguales, p = 1, 2,....99, correspondientes al 1% cada una.
D 10 %
Percentiles Qq 20%
Q 25%
p= Percentil
Ejemplo: Percentil 70
Una vez ordenados los datos, se
busca el valor que sobre él deje
al 30% de las observaciones.
Ejemplo: Cuartil 1
Una vez ordenados los datos, se
busca el valor que bajo él deje al
25% de las observaciones.
BIOESTADISTICA
Medidas de Dispersión
B. MEDIDAS DE DIPERSIÓN
Indican la mayor o menor concentración de los datos con
respecto a las medidas de centralización (homogeneidad)
1. Amplitud o Rango (A)
2. Recorrido interpercentílico
3. Desviación estándar (s; σ )
En una investigación sobre lesiones producidas por práctica de deportes escolares
se seleccionaron 25 colegios de una misma región, obteniéndose los siguientes
datos sobre el número de lesiones graves causadas a deportistas masculinos
mientras practicaban baloncesto o fútbol:
Promedio B: 4 Promedio F: 4
Mediana B : 4 Mediana F: 4
Baloncesto Fútbol
1. AMPLITUD (“range”)
Diferencia entre observaciones extremas:
2 1 4 3 8 4
El rango es 8 – 1 = 7
Medida de fácil obtención .
Permite detectar valores excepcionales en la medición
(outlier).
Sensible a valores extremos
Poco representativa
2. RECORRIDO INTERPERCENTÍLICO
Es la diferencia entre 2 percentiles lo que determina su “recorrido”.
Sirve para comparar 2 muestras y determinar cual presenta mayor
variabilidad.
Rango intercuartílico (‘interquartile range’):
Es la distancia entre primer y tercer cuartil
Rango intercuartílico = P75 - P25
No es tan sensible a valores extremos.
DESVIACION ESTANDAR (s; σ ) :
La desviación estándar indica el promedio de la dispersión de las
observaciones respecto a su promedio
S = Σ (xi - x)2
n-1
Indica como varían las observaciones con respecto al promedio.
Corresponde a la raíz cuadrada de otra medida: la varianza utilizada en
inferencia estadística.
S= S 2
Ejemplo:
Si el peso en Kg de 5 pacientes Recién Nacidos es:
X1 = 3 X2 = 5 X3 = 9 X4 = 4 X5 = 8
n= 5
s = Σ (xi - x)2
X= 5.8 kg
n -1
s2 = (3-5.8)2+(5-5.8)2 + (9-5.8)2 + (4-5.8)2 + (8-5.8)2
n-1
s2 = 26.8 s = 2,58 kg
4
Es decir, los pesos de los recién nacidos
varían en torno a su media, en 2,58
kilos en promedio.
Asimetría
• Una distribución es simétrica si la mitad izquierda de su
distribución es la imagen de espejo de su mitad derecha.
• En las distribuciones simétricas media y mediana
coinciden. Si sólo hay una moda también coincide.
• La asimetría es positiva o negativa en función de a qué
lado se encuentra la “cola” de la distribución.
Apuntamiento o Curtosis
La curtosis indica el grado de apuntamiento (aplastamiento)
de una distribución con respecto a la distribución normal o
gaussiana. Es adimensional.
FORMAS DE DISTRIBUCIÓN NORMALES
La distribución normal es simétrica, mesocúrtica,
unimodal y asintótica.
Media, mediana y moda coinciden.
Los parámetros µ (media) y σ
(desviación estándar) Función de Densidad normal:
2
caracterizan el centro y la 1 −
1 x−µ
2 σ
dispersión de la distribución, f ( x) = e
σ 2π
respectivamente.
Bibliografía
1. Erica Taucher. Bioestadística. Chile. 2ª Edición. 1999.
2. Apunte Salud Pública. Bioestadística para carreras del Área de la
Salud. Universidad de Chile. 1993.
3. J, Susan Milton. Estadística para Biología y Ciencias de la Salud.
Madrid. Mc Graw-Hill. 2004.
4. Bioestadística. Métodos y aplicaciones. Universidad de Málaga.
España.
5. Ruiz-Díaz & Barón López. Bioestadística. Universidad de Málaga,
España. 2005.
6. Distribución del Ingreso: antecedentes para la discusión. Harald
Beyer. In: [Link]
7. Resultados encuesta Casen 2006. In: [Link]