0% encontró este documento útil (0 votos)
96 vistas45 páginas

Estadistica Descriptiva: 1.1. Organización de Datos

El documento describe los conceptos básicos de la estadística descriptiva, incluyendo la organización y resumen de datos. Explica cómo organizar los datos en tablas y gráficos, y cómo agruparlos en intervalos para describir mejor las características de los elementos bajo estudio. Proporciona un ejemplo de cómo agrupar datos de edad de mujeres en un estudio clínico en intervalos y representarlos en un histograma.

Cargado por

Diana Smith
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
96 vistas45 páginas

Estadistica Descriptiva: 1.1. Organización de Datos

El documento describe los conceptos básicos de la estadística descriptiva, incluyendo la organización y resumen de datos. Explica cómo organizar los datos en tablas y gráficos, y cómo agruparlos en intervalos para describir mejor las características de los elementos bajo estudio. Proporciona un ejemplo de cómo agrupar datos de edad de mujeres en un estudio clínico en intervalos y representarlos en un histograma.

Cargado por

Diana Smith
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

1.

ESTADISTICA DESCRIPTIVA

La estadística descriptiva se ocupa de la organización y resumen de datos para

la mejor descripción de los elementos bajo estudio según la o las

características de interés.

1.1. ORGANIZACIÓN DE DATOS

Para la descripción de un conjunto de datos el primer procedimiento consiste

en organizarlos presentándolos en un listado en forma ascendente y

agrupándolos para ser presentados en tablas y gráficos de frecuencias.

Ejemplo 1.1. El siguiente cuadro proporciona la edad y el porcentaje de

sobresaturación de bilis para una muestra de 31 varones y 29 mujeres en un

estudio sobre la formación de cálculos de colesterol en la vesícula.

Tabla 1. Edad y porcentaje de sobresaturación de colesterol en bilis

Varones Mujeres
% de % de
Sujeto Edad Sobresaturación Sujeto Edad Sobresaturación
1 23 40 1 40 65
2 31 86 2 33 86
3 58 111 3 49 76
4 25 86 4 44 89
5 63 106 5 63 142
6 43 66 6 27 58
7 67 123 7 23 98
8 48 90 8 56 146
9 29 112 9 41 80
10 26 52 10 30 66
11 64 88 11 38 52
12 55 137 12 23 35
13 31 88 13 35 55
14 20 80 14 50 127
15 23 65 15 47 77
16 43 79 16 36 91
17 27 87 17 74 128
18 63 56 18 53 75
19 59 110 19 41 82
20 53 106 20 25 69
21 66 110 21 57 84
22 48 78 22 42 116
23 27 80 23 49 73
24 32 47 24 60 87
25 62 74 25 23 46
26 36 58 26 48 107
27 29 88 27 44 84
28 27 73 28 37 120
29 65 118 29 57 123
30 42 67
31 60 57
Fuente: Dawson, B y Trapo R. Bioestadística Médica. 2ª Edición, 1997 (36)

Para describir la edad de las personas en el estudio ordenamos las edades

ascendentemente:

Tabla 2. Arreglo ordenado según edad

Varones Mujeres
% de % de
Orden Sujeto Edad Sobresaturación Orden Sujeto Edad Sobresaturación
1 14 20 80 1 7 23 98
2 1 23 40 2 12 23 35
3 15 23 65 3 25 23 46
4 4 25 86 4 20 25 69
5 10 26 52 5 6 27 58
6 17 27 87 6 10 30 66
7 23 27 80 7 2 33 86
8 28 27 73 8 13 35 55
9 9 29 112 9 16 36 91
10 27 29 88 10 28 37 120
11 2 31 86 11 11 38 52
12 13 31 88 12 1 40 65
13 24 32 47 13 9 41 80
14 26 36 58 14 19 41 82
15 30 42 67 15 22 42 116
16 6 43 66 16 4 44 89
17 16 43 79 17 27 44 84
18 8 48 90 18 15 47 77
19 22 48 78 19 26 48 107
20 20 53 106 20 3 49 76
21 12 55 137 21 23 49 73
22 3 58 111 22 14 50 127
23 19 59 110 23 18 53 75
24 31 60 57 24 8 56 146
25 25 62 74 25 21 57 84
26 5 63 106 26 29 57 123
27 18 63 56 27 24 60 87
28 11 64 88 28 5 63 142
29 29 65 118 29 17 74 128
30 21 66 110
31 7 67 123
Fuente: Dawson, B y Trapo R. Bioestadística Médica. 2ª Edición, 1997 (36)

El arreglo nos permite apreciar que el grupo de varones tienen edades

ligeramente menores que las mujeres, pero para tener información de la

tendencia de la edad para los varones y mujeres es mejor organizar los datos

en forma agrupada.

Agrupamiento de datos

Según la cantidad y tipo de datos estos se pueden agrupar de dos maneras:

a) Agrupamiento por intervalos: Para datos cuantitativos

b) Por conteo individual: Según categoría o valor diferente

a) Agrupamiento por intervalos

Para la mejor descripción o lectura de las edades, las agrupamos y

presentamos en una tabla de frecuencias por intervalos e ilustramos con un

gráfico de histograma de frecuencias como sigue

Criterios para determinar los intervalos

1) Determinar los valores mínimo y máximo

2) Calcular la amplitud o rango de los datos R = Máx – Mín


3) Determinar el número de intervalos (k) o la longitud de cada intervalo

(c), como:

K = R/c o c = R/k

Sugerencias:

a) 5 ≤ k ≤ 10

b) Todos los intervalos deben ser de igual longitud y de preferencia determinar

c como una medida que nos proporcione intervalos de fácil lectura

Lo más importante es el criterio propio y el sentido común. No existe regla

precisa para la determinación del número de intervalos (k), generalmente

tratamos de no tener muchos, ni muy pocos. La razón básica para agrupar los

datos es revelar la forma de la distribución utilizando un número moderado de

intervalos.

En el cuadro 2 se presenta el agrupamiento de las mujeres por intervalos de

edad en la muestra del ejemplo 1.1

Cuadro2: Edad de mujeres sometidas a evaluación de


porcentaje de saturación de colesterol en bilis
Nº de
Edad (años) mujeres Porcentaje
20 - 29 5 17%
30 - 39 6 21%
40 - 49 10 34%
50 - 59 5 17%
60 - 69 2 7%
70 - 79 1 3%
Total 29 100%
Fuente: Dawson, B y Trapo R. Bioestadística Médica. 2ª Edición, 1997 (36)
Histograma de frecuencias

Se utiliza para representar frecuencias simples (absolutas o porcentuales) de

datos continuos. Se construye dibujando un eje en el cual se indican los

intervalos de clase, luego se dibuja una serie de rectángulos que tienen como

base los intervalos de clase y cuyas superficies deben ser proporcionales a las

frecuencias correspondientes a cada intervalo. En el caso de que todos los

intervalos sean de igual amplitud, la altura de cada rectángulo será

proporcional a la frecuencia. Si los intervalos tienen amplitudes diferentes,

entonces, las alturas son llamadas densidad de frecuencia.

Gráfico 1

Edad de mujeres sometidas a evaluación de


porcentaje de saturación de colesterol en bilis

12
10
Nº de mujeres

8
6
4
2
0
10 - 19 20 - 29 30 - 39 40 - 49 50 - 59 60 - 69 70 - 79 80 - 89
Edad (años)

Fuente: Dawson, B y Trapo R. Bioestadística Médica. 2ª Edición, 1997 (36)

Polígono de frecuencias

Es un gráfico que se utiliza, también, para representar las frecuencias simples

(absolutas o porcentuales) de datos continuos. Se construye uniendo con

segmentos los puntos correspondientes a los puntos medios y densidad de

frecuencias de cada intervalo (Ver gráfico 1)


El polígono de frecuencias nos permite visualizar la forma de la distribución y

en base a ella poder ajustarla a un modelo de probabilidad. Para el uso

descriptivo con este gráfico podemos representar, simultáneamente, la

distribución de frecuencias de dos o más subconjuntos de datos para efectos

de comparación de tendencias de agrupamiento; en este caso se sugiere

graficar las frecuencias porcentuales para evitar distorsiones debido a la

diferencia en los tamaños de muestra.

b) Agrupamiento por conteo individual

Si los datos son categóricos o de tipo discreto los ordenamos en cuadros de

frecuencia por conteo individual e ilustramos con un gráfico de barras. Por

ejemplo en el cuadro 3 se presenta el agrupamiento de pacientes según etapa

de gravedad de la enfermedad.

Cuadro 3. Etapa de la enfermedad de pacientes con cáncer colorrectal

Etapa de la Número de
enfermedad pacientes Porcentaje
1 3 3%
2 28 24%
3 63 55%
4 21 18%
Total 115 100%
Fuente: Dawson, B y Trapo R. Bioestadística Médica. 2ª Edición, 1997 (31)

Gráfico de barras

Se utiliza para representar frecuencias simples (absolutas o porcentuales) de

datos categóricos o discretos. Se construye dibujando un eje en el cual se


indican las categorías o valores diferentes de la variable, luego se dibujan

barras de igual ancho y cuyas longitudes deben ser proporcionales a las

frecuencias correspondientes a cada categoría.

Gráfico 2

Etapa de la enfermedad de pacientes


con cáncer colorrectal
Número de pacientes

70
60
50
40
30
20
10
0
1 2 3 4
Etapa de la enfermedad

Fuente: Dawson, B y Trapo R. Bioestadística Médica. 2ª Edición, 1997 (31)

Datos Nominales

Si los datos son nominales ilustramos sus frecuencias con un gráfico pastel, el

cual tiene por objeto mostrar que parte del todo es cada categoría, como se

aprecia en el cuadro 4 y gráfico 3.

Cuadro 4. Frecuencia de bacteriemia en pacientes hipotéticos


Con cultivos de catéter

Nº de
Bacteriemia pacientes %
Si 4 20%
No 16 80%
Total 20 100%
Fuente: Dawson, B y Trapo R. Bioestadística Médica. 2ª Edición, 1997 (28)
Gráfico 3

Frecuencia de bacteriemia en pacientes


hipotéticos con cultivos de catéter

20%

Si
No

80%

Fuente: Dawson, B y Trapo R. Bioestadística Médica. 2ª Edición, Manual Moderno 1997 (28)

1.2. MEDIDAS DE RESUMEN

Llamadas también medidas descriptivas por que tienen por objeto describir la

naturaleza de la característica en estudio.

MEDICIÓN DE DATOS NUMÉRICOS

Medidas de Posición. Indican los valores que tienden a tomar los datos

- Media aritmética o promedio

- Moda

- Cuantilas: Mediana, cuartiles, deciles, percentiles

Medidas de dispersión. Indican la variabilidad de los datos

- Amplitud o rango

- Varianza y desviación estándar


- Coeficiente de Variación

Medidas de forma. Indican la deformación horizontal y vertical de los datos.

- Asimetría

- Curtosis

MEDICIÓN DE DATOS NOMINALES

- Proporciones y Porcentajes

- Razones

- Medición epidemiológica:

* Tasa. Ajuste de tasas

* Riesgo Relativo (RR)

* Odds Ratio (OR)

1.2.1 Medidas de Posición

Media aritmética o promedio

∑x i
Media Poblaciona l : µ = i =1
; N = Número de elementos en la población
N

∑x i
Media Muestral : x= i =1
; n = Número de elementos en la muestra
n
Es una medida de posición que proporciona el valor que tiende a tomar la

variable para la mayoría de los elementos en la población o muestra, según

corresponda.

Por su forma de cálculo describe el centro de los datos en el sentido de un

centro de gravedad o punto de equilibrio, por ello se la considera como una

medida de tendencia central.

Obtención de la media para datos agrupados

k k

∑x i ni ∑x i ni
Media Poblacional : µ = i =1
; Media Muestral : x= i =1
;
N n
x i = Valor individual o punto medio del intervalo
k = Número de valores diferentes o de intervalos

Obtención de la media para agrupamiento por conteo individual

Ejemplo 1.2. En el cuadro 4 se presenta el agrupamiento de 64 familias según

el número de hijos por familia y los productos del número de hijos (xi) por el

número de familias (ni) para cada valor individual de la variable

Cuadro 5. Número de hijos por familia


nº de hijos nº de familias
(xi) (ni) xi ni
0 4 0
1 8 8
2 11 22
3 15 45
4 10 40
5 13 65
6 3 18
TOTAL 64 198

Fuente: Datos simulados por el autor


Media x = 198 = 3.09 ≅ 3 hijos por familia
64

Luego las familias tienen en promedio 3 hijos por familia.

Obtención de la media para agrupamiento por intervalo

Ejemplo 1.3. En el cuadro 6 se presenta los intervalos de la edad y sus puntos

medios de cada intervalo, así como la frecuencia respectiva para una muestra

de 75 pacientes de una cierta enfermedad.

Cuadro 6. Edad de pacientes

Edad xi * ni xi ni
5 – 14 9.5 5 47.5
15 – 24 19.5 10 195.0
25 – 34 29.5 20 590.0
35 – 44 39.5 22 869.0
45 – 54 49.5 13 643.5
55 – 64 59.5 5 297.5
TOTAL 75 2642.5
Fuente: Datos simulados por el autor

Media: x = 2642.5 = 35.23 años


75

Las personas en la muestra tienen en promedio 35 años, es decir, la mayoría

de las personas en la muestra tienen alrededor de 35 años.

Moda

Es el valor que ocurre con mayor frecuencia, por lo que se considera que

representa a los datos por ser el valor más probable

Ejemplo 1.4. De los cuadros 4 y 5 obtenemos:

o Para el número de hijos por familia: Moda = 3 hijos


o Para la edad: 35 – 44 años es el intervalo modal

Moda = 39.5 años *

* En el manejo de datos, para efectos descriptivos, se asume que los

datos que toman medida en un intervalo dado se distribuyen

uniformemente dentro de él estableciéndose una relación de

proporcionalidad entre el tamaño del intervalo y la frecuencia

correspondiente, de esta manera el punto medio representa a los datos en

el intervalo.

CUANTILAS O CUANTILES

Cuantila : X p

Es un valor en el recorrido de la variable en el que se acumula una porción p de

datos con medida máxima el valor de la cuantila, es decir, un porcentaje (p x

100) de datos toma medidas menores o iguales a X p y el resto toma medida

mayores o iguales a X p.

A las cuantilas se las denomina de manera particular según la porción

acumulada a la izquierda del punto.

Mediana: Me = X0.50

Indica que la mitad o el 50% de los datos toma medidas menor o igual a Me y

el otro 50% toma medida mayor o igual a Me, por ejemplo

Edad mediana = 36 años


Indica que el 50% de las personas tienen edad máxima 36 años y que el otro

50% tiene mínimo 36 años.

Cuartiles : q1 = X0.25 ; q2 = X0.50 ; q3 = X0.75

Son puntos que dividen al conjunto de datos en 4 partes, esto es en cada parte

se acumula 25% de los datos, por ejemplo

q1 = X0.25 = 27 años ; q3 = X0.75 = 45 años

Indica que el 25% de las personas tienen hasta 27 años y que el 75% tiene a

lo más 45 años, es decir el 50% tiene edad entre los 27 y 45 años.

Déciles: d1 = X0.10 ; d2 = X0.20 ; ........ ; d9 = X0.90

Son puntos que dividen al conjunto de datos en 10 partes donde cada una

acumula el 10% de datos, por ejemplo

d1 = X0.10 = 17 años ; d8 = X0.80 = 52 años

Indica que el 10% de las personas tienen a lo más 17 años y que el 80% tiene

máximo 52 años, también podemos deducir que el 70% de las personas tiene

edad entre los 17 y 52 años.

Percentiles: P1 = X0.01 ; P2 = X0.02 ; ........ ; P99 = X0.99

Son puntos que dividen al conjunto de datos en 100 partes cada una con 1%

de los datos, por ejemplo

P20 = X0.20 = 23 años ; P95 = X0.95 = 57 años


Indica que el 20% de las personas tiene máximo 20 años y que sólo el 5% de

las personas tiene más de 57 años, también podemos deducir que el 75% de

las personas tienen edad entre los 23 y 57 años.

OBTENCIÓN DE LAS CUANTILAS

a) Para datos no agrupados. Luego de ordenar los datos ascendentemente

se determina la cuantila p como el valor que ocupa el lugar r

X p = X(r)

Donde: r=nxp (si r no es entero redondear al entero superior)

Ejemplo 1.5. Consideremos nuevamente los datos del ejemplo 1.1 ordenados

según edad (Tabla 2)

Arreglo ordenado según edad

Varones Mujeres
% de % de
Orden Sujeto Edad Sobresaturación Orden Sujeto Edad Sobresaturación
1 14 20 80 1 7 23 98
2 1 23 40 2 12 23 35
3 15 23 65 3 25 23 46
4 4 25 86 4 20 25 69
5 10 26 52 5 6 27 58
6 17 27 87 6 10 30 66
7 23 27 80 7 2 33 86
8 28 27 73 8 13 35 55
9 9 29 112 9 16 36 91
10 27 29 88 10 28 37 120
11 2 31 86 11 11 38 52
12 13 31 88 12 1 40 65
13 24 32 47 13 9 41 80
14 26 36 58 14 19 41 82
15 30 42 67 15 22 42 116
16 6 43 66 16 4 44 89
17 16 43 79 17 27 44 84
18 8 48 90 18 15 47 77
19 22 48 78 19 26 48 107
20 20 53 106 20 3 49 76
21 12 55 137 21 23 49 73
22 3 58 111 22 14 50 127
23 19 59 110 23 18 53 75
24 31 60 57 24 8 56 146
25 25 62 74 25 21 57 84
26 5 63 106 26 29 57 123
27 18 63 56 27 24 60 87
28 11 64 88 28 5 63 142
29 29 65 118 29 17 74 128
30 21 66 110
31 7 67 123

Para la variable Edad

Varones Mujeres

X0.50 = 43 años (np = 15.5) X0-50 = 42 años (np = 14.5)

X0.25 = 27 años (np = 7.75) X0.25 = 35 años (np = 7.25)

X0.90 = 64 años (np = 27.9) X0.90 = 60 años (np = 26.1)

b) Para datos agrupados

1) Agrupamiento por conteo individual. Datos agrupados ascendentemente

xi ni Ni
X1 n1 N1
X2 n2 N2
... ... ...
Xj-1 nj-1 Nj-1
xj nj Nj
... ... ...
xk nk Nk

Utilizamos las frecuencias acumuladas para determinar la cuantila, de esta


manera

Xp = xj Si y sólo si Nj ≥ np y Nj-1 < np

Ejemplo 1.6. Del ejemplo 1.4. y del cuadro 4 obtenemos las frecuencias

acumuladas con las que determinamos los percentiles 10, 25, 50, 75, 90 y 95
nº de nº de Nº acumulado
hijos familias de familias
(xi) (ni) Ni
0 4 4
1 8 12
2 11 23
3 15 38
4 10 48
5 13 61
6 3 64
Total 64

P10 = X0.10 = 1 pues np = 0.10 x 64 = 6.4

P25 = X0.25 = 2 pues np = 0.25 x 64 = 16

P50 = X0.50 = 3 pues np = 0.50 x 64 = 32

P75 = X0.75 = 4 pues np = 0.75 x 64 = 48

P90 = X0.90 = 5 pues np = 0.90 x 64 = 57.6

P95 = X0.95 = 5 pues np = 0.95 x 64 = 60.8

2) Datos agrupados por intervalos: Consideramos las frecuencias simples

(ni) y las frecuencias acumuladas (Ni).

Intervalos ni Ni
L1I – L1s n1 N1
L2I – L2s n2 N2
.......... ... ...
Lj-1 I – L1j-1 s nj-1 Nj-1
LjI – Ljs nj Nj
......... ... ...
L1I – L1s nk Nk

1) Se determina el intervalo que contiene a la cuantila Xp como eIntervalo j:

LjI – Ljs Si y sólo si Nj ≥ np y Nj-1 < np

2) X p = L jI + c
(np − N )j −1
, donde
nj
c: Amplitud del intervalo j

LjI: Frontera de clase del intervalo j (el punto medio entre los extremos

consecutivos para intervalos discretos) o límite inferior para intervalos

continuos.

Ejemplo 1.7. Consideremos la distribución de la edad de la muestra de

mujeres del ejemplo 1.1 presentadas en el cuadro 2 para la cual

obtendremos los percentiles 25, 50 y 95.

Edad de mujeres sometidas a evaluación de


porcentaje de saturación de colesterol en bilis

Nº de
Edad (años) mujeres Porcentaje Nº acumulado
20 - 29 5 17% 5
30 - 39 6 21% 11
40 - 49 10 34% 21
50 - 59 5 17% 26
60 - 69 2 7% 28
70 - 79 1 3% 29
Total 29 100%

P25 = 29.5 + 10 (7.25 – 5) = 33.5 años


6

P50 = 39.5 + 10 (14.5 – 11) = 43 años


10

P95 = 59.5 + 10 (27.55 – 26) = 67.25 años


2
Otra manera de obtener las cuantilas es a partir del gráfico de frecuencias

acumuladas en porcentaje, para lo cual el gráfico debe ser hecho a escala para

facilitar la aproximación, como se ilustra en el gráfico 4 para el percentil 50, el

cual aproximadamente sería igual a 43 años.

Gráfico 4

Distribución acumulada de las mujeres


100%
según edad
90%
80%
% de mujeres

70%
60%
50%
40%
30%
20%
10%
0%
20 29 39 49 59 69 79 Total
43 Edad (años)

Fuente: Dawson, B y Trapo R. Bioestadística Médica. 2ª Edición, 1997 (36)

1.2.2. Medidas de dispersión

1. Amplitud o rango:

Mide la variación total indicando los valores mínimo y máximo del conjunto de

datos, por ejemplo para las edades de las mujeres en el ejemplo 1.1,

Rango: 23 – 74 años

2. Varianza y desviación estándar

Miden la dispersión de los datos indicando en cuanto tienden a variar los datos

con respecto a la media.


N N

∑ ( xi − µ )2 ∑x 2
i
σ2 = i
= 1
− µ 2 Varianza Poblaciona l
N N

n n

∑(x ∑x
2
i − x) 2 2
i −n x
S2 = i
= 1
Varianza muestral
n−1 n−1

Desviación estándar σ = σ2 S= S2
La varianza indica cuan representativa de los datos es la media aritmética, ya

que una varianza pequeña indica que los datos están cerca de la media, en

cambio una varianza grande indica que los datos están alejados de la media.

La varianza expresa la dispersión en unidades al cuadrado y la desviación

estándar indica la tendencia de dispersión alrededor de la media en las mismas

unidades de los datos.

Ejemplo 1.8. Los siguientes son los niveles de hemoglobina (g/100ml) de 10

niños que reciben tratamiento para anemia hemolítica:

9,1 ; 10,0 ; 11,4 ; 12,4 ; 9,8 ; 8,3 ; 9,9 ; 9,1 ; 7,5 ; 6,7

9,1 + 10,0 + ... + 6,7 94,2


x= = = 9,42 g / 100ml
10 10

9,1 2 + 10,0 2 + ... + 6,7 2 − 10(9,42) 2 913,42 − 887,364


S =
2
= = 2,895
9 9
Luego S = 1,70 g/100ml
Los niños tienen en promedio 9,42 g/100ml de hemoglobina y esta tiende a

variar en 1,7g/100ml respecto a la hemoglobina promedio.

S
Coeficiente de Variación: C .V . = x 100
x
Indica la variabilidad de los datos en unidades porcentuales de media.

Esta medida nos indica cuan grande o pequeña es la desviación estándar.

Se utiliza para comparar la variabilidad de 2 o más grupos de datos.

1.7
Por ejemplo para la hemoglobina de los niños C .V . = x 100 = 18%
9.42

Calculo de la varianza para datos agrupados


k k

∑ ( x i − x ) 2 ni ∑x
2
2
i ni − n x
S2 = i
= 1
Varianza muestral
n−1 n−1
Donde: K: Número de intervalos
Xi: Punto medio de cada intervalo
ni: Frecuencia simple para el intervalo

Ejemplo 1.9. La siguiente tabla muestra la distribución de edades de casos de

una cierta enfermedad del ejemplo 1.3 y cuadro 6

Edad (años) xi ni xi ni Xi2 ni


5 –14 9.5 5 47.5 451.25
15 – 24 19.5 10 195.0 3802.50
25 – 34 29.5 20 590.0 17405.00
35 – 44 39.5 22 869.0 34325.50
45 – 54 49.5 13 643.5 31853.25
55 – 64 59.5 5 297.5 17701.25
Total 75 2645.5 105538.75
2645.5
x= = 35.27 años
75

105538 .75 − 75( 35.27 )2


S =
2
= 165.42 S = 12.86 años
74

12.86
C .V . = x 100 = 36.5%
35.27

Los resultados nos indican que los pacientes en promedio tienen 35 años y

que sus edades tienden a dispersase en aproximadamente 13 años respecto

de la edad promedio, es decir, la dispersión de la edad es el 36,5% de la edad

promedio.

1.2.3. Medidas de forma

Indican la dirección en la dispersión de los datos respecto de su centro y

completan la descripción de las distribuciones de frecuencia.

Asimetría

Indica la deformación horizontal de las distribuciones de frecuencia con

respecto a la media aritmética. Para una distribución unimodal tenemos tres

situaciones:

a) La distribución es simétrica, en cuyo caso la media, mediana y moda

coinciden y las frecuencias simples para cada punto equidistante de la

media son iguales.


Mo = x = Me

Gráfico 5. Distribución simétrica

b) La distribución es asimétrica, es decir, los datos se concentran a uno de los

extremos y aparecen con poca frecuencia hacia el otro extremo.

Asimetría Negativa Asimetría Positiva

x Me Mo Mo Me x

Gráfico 6. Distribuciones asimétricas

3 ( x − Me )
Coeficiente de asimetría de Pearson: S kP =
S

Si SkP = 0, la distribución es simétrica

Si S kP < 1 , la distribución tiene una asimetría leve

Si 1 < S kP < 2 , la distribución tiene asimetría moderada

Si S kP > 2 , la distribución tiene una asimetría severa


Curtosis

Es una medida de la deformación vertical de una distribución de frecuencias, es

decir, nos indica el apuntamiento o achatamiento de la curva, lo cual está

relacionado con la dispersión de los datos.

Platicúrtica Mesocúrtica Leptocúrtica

Gráfico 7. Clasificación de distribuciones según curtosis

( x0.75 − x0.25 )
Coeficiente de curtosis: K=
2 ( x0.90 − x0.10 )

Disribución platicúrtica: k → 0 , es decir, los datos están ampliamente

esparcidos y la curva es aplanada.

Distribución Mesocúrtica: k → 0.25 , esto ocurre cuando los datos tienen una

dispersión moderada. Por ejemplo en el caso de la distribución normal

mesocúrtica K = 0.263

Distribución Leptocúrtica: k → 0.5 , esto ocurre cuando los datos están

concentrados en un intervalo estrecho, es decir, tienen una dispersión

pequeña.
PRACTICA DOMICILIARIA 1

1. Los siguientes datos son parte de los resultados de una investigación

acerca del reuso de aguas residuales y su impacto en los cultivos. Aquí se

presentan los datos recopilados para el logaritmo del coliforme fecal en el

agua de irrigación y la verdura para una muestra de 100 productos

agrícolas, los que fueron irrigados con agua de diferente calidad bacteriana.

Se indica también la procedencia, el tipo de crecimiento y la calificación de

cada producto para el consumo humano.

La codificación utilizada es:

Cuadro 7. Codificación de categorías


Variable Categoría Código
Cieneguilla (agua de río) 1
Procedencia San Juan (agua tratada) 2
(Proced) San Martín (agua residual) 3
Callao (agua residual) 4
Tipo de VBT (verdura bajo tierra) 1
Crecimiento VFT (verdura a flor de tierra) 2
(T.C.) VTA (verdura de tallo alto) 3
Calificación Aceptado 1
del producto Provisionalmente aceptado 2
(Calif-P) Rechazado 3
Fuente: Evaluación de Riesgos para la salud por el uso de aguas residuales en agricultura.
Anexo 3: Aspectos Microbiológicos. CEPIS-OPS. Lima, Perú. 1990.

Tabla 3. Data de la contaminación bacteriana y calificación de verduras


Caso Proced T.C. Logcfa logcfv Calif-P Caso Proced T.C. Logcfa logcfv Calif-P
1 1 1 1.30 0.47 1 51 3 2 7.56 0.79 2
2 2 1 5.48 2.20 3 52 3 2 8.10 2.24 3
3 3 1 7.70 2.20 3 53 3 2 8.20 4.72 3
4 3 1 7.60 0.48 1 54 3 2 7.70 2.60 3
5 3 1 7.60 0.30 1 55 3 2 8.20 5.20 3
6 3 1 8.20 1.76 3 56 3 2 8.10 0.66 1
7 3 1 8.10 0.30 1 57 3 2 7.60 2.17 3
8 3 1 7.56 0.92 2 58 3 2 8.13 0.95 1
9 3 1 8.10 2.78 3 59 3 2 8.13 4.11 3
10 3 1 7.70 2.90 3 60 3 2 7.70 2.75 3
11 3 1 8.10 2.45 3 61 3 2 8.13 4.11 3
Caso Proced T.C. Logcfa logcfv Calif-P Caso Proced T.C. Logcfa logcfv Calif-P
12 4 1 7.70 2.17 3 62 3 2 8.10 2.10 3
13 4 1 7.78 0.73 2 63 3 2 7.70 2.52 3
14 4 1 7.90 0.40 1 64 3 2 8.20 5.14 3
15 4 1 7.81 3.13 3 65 3 2 7.70 2.85 3
16 4 1 9.96 2.30 3 66 3 2 8.10 3.94 3
17 4 1 7.70 2.14 3 67 3 2 7.70 3.17 3
18 4 1 7.60 4.47 3 68 3 2 8.10 0.64 1
19 4 1 7.60 3.01 3 69 3 2 7.60 0.69 2
20 4 1 7.70 2.14 3 70 3 2 8.13 3.38 3
21 4 1 7.70 0.30 1 71 4 2 7.78 2.52 3
22 4 1 8.96 3.14 3 72 4 2 7.90 0.69 2
23 4 1 7.78 0.50 1 73 4 2 7.81 1.59 2
24 4 1 7.70 0.34 1 74 4 2 7.78 1.21 2
25 4 1 7.60 4.20 3 75 4 2 7.60 0.63 2
26 1 2 1.90 0.41 1 76 4 2 7.70 0.54 1
27 1 2 2.36 0.73 2 77 4 2 8.96 2.61 3
28 1 2 1.90 0.30 1 78 4 2 7.90 2.27 3
29 1 2 1.90 1.02 1 79 4 2 8.96 2.21 3
30 1 2 3.48 0.30 1 80 4 2 7.70 0.49 1
31 1 2 2.36 1.64 2 81 4 2 7.90 3.69 3
32 1 2 1.30 0.36 1 82 4 2 7.70 1.97 3
33 1 2 1.30 0.34 1 83 4 2 7.70 1.66 3
34 1 2 2.36 0.30 1 84 4 2 7.70 1.84 3
35 1 2 2.36 0.64 1 85 4 2 7.81 1.61 2
36 1 2 1.30 0.43 1 86 4 2 7.81 3.02 3
37 1 2 3.48 2.84 3 87 1 3 1.30 0.85 1
38 1 2 1.30 0.30 1 88 1 3 1.30 0.85 1
39 1 2 3.48 0.86 2 89 1 3 3.48 0.30 1
40 2 2 5.48 1.62 3 90 1 3 1.30 0.30 1
41 2 2 4.34 3.14 3 91 1 3 1.90 0.30 1
42 2 2 5.48 1.23 2 92 1 3 2.36 0.36 1
43 2 2 5.48 1.46 2 93 2 3 5.48 1.52 2
44 2 2 4.34 3.14 3 94 2 3 4.34 2.37 3
45 3 2 8.13 2.27 3 95 3 3 8.20 1.04 2
46 3 2 7.56 3.20 3 96 3 3 7.60 2.11 3
47 3 2 8.10 3.28 3 97 3 3 7.70 3.10 3
48 3 2 8.20 4.20 3 98 4 3 7.60 0.30 1
49 3 2 7.56 1.07 3 99 4 3 7.70 1.28 3
50 3 2 8.10 3.28 3 100 4 3 7.81 0.30 1
Fuente: Evaluación de Riesgos para la salud por el uso de aguas residuales en agricultura.
Anexo 3: Aspectos Microbiológicos. CEPIS-OPS. Lima, Perú. 1990

a) Obtener la distribución de frecuencia cada variable. Asígnele títulos.

b) Elaborar los siguientes gráficos:


- Histograma de frecuencias para logcfa y logcfv

- Gráfico de barras para procedencia

- Gráfico pastel para tipo de crecimiento

- Gráfico pastel para la calificación del producto

c) Obtener las medidas de resumen para las variables cuantitativas (mínimo,

máximo, cuartiles, media, desviación estándar, coeficiente de variación).

Interpretar los resultados.

d) Obtener las tablas de frecuencia bivariante para

- Procedencia y calificación del producto

- Tipo de crecimiento y procedencia de los productos.

e) Comparar el logcfv por tipo de crecimiento.

2. Los siguientes datos fueron obtenidos al aplicar una encuesta a una

muestra de personas a las que se les realizó una densitometría, con el

objeto de establecer la asociación de variables con la densidad de masa

ósea. Las variables consideradas fueron: Raza, Sexo, Edad, Contextura,

Ejercicio físico a la semana (ejercicio), Número de cigarrillos al día

(cigarrillos), Tratamiento con cortisona (Tcortisona), Ingesta de lácteos

(lácteos), densidad de masa ósea en g/cm² (DMO).

Persona Raza Sexo Edad Contextura Ejercicio Cigarrillos Tcortisona Lácteos DMO
1 Mestiza F 42 Delgada 2 2 No Mucho 0.79
2 Blanca F 36 Gruesa 0 1 No Poco 0.89
3 Negra F 28 Gruesa 4 2 si Mucho 1.12
4 Blanca M 51 Mediana 2 6 si Nada 0.73
5 Blanca F 47 Delgada 3 1 si Nada 0.69
6 Mestiza F 25 Delgada 1 2 No Poco 0.99
7 Negra M 53 Gruesa 1 0 si Poco 0.84
8 Mestiza F 44 Delgada 0 5 No Nada 0.74
9 Blanca F 70 Mediana 1 0 No Mucho 0.78
10 Blanca F 32 Gruesa 3 4 No Mucho 1.01
11 Blanca F 46 Delgada 4 4 si Poco 0.70
12 Mestiza M 48 mediana 2 0 si Nada 0.83
13 Mestiza F 26 Gruesa 1 2 No Nada 1.07
14 Blanca F 64 Delgada 1 5 si Poco 0.68
15 Negra F 71 Delgada 0 3 si Nada 0.71
16 Negra F 48 Delgada 0 1 si Poco 0.92
17 Blanca M 62 Gruesa 2 2 No Poco 0.77
18 Blanca F 55 Gruesa 1 1 si Mucho 0.84
19 Negra F 68 Mediana 1 0 No Mucho 0.93
20 Blanca M 73 Mediana 2 4 No Nada 0.72
21 Negra F 77 Delgada 0 2 No Poco 0.82
22 Blanca F 56 Delgada 0 5 si Poco 0.66
23 Blanca F 80 Delgada 1 6 si Nada 0.68
24 Blanca M 49 Mediana 3 0 No Poco 1.03
25 Blanca F 38 Gruesa 1 1 No Mucho 0.97
26 Mestiza F 64 Gruesa 3 1 si Mucho 0.81
27 Blanca F 45 Gruesa 3 0 si Poco 0.84
28 Negra M 82 Mediana 2 2 si Nada 0.78
29 Blanca F 31 Delgada 3 0 No Nada 1.04
30 Blanca F 67 Gruesa 1 1 No Nada 0.72

a) Obtener la distribución de frecuencia de raza, sexo, edad, contextura,

ejercicio semanal. Asígnele títulos.

b) Elaborar los siguientes gráficos:

- Histograma de frecuencias para edad

- Gráfico de barras para raza

- Gráfico pastel para sexo

- Gráfico pastel para contextura

- Gráfico de barras para ejercicio semanal

c) Obtener las medidas de resumen para las variables cuantitativas (mínimo,

máximo, cuartiles, media, desviación estándar, coeficiente de variación) .

Interpretar los resultados.

d) Comparar la edad entre hombres y mujeres.

e) Comparar la DMO por raza.


1.2.4. MEDICIÓN DE DATOS NOMINALES
Proporción

Una proporción es la comparación por cociente entre el número de elementos

de un subconjunto y el número de elementos del conjunto al que pertenece el

subconjunto. Indica que parte del todo es el subconjunto.

a
p=
a+b

175 casos de cáncer pulmonar


Ejemplo: p= = 0,09
1956 casos de todos los tipos de cáncer

Porcentaje

Un porcentaje es una proporción multiplicada por 100. Indica la parte en

unidades por ciento, esta medida es más fácil de asimilar y trasmitir que la

proporción, en el ejemplo anterior

El 9% de los casos de cáncer fueron de cáncer pulmonar.

Razón

Una razón es la comparación por cociente entre dos cifras de diferente o similar

a
naturaleza. R=
b

Sean las siguientes razones:

380 camas
R= = 4 camas / enfermera
95 enfermeras

Es un indicador de la magnitud de trabajo de las enfermeras

R = 10 hab / vivienda
A esta razón se suele denominar índice de hacinamiento, nos indica cuan

densa es la población por vivienda

20 cirujanos
R= = 1 cirujano / 2 int ernistas .
40 int ernistas

Esta razón nos indica la relación entre la cantidad de 2 clases de especialistas

en medicina.

R1 18 alumnos / docente
R= = = 1.8 ⇒ R = 180%
R2 10 alumnos / docente

Esta razón compara dos razones y nos indica que los docentes del grupo 1

tienen 80% más de intensidad de trabajo que los docentes del grupo 2, para la

interpretación a la razón la hemos expresado en unidades porcentuales del

denominador.

MEDICION EPIDEMIOLOGICA

TASA

Una tasa es una comparación por cociente entre un número de eventos

ocurridos en un tiempo y lugar dados y la población que estuvo expuesta al

riesgo de que le ocurrieran dichos eventos en la misma época y en ese mismo

lugar

Tasa = a x base
a+b

La tasa es la expresión numérica del riesgo al que estuvo sometida la

población.
Los datos que integran una tasa ocurrieron en un período anterior al actual y en

cierto modo permiten anticipar, con un determinado valor numérico, la

probabilidad de que exista ese riesgo para la población en períodos

inmediatos, particularmente si las condiciones de dicha población se mantienen

estables.

En Epidemiología, usualmente los eventos están constituidos por casos de

enfermedad o defunciones por diversas afecciones.

Las tasas están constituidas por tres elementos:

1) El numerador del cociente, que consiste en el número de veces que ocurrió

el evento o suceso en estudio.

2) El denominador del cociente que es la población expuesta al riesgo de que

le ocurra el fenómeno.

3) Una constante por la cual se multiplica el resultado del cociente. Debido a

que la división resulta en una cifra inferior a la unidad el resultado suele

multiplicarse por 100, 1.000, 10.000, o 100.000 para una mejor comprensión

y fácil lectura.

Tasas de uso frecuente

N º de defunciones ocurridas en
una región y año dado
Tasa anual bruta de mortalidad = x 1000
Estimación de la población a mitad de año
en la misma región y el mismo año

N º de defunciones niños menores de un año


ocurridas en una región y año dado
Tasa de mortalidad inf antil = x 1000
N º total de nacimientos vivos ocurridos en la
poblaciónen de la misma región y año dado
N º de nacimientos vivos ocurridos
en una región y año dado
Tasa anual bruta de natalidad = x 1000
Estimación de la población a mitad de año
en la misma región y el mismo año

N º de enfermos nuevos de una afección


aparecidos en una región y año dado
Tasa de incidencia = x 1000
Estimación de la población a mitad de año
en la misma región y el mismo año

N º de personas de una región que tienen


la enfermedad en un tiempo especificado
Pr evalencia = x 1000
Estimación de personas en la población
en la misma región y tiempo especificado

Ejemplo 1.10

Cuadro 8. Casos con calcificaciones pulmonares en dos poblaciones


con fábrica de asbestos, según distancia de los domicilios
a la respectiva fábrica

Población A Población B
Distancia Habitantes Habitantes
(Km) Nº % Casos Nº % Casos
0 – 0,9 1 531 13,8 279 5 438 9,1 462
1,0 – 1,9 1 904 17,2 69 4 489 7,5 117
2,0 – 2,9 2 599 23,5 141 10 351 17,4 802
3,0 – 3,9 4 672 42,2 2 36 994 62,0 37
4,0 y más 368 3,3 119 2 384 4,0 665
TOTAL 11 074 100,0 610 59 656 100,0 2083
Fuente: Centro Panamericano de Ecología Humana y Salud. Evaluación Epidemiológica
de riesgos causados por agentes químicos ambientales. Edición de 1985. México: OPS;
1985.

Con la información del cuadro obtenemos:

610
Tasa de A = x1000 = 55,1 casos de calcificaciones / 1000 habi tan tes
11074
2083
Tasa de B = x1000 = 34,9 casos de calcificaciones / 1000 habi tan tes
59656

Tasa de A 55,1
Al comparar por cociente R = x100 = x100 = 158%
Tasa de B 34,9

Lo que nos indica que los habitantes de la población A tienen un riesgo 58%

mayor al de la población B para tener calcificaciones pulmonares.

AJUSTE DE TASAS

Cuando dos poblaciones tienen diferente estructura de población no es

apropiado comparar las tasas globales ya que está comparación podría no ser

válida debido a éstas diferencias, lo que nos permite, además explicar las

razones de la diferencia y las posibles causas del mayor riesgo en una de las

poblaciones.

El método directo de ajuste de tasas plantea

1º Definir cuál población será sometida a las condiciones de la otra

(Usualmente a la población menor se le aplican las tasas específicas de la

mayor)

2º Con las tasas específicas de la población mayor se calculan los casos

esperados de la población menor y a partir de ellos se obtiene la nueva tasa

global como sigue:

Casos esperados = Población x tasa


Constante

Ejemplo: Casos esperados = 1531 x 85,0 = 130


1000
Cuadro 9. Tasas específicas de calcificaciones pulmonares
por distancias en dos poblaciones

Población A Población B
Distancia Habitantes Habitantes
(Km) Nº Casos Tasa Nº Casos Tasa
0 – 0,9 1 531 279 182,2 5 438 462 85,0
1,0 – 1,9 1 904 69 36,2 4 489 117 26,1
2,0 – 2,9 2 599 141 54,3 10 351 802 77,5
3,0 – 3,9 4 672 2 0,4 36 994 37 1,0
4,0 y más 368 119 323,4 2 384 665 278,9
TOTAL 11 074 610 55,1 59 656 2083 34,9
Fuente: Centro Panamericano de Ecología Humana y Salud. Evaluación
Epidemiológica de riesgos causados por agentes químicos ambientales. Edición
de 1985. México: OPS; 1985.

Cuadro 10. Casos esperados en población A,


bajo condiciones de la población B

Tasas Casos esperados en A


Distancia Población A especificas bajo condiciones de B
(Km) Habitantes de B

0 – 0,9 1 531 85,0 130


1,0 – 1,9 1 904 26,1 50
2,0 – 2,9 2 599 77,5 201
3,0 – 3,9 4 672 1,0 5
4,0 y más 368 278,9 103
TOTAL 11 074 489
Fuente: Centro Panamericano de Ecología Humana y Salud. Evaluación
Epidemiológica de riesgos causados por agentes químicos ambientales. Edición
de 1985. México: OPS; 1985.

Tasa ajustada = Suma de casos esperados x constante


Población

Ejemplo: Tasa ajustada = 489 x 1000 = 44,2


11074

Tasas iniciales Tasas corregidas


A B A(ajustada) B
55,1 34,9 44,2 34,9
La comparación inicial (55,1/34,9 = 1,58) nos estaría indicando que la

población A tiene un riesgo 58% mayor al de la población B para tener

calcificaciones pulmonares.

La comparación luego del ajuste (44,2/34,9 = 1,3) nos indica que si la población

A estuviera sometida a condiciones de exposición al asbesto iguales a las que

tiene B, el riesgo de tener calcificaciones pulmonares en A sería 30% mayor

que en la población B, lo cual se explicaría por la distribución de la población

según distancia a la fábrica de asbestos.

Riesgo relativo (RR)

El riesgo relativo de una enfermedad (RR), es la razón de incidencia en

personas expuestas a un factor con respecto a la incidencia en las personas no

expuestas.

El riesgo relativo puede calcularse sólo a partir de un estudio de cohorte o

prueba clínica en donde se identifica primero a un grupo de personas

expuestas a un factor y otro no expuesto, las que se evalúan durante un tiempo

para determinar que personas desarrollan la enfermedad

Estudios de cohorte – Incidencia acumulativa

Personas Expuestas No expuestas Total


Enfermos A1 A0 A
No enfermos N1 –A1 N0 - A0 N-A
Total N1 N0 N

A1 / N 1 R EXP
RR = =
A0 / N 0 R No Exp
Así para interpretar este coeficiente lo comparamos con la unidad, de manera

que

- Si RR = 1, nos indica que el factor de exposición no es un factor de

riesgo para la enfermedad, pues se tiene la misma incidencia o riesgo de

enfermedad para las personas expuestas que para las no expuestas.

- Si RR > 1, nos indica que el factor de exposición es un factor de riesgo

para la enfermedad, ya que para las personas expuestas se tiene mayor

incidencia de la enfermedad que para las personas no expuestas.

- Si RR < 1, nos indica que el factor de exposición es un factor de

protección para la enfermedad, ya que para las personas expuestas se

tiene menor incidencia de la enfermedad que para las no expuestas.

Estimación interválica

Para que podamos concluir, con certeza, que el factor considerado es un factor

de riesgo para la enfermedad, es necesario que el valor obtenido para el RR

sea significativamente mayor que 1, por ello para estar seguros de este

resultado se obtiene la estimación interválica al 95% de confianza para RR;

cuyos límites se calculan con la siguiente expresión:

N 1 − A1 N 0 − A 0
ln( RR ) ± 1.96 +
N1A1 N0 A0
L=e

L: es el límite de la estimación interválica


e = 2.7182 es el número neperiano

ln(RR): es el logaritmo natural del RR

Si el intervalo obtenido tiene límite inferior mayor que 1, entonces concluimos

que el factor considerado es un factor de riesgo para la enfermedad.

Si el intervalo obtenido tiene límite inferior menor que 1, entonces no podemos

concluir que el factor considerado sea un factor de riesgo, porque con 95% de

probabilidad se está estimando que es posible que RR = 1, es decir que haya

la misma incidencia para los expuestos que para los no expuestos.

Ejemplo 1.15

Asuma que de 100 individuos expuestos 20 desarrollaron la enfermedad. En

un grupo de 200 individuos no expuestos, 25 desarrollaron la enfermedad. Así

en un arreglo de 2x2 tenemos:

Individuos Expuestos No expuestos Total


Enfermos 20 25 45
No enfermos 80 175 255
Total 100 200 300

RR = (20/100) / (25/200) = 1.60

Este resultado nos indica que para los expuestos se tiene un 60% más de

incidencia de la enfermedad que para los no expuestos.

100 −20 200 −25


ln( 1.60 ) − 1.96 +
100 ( 20 ) 200 ( 25 )
Li = e = 0.935
100−20 200−25
ln(1.60 ) + 1.96 +
100 ( 20 ) 200 ( 25 )
Ls = e = 2.74

Luego el intervalo de confianza al 95% es: 0.935 – 2.74

Este resultado nos indica que no podemos concluir que el factor de exposición

sea un factor de riesgo, pues la diferencia encontrada no es significativa.

Odds Ratio (OR)

En estudios de caso-control, en los cuales los investigadores determinan el

número de controles, no es apropiado estimar las tasas de incidencia. No

obstante puede realizarse un cálculo de riesgo relativo, llamado Odds Ratio

(OR)

El Odds Ratio es el cociente entre la razón de expuestos a no expuestos en los

casos, y la razón de expuestos y no expuestos en los controles

Personas Expuestos No expuestos Total


Casos a b N1
Controles c d N0

a b axd
OR = =
c d b xc

Esta estimación será correcta si el grupo de control es seleccionado de manera

que refleja la distribución de exposición de la población.


Aquí también, para interpretar este coeficiente debemos compararlo con la

unidad, de manera que

- Si OR = 1, nos indica que el factor de exposición no es un factor de

riesgo para la enfermedad, pues la relación de expuestos a no expuesto

es la misma para casos y controles.

- Si OR > 1, nos indica que el factor de exposición es un factor de riesgo

para la enfermedad, ya que la proporción de casos que han sido

expuestos es mayor que la proporción de controles que han sido

expuestos.

- Si OR < 1, nos indica que el factor de exposición es un factor de

protección para la enfermedad, ya que aquí la porción de expuestos es

mayor en los controles que en los casos.

Estimación interválica

Para que podamos concluir, con certeza, que el factor considerado es un factor

de riesgo para la enfermedad, es necesario que el valor obtenido para el OR

sea significativamente mayor que 1, por ello para estar seguros de este

resultado se obtiene la estimación interválica al 95% de confianza para OR

1 1 1 1
ln( OR ) ± 1.96 + + +
L=e a b c d

donde

L: es el límite de la estimación interválica

e = 2.7182 : es el número neperiano

ln(OR): es el logaritmo natural del OR


Si el intervalo obtenido tiene límite inferior mayor que 1, entonces concluimos

que el factor considerado es un factor de riesgo para la enfermedad.

Si el intervalo obtenido tiene límite inferior menor que 1, entonces no podemos

concluir que el factor considerado sea un factor de riesgo, porque con 95% de

probabilidad se está estimando que es posible que OR = 1, es decir que haya

la misma proporción de expuestos en los casos y controles.

Ejemplo 1.16

En un estudio de casos-control de dieta con frituras y cáncer pancreático

(Norell et al 1986), los siguientes datos fueron obtenidos:

Cuadro 11. Exposición a dieta con frituras para casos y Controles

Dieta con No dieta con


Individuos frituras frituras Total
Casos 53 43 96
Controles 53 85 138
Total 106 128 234
Fuente: Ahlbom, a y Norell, s. Introduction to Modern Epidemiology. Second
Edition. Epidemiology REources Inc. 1990

OR = 53/43 = 1.98
53/85

Este resultado nos indica que hubo 98% más de exposición a la dieta con

frituras para los casos que para los controles, lo que probablemente influyó en

el desarrollo del cáncer.

Estimación interválica:

1 1 1 1
ln( 1.98 ) ± 1.96 + + +
Li = e 53 43 53 85
= 1.167
1 1 1 1
ln( 1.98 ) ± 1.96 + + +
LS = e 53 43 53 85
= 3.359

Luego el intervalo de confianza al 95% es: 1.167 – 3.359

Este resultado nos indica que podemos concluir que la dieta con frituras es un

factor de riesgo para el desarrollo de cáncer pancreático, pues la diferencia

encontrada es significativa.

Práctica domiciliaria 2

1. En un estudio para examinar la relación entre clase socio-económica y tipo

más frecuente de uso de tarjetas de crédito, se entrevistaron a 1500

usuarios de tarjetas de crédito y se obtuvo la información que aparece en la

tabla siguiente:

Clasificación Uso más frecuente de tarjeta de crédito


Socio-económica Entretenimiento Adquisición de bienes Total
Alta 36 39 75
Media alta 114 186 300
Media 174 426 600
Media baja 72 228 300
Baja 41 184 225
Total 437 1063 1500

a) Elabore un gráfico para comparar el uso de tarjeta de crédito según

clasificación socio-económica

b) ¿Quiénes son los mayores usuarios de tarjeta de crédito?

c) Analice y compare el uso de tarjeta de crédito para entretenimiento


2. A continuación aparecen las frecuencias porcentuales de concentración de

plomo en la sangre de los trabajadores de una fábrica de pinturas

examinados en 2007 y otro en 2017.

Plomo en la % de trabajadores
Sangre (µg/dl) 2007 2017
10 – 19 11 38
20 – 29 12 15
30 – 39 14 13
40 – 49 15 15
50 – 59 17 10
60 – 69 13 7
70 – 79 10 1
80 – 90 8 1
Nº trabajadores 280 325

a) ¿En cuál de los dos años tienden los trabajadores a presentar niveles

más bajos de plomo en la sangre?

b) Elabore un gráfico de frecuencias acumuladas para cada año.

c) Obtenga los percentiles 10 y 90 para cada año, compare e interprete.

d) Obtenga las media, coeficiente de variación, y coeficiente de asimetría

para cada año. Interprete.

e) Si plomo en la sangre mayor de 45 µg/dl es indicador de riesgo de

enfermedades respiratorias y daño cerebral, calcule la tasa de

trabajadores en riesgo para cada año. Interprete.

3. En un estudio realizado para evaluar el riesgo de infarto de miocardio (IM)

se sometieron a seguimiento un grupo de médicos, a quienes se les

administró aspirina o placebo, obteniéndose los siguientes resultados:

Médicos IM Sin IM Total


Tomaron Aspirina 139 10898 11037
Tomaron Placebo 239 10795 11034
Fuente: Dawson, B y Trapo R. Bioestadística Médica. 2ª Edición, Manual Moderno 1997 (28)
Obtenga el riesgo de infarto de miocardio por tomar aspirina. Interprete.

4. Compare e interprete las siguientes informaciones :

a) Para el año 2000 se obtuvo Tasa de mortalidad por 10000 hbt.


las tasas siguientes: Ciudad General Infantil
A 35 80
B 42 60

b) En un estudio de casos-control Antecedente familiar


para Artritis Reumatoide se Individuo Si No Total
obtuvo la siguiente información. Caso 95 55 150
Calcule el riesgo apropiado e Control 40 180 220
interprete.

c) Para el año 2000 se obtuvo las Tasa por 1000 horas-hombre


tasas siguientes: Empresa Productividad Accidentes
A 500 40
B 350 60

d) En un estudio de casos-control Consume agua potable


para Parasitosis se obtuvo la Individuo Si No Total
siguiente información. Calcule Caso 70 130 200
el riesgo apropiado e Control 180 70 250
interprete.

5. Con el objeto de evaluar el riesgo al que están expuestos los niños que

residen en Callao, con respecto a la contaminación por plomo, se ha

realizado la medición de los niveles de plomo en sangre para una muestra

de niños de la zona, obteniéndose los siguientes resultados:

Plomo Numero
(µg/dl) de niños
〈5.0 – 5.5] 40
〈5.5 – 6.0] 219
〈6.0 – 6.5] 286
〈6.5 – 7.0] 282
〈7.0 – 7.5] 206
〈7.5 – 8.0] 584
〈8.0 – 8.5] 343
〈8.5 – 9.0] 240
Total 2200

a) Elabore el histograma y polígono de frecuencias.

b) Obtenga la media, desviación estándar y coeficiente de variación.

Interprete

c) El riesgo de la población es evaluado: Bajo, si X0.90 ≤ 7.5; Moderado, si:

X0.90 >7.5; pero X0.50< 7.5 y Alto, si X0.50 ≥7.5. Según este criterio, evaluar

el riesgo de los niños del Callao.

d) Calcule el grado de asimetría de la distribución: Interprete.

e) Indique el porcentaje de niños para los que el nivel de plomo en sangre

excede a los 7.5 µg/dl

6. Considere los siguientes datos que comparan la mortalidad por cáncer en

dos países para el año 1986.

País A País B
Edad Población Población
(miles) Muertes (miles) Muertes
0–4 10541 494 18152 666
5 – 14 22431 667 33860 1165
15 – 24 23922 1287 39021 2115
25 – 34 21339 3696 42779 5604
35 – 44 18333 11198 33070 14991
45 – 54 15512 26180 22815 37800
55 – 64 10572 39071 22232 98805
65 – 74 6377 44328 17332 146803
+ 75 2643 31279 11836 161381
Total 131670 158200 241097 469330

a) Obtenga la tasa bruta de mortalidad para cada país, compare.

b) Calcule las tasas específicas de mortalidad por rango de edad. ¿Existe

alguna relación entre las tasas de mortalidad y la edad?


c) Calcule las tasas de mortalidad ajustadas para el país A, sujeto a las

condiciones del país B. Interprete.

7. En una compañía trabajan 200 obreros y 12 empleados. Luego de las

negociaciones con el Sindicato de trabajadores, la compañía otorgará un

incremento de 20% a los obreros y de 15% a los empleados. Los ingresos

mensuales en promedio son de S/. 1200 para los obreros y de S/. 1800 para

los empleados. Calcule usted, la cantidad de dinero que debe disponer la

compañía para hacer efectivo el aumento.

8. Un sociólogo desea comparar los grados de fertilidad de las mujeres de dos

grupos suburbanos de una ciudad. Seleccionó dos muestras al azar de 100

mujeres cuyas edades estaban entre los 50 y 60 años, en ambos grupos y

se registró el número de hijos que había tenido cada mujer.

Nº de hijos Nº mujeres Nº mujeres


Por mujer grupo A grupo B
0 6 0
1 14 3
2 18 8
3 22 18
4 19 30
5 11 19
6 5 15
7 2 5
8 3 2
Total 100 100

a) Complete el gráfico e interprete las tendencias sugeridas en éste.


35
Del grupo A
30
Del grupo B
25
20
15
10
5
0
0 1 2 3 4 5 6 7 8

b) Interprete las siguientes medidas de resumen y compare los grados de

fertilidad medidos por el número de hijos por mujer

Hijos por mujer para dos grupos suburbanos

Medida de
resumen Grupo A Grupo B
Media 3.2 4.3
Desv. Est. 3.4 2.3
Mediana 3 4
Percentil 90 5 6

También podría gustarte