0% encontró este documento útil (0 votos)

96 vistas45 páginas

Estadistica Descriptiva: 1.1. Organización de Datos

El documento describe los conceptos básicos de la estadística descriptiva, incluyendo la organización y resumen de datos. Explica cómo organizar los datos en tablas y gráficos, y cómo agruparlos en intervalos para describir mejor las características de los elementos bajo estudio. Proporciona un ejemplo de cómo agrupar datos de edad de mujeres en un estudio clínico en intervalos y representarlos en un histograma.

Cargado por

Diana Smith

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

96 vistas45 páginas

Estadistica Descriptiva: 1.1. Organización de Datos

Cargado por

Diana Smith

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

1.

ESTADISTICA DESCRIPTIVA

La estadística descriptiva se ocupa de la organización y resumen de datos para

la mejor descripción de los elementos bajo estudio según la o las

características de interés.

1.1. ORGANIZACIÓN DE DATOS

Para la descripción de un conjunto de datos el primer procedimiento consiste

en organizarlos presentándolos en un listado en forma ascendente y

agrupándolos para ser presentados en tablas y gráficos de frecuencias.

Ejemplo 1.1. El siguiente cuadro proporciona la edad y el porcentaje de

sobresaturación de bilis para una muestra de 31 varones y 29 mujeres en un

estudio sobre la formación de cálculos de colesterol en la vesícula.

Tabla 1. Edad y porcentaje de sobresaturación de colesterol en bilis

Varones Mujeres
% de % de
Sujeto Edad Sobresaturación Sujeto Edad Sobresaturación
1 23 40 1 40 65
2 31 86 2 33 86
3 58 111 3 49 76
4 25 86 4 44 89
5 63 106 5 63 142
6 43 66 6 27 58
7 67 123 7 23 98
8 48 90 8 56 146
9 29 112 9 41 80
10 26 52 10 30 66
11 64 88 11 38 52
12 55 137 12 23 35
13 31 88 13 35 55
14 20 80 14 50 127
15 23 65 15 47 77
16 43 79 16 36 91
17 27 87 17 74 128
18 63 56 18 53 75
19 59 110 19 41 82
20 53 106 20 25 69
21 66 110 21 57 84
22 48 78 22 42 116
23 27 80 23 49 73
24 32 47 24 60 87
25 62 74 25 23 46
26 36 58 26 48 107
27 29 88 27 44 84
28 27 73 28 37 120
29 65 118 29 57 123
30 42 67
31 60 57
Fuente: Dawson, B y Trapo R. Bioestadística Médica. 2ª Edición, 1997 (36)

Para describir la edad de las personas en el estudio ordenamos las edades

ascendentemente:

Tabla 2. Arreglo ordenado según edad

Varones Mujeres
% de % de
Orden Sujeto Edad Sobresaturación Orden Sujeto Edad Sobresaturación
1 14 20 80 1 7 23 98
2 1 23 40 2 12 23 35
3 15 23 65 3 25 23 46
4 4 25 86 4 20 25 69
5 10 26 52 5 6 27 58
6 17 27 87 6 10 30 66
7 23 27 80 7 2 33 86
8 28 27 73 8 13 35 55
9 9 29 112 9 16 36 91
10 27 29 88 10 28 37 120
11 2 31 86 11 11 38 52
12 13 31 88 12 1 40 65
13 24 32 47 13 9 41 80
14 26 36 58 14 19 41 82
15 30 42 67 15 22 42 116
16 6 43 66 16 4 44 89
17 16 43 79 17 27 44 84
18 8 48 90 18 15 47 77
19 22 48 78 19 26 48 107
20 20 53 106 20 3 49 76
21 12 55 137 21 23 49 73
22 3 58 111 22 14 50 127
23 19 59 110 23 18 53 75
24 31 60 57 24 8 56 146
25 25 62 74 25 21 57 84
26 5 63 106 26 29 57 123
27 18 63 56 27 24 60 87
28 11 64 88 28 5 63 142
29 29 65 118 29 17 74 128
30 21 66 110
31 7 67 123
Fuente: Dawson, B y Trapo R. Bioestadística Médica. 2ª Edición, 1997 (36)

El arreglo nos permite apreciar que el grupo de varones tienen edades

ligeramente menores que las mujeres, pero para tener información de la

tendencia de la edad para los varones y mujeres es mejor organizar los datos

en forma agrupada.

Agrupamiento de datos

Según la cantidad y tipo de datos estos se pueden agrupar de dos maneras:

a) Agrupamiento por intervalos: Para datos cuantitativos

b) Por conteo individual: Según categoría o valor diferente

a) Agrupamiento por intervalos

Para la mejor descripción o lectura de las edades, las agrupamos y

presentamos en una tabla de frecuencias por intervalos e ilustramos con un

gráfico de histograma de frecuencias como sigue

Criterios para determinar los intervalos

1) Determinar los valores mínimo y máximo

2) Calcular la amplitud o rango de los datos R = Máx – Mín

3) Determinar el número de intervalos (k) o la longitud de cada intervalo

(c), como:

K = R/c o c = R/k

Sugerencias:

a) 5 ≤ k ≤ 10

b) Todos los intervalos deben ser de igual longitud y de preferencia determinar

c como una medida que nos proporcione intervalos de fácil lectura

precisa para la determinación del número de intervalos (k), generalmente

tratamos de no tener muchos, ni muy pocos. La razón básica para agrupar los

datos es revelar la forma de la distribución utilizando un número moderado de

intervalos.

En el cuadro 2 se presenta el agrupamiento de las mujeres por intervalos de

edad en la muestra del ejemplo 1.1

Cuadro2: Edad de mujeres sometidas a evaluación de

porcentaje de saturación de colesterol en bilis
Nº de
Edad (años) mujeres Porcentaje
20 - 29 5 17%
30 - 39 6 21%
40 - 49 10 34%
50 - 59 5 17%
60 - 69 2 7%
70 - 79 1 3%
Total 29 100%
Fuente: Dawson, B y Trapo R. Bioestadística Médica. 2ª Edición, 1997 (36)
Histograma de frecuencias

Se utiliza para representar frecuencias simples (absolutas o porcentuales) de

datos continuos. Se construye dibujando un eje en el cual se indican los

intervalos de clase, luego se dibuja una serie de rectángulos que tienen como

base los intervalos de clase y cuyas superficies deben ser proporcionales a las

frecuencias correspondientes a cada intervalo. En el caso de que todos los

intervalos sean de igual amplitud, la altura de cada rectángulo será

proporcional a la frecuencia. Si los intervalos tienen amplitudes diferentes,

entonces, las alturas son llamadas densidad de frecuencia.

Gráfico 1

Edad de mujeres sometidas a evaluación de

porcentaje de saturación de colesterol en bilis

12
10
Nº de mujeres

8
6
4
2
0
10 - 19 20 - 29 30 - 39 40 - 49 50 - 59 60 - 69 70 - 79 80 - 89
Edad (años)

Fuente: Dawson, B y Trapo R. Bioestadística Médica. 2ª Edición, 1997 (36)

Polígono de frecuencias

Es un gráfico que se utiliza, también, para representar las frecuencias simples

(absolutas o porcentuales) de datos continuos. Se construye uniendo con

segmentos los puntos correspondientes a los puntos medios y densidad de

frecuencias de cada intervalo (Ver gráfico 1)

El polígono de frecuencias nos permite visualizar la forma de la distribución y

en base a ella poder ajustarla a un modelo de probabilidad. Para el uso

descriptivo con este gráfico podemos representar, simultáneamente, la

distribución de frecuencias de dos o más subconjuntos de datos para efectos

de comparación de tendencias de agrupamiento; en este caso se sugiere

graficar las frecuencias porcentuales para evitar distorsiones debido a la

diferencia en los tamaños de muestra.

b) Agrupamiento por conteo individual

Si los datos son categóricos o de tipo discreto los ordenamos en cuadros de

frecuencia por conteo individual e ilustramos con un gráfico de barras. Por

ejemplo en el cuadro 3 se presenta el agrupamiento de pacientes según etapa

de gravedad de la enfermedad.

Cuadro 3. Etapa de la enfermedad de pacientes con cáncer colorrectal

Etapa de la Número de
enfermedad pacientes Porcentaje
1 3 3%
2 28 24%
3 63 55%
4 21 18%
Total 115 100%
Fuente: Dawson, B y Trapo R. Bioestadística Médica. 2ª Edición, 1997 (31)

Gráfico de barras

Se utiliza para representar frecuencias simples (absolutas o porcentuales) de

datos categóricos o discretos. Se construye dibujando un eje en el cual se

indican las categorías o valores diferentes de la variable, luego se dibujan

barras de igual ancho y cuyas longitudes deben ser proporcionales a las

frecuencias correspondientes a cada categoría.

Gráfico 2

Etapa de la enfermedad de pacientes

con cáncer colorrectal
Número de pacientes

70
60
50
40
30
20
10
0
1 2 3 4
Etapa de la enfermedad

Fuente: Dawson, B y Trapo R. Bioestadística Médica. 2ª Edición, 1997 (31)

Datos Nominales

Si los datos son nominales ilustramos sus frecuencias con un gráfico pastel, el

cual tiene por objeto mostrar que parte del todo es cada categoría, como se

aprecia en el cuadro 4 y gráfico 3.

Cuadro 4. Frecuencia de bacteriemia en pacientes hipotéticos

Con cultivos de catéter

Nº de
Bacteriemia pacientes %
Si 4 20%
No 16 80%
Total 20 100%
Fuente: Dawson, B y Trapo R. Bioestadística Médica. 2ª Edición, 1997 (28)
Gráfico 3

Frecuencia de bacteriemia en pacientes

hipotéticos con cultivos de catéter

20%

Si
No

80%

Fuente: Dawson, B y Trapo R. Bioestadística Médica. 2ª Edición, Manual Moderno 1997 (28)

1.2. MEDIDAS DE RESUMEN

Llamadas también medidas descriptivas por que tienen por objeto describir la

naturaleza de la característica en estudio.

MEDICIÓN DE DATOS NUMÉRICOS

Medidas de Posición. Indican los valores que tienden a tomar los datos

- Media aritmética o promedio

- Moda

- Cuantilas: Mediana, cuartiles, deciles, percentiles

Medidas de dispersión. Indican la variabilidad de los datos

- Amplitud o rango

- Varianza y desviación estándar

- Coeficiente de Variación

Medidas de forma. Indican la deformación horizontal y vertical de los datos.

- Asimetría

- Curtosis

MEDICIÓN DE DATOS NOMINALES

- Proporciones y Porcentajes

- Razones

- Medición epidemiológica:

* Tasa. Ajuste de tasas

* Riesgo Relativo (RR)

* Odds Ratio (OR)

1.2.1 Medidas de Posición

Media aritmética o promedio

∑x i
Media Poblaciona l : µ = i =1
; N = Número de elementos en la población
N

∑x i
Media Muestral : x= i =1
; n = Número de elementos en la muestra
n
Es una medida de posición que proporciona el valor que tiende a tomar la

variable para la mayoría de los elementos en la población o muestra, según

corresponda.

Por su forma de cálculo describe el centro de los datos en el sentido de un

centro de gravedad o punto de equilibrio, por ello se la considera como una

medida de tendencia central.

Obtención de la media para datos agrupados

k k

∑x i ni ∑x i ni
Media Poblacional : µ = i =1
; Media Muestral : x= i =1
;
N n
x i = Valor individual o punto medio del intervalo
k = Número de valores diferentes o de intervalos

Obtención de la media para agrupamiento por conteo individual

Ejemplo 1.2. En el cuadro 4 se presenta el agrupamiento de 64 familias según

el número de hijos por familia y los productos del número de hijos (xi) por el

número de familias (ni) para cada valor individual de la variable

Cuadro 5. Número de hijos por familia

nº de hijos nº de familias
(xi) (ni) xi ni
0 4 0
1 8 8
2 11 22
3 15 45
4 10 40
5 13 65
6 3 18
TOTAL 64 198

Fuente: Datos simulados por el autor

Media x = 198 = 3.09 ≅ 3 hijos por familia
64

Luego las familias tienen en promedio 3 hijos por familia.

Obtención de la media para agrupamiento por intervalo

Ejemplo 1.3. En el cuadro 6 se presenta los intervalos de la edad y sus puntos

medios de cada intervalo, así como la frecuencia respectiva para una muestra

de 75 pacientes de una cierta enfermedad.

Cuadro 6. Edad de pacientes

Edad xi * ni xi ni
5 – 14 9.5 5 47.5
15 – 24 19.5 10 195.0
25 – 34 29.5 20 590.0
35 – 44 39.5 22 869.0
45 – 54 49.5 13 643.5
55 – 64 59.5 5 297.5
TOTAL 75 2642.5
Fuente: Datos simulados por el autor

Media: x = 2642.5 = 35.23 años

Las personas en la muestra tienen en promedio 35 años, es decir, la mayoría

de las personas en la muestra tienen alrededor de 35 años.

Moda

Es el valor que ocurre con mayor frecuencia, por lo que se considera que

representa a los datos por ser el valor más probable

Ejemplo 1.4. De los cuadros 4 y 5 obtenemos:

o Para el número de hijos por familia: Moda = 3 hijos

o Para la edad: 35 – 44 años es el intervalo modal

Moda = 39.5 años *

* En el manejo de datos, para efectos descriptivos, se asume que los

datos que toman medida en un intervalo dado se distribuyen

uniformemente dentro de él estableciéndose una relación de

proporcionalidad entre el tamaño del intervalo y la frecuencia

correspondiente, de esta manera el punto medio representa a los datos en

el intervalo.

CUANTILAS O CUANTILES

Cuantila : X p

Es un valor en el recorrido de la variable en el que se acumula una porción p de

datos con medida máxima el valor de la cuantila, es decir, un porcentaje (p x

100) de datos toma medidas menores o iguales a X p y el resto toma medida

mayores o iguales a X p.

A las cuantilas se las denomina de manera particular según la porción

acumulada a la izquierda del punto.

Mediana: Me = X0.50

Indica que la mitad o el 50% de los datos toma medidas menor o igual a Me y

el otro 50% toma medida mayor o igual a Me, por ejemplo

Edad mediana = 36 años

Indica que el 50% de las personas tienen edad máxima 36 años y que el otro

50% tiene mínimo 36 años.

Cuartiles : q1 = X0.25 ; q2 = X0.50 ; q3 = X0.75

Son puntos que dividen al conjunto de datos en 4 partes, esto es en cada parte

se acumula 25% de los datos, por ejemplo

q1 = X0.25 = 27 años ; q3 = X0.75 = 45 años

Indica que el 25% de las personas tienen hasta 27 años y que el 75% tiene a

Déciles: d1 = X0.10 ; d2 = X0.20 ; ........ ; d9 = X0.90

Son puntos que dividen al conjunto de datos en 10 partes donde cada una

acumula el 10% de datos, por ejemplo

d1 = X0.10 = 17 años ; d8 = X0.80 = 52 años

Indica que el 10% de las personas tienen a lo más 17 años y que el 80% tiene

máximo 52 años, también podemos deducir que el 70% de las personas tiene

edad entre los 17 y 52 años.

Percentiles: P1 = X0.01 ; P2 = X0.02 ; ........ ; P99 = X0.99

Son puntos que dividen al conjunto de datos en 100 partes cada una con 1%

de los datos, por ejemplo

P20 = X0.20 = 23 años ; P95 = X0.95 = 57 años

Indica que el 20% de las personas tiene máximo 20 años y que sólo el 5% de

las personas tiene más de 57 años, también podemos deducir que el 75% de

las personas tienen edad entre los 23 y 57 años.

OBTENCIÓN DE LAS CUANTILAS

a) Para datos no agrupados. Luego de ordenar los datos ascendentemente

se determina la cuantila p como el valor que ocupa el lugar r

X p = X(r)

Donde: r=nxp (si r no es entero redondear al entero superior)

Ejemplo 1.5. Consideremos nuevamente los datos del ejemplo 1.1 ordenados

según edad (Tabla 2)

Arreglo ordenado según edad

Para la variable Edad

Varones Mujeres

X0.50 = 43 años (np = 15.5) X0-50 = 42 años (np = 14.5)

X0.25 = 27 años (np = 7.75) X0.25 = 35 años (np = 7.25)

X0.90 = 64 años (np = 27.9) X0.90 = 60 años (np = 26.1)

b) Para datos agrupados

1) Agrupamiento por conteo individual. Datos agrupados ascendentemente

xi ni Ni
X1 n1 N1
X2 n2 N2
... ... ...
Xj-1 nj-1 Nj-1
xj nj Nj
... ... ...
xk nk Nk

Utilizamos las frecuencias acumuladas para determinar la cuantila, de esta

manera

Xp = xj Si y sólo si Nj ≥ np y Nj-1 < np

Ejemplo 1.6. Del ejemplo 1.4. y del cuadro 4 obtenemos las frecuencias

acumuladas con las que determinamos los percentiles 10, 25, 50, 75, 90 y 95
nº de nº de Nº acumulado
hijos familias de familias
(xi) (ni) Ni
0 4 4
1 8 12
2 11 23
3 15 38
4 10 48
5 13 61
6 3 64
Total 64

P10 = X0.10 = 1 pues np = 0.10 x 64 = 6.4

P25 = X0.25 = 2 pues np = 0.25 x 64 = 16

P50 = X0.50 = 3 pues np = 0.50 x 64 = 32

P75 = X0.75 = 4 pues np = 0.75 x 64 = 48

P90 = X0.90 = 5 pues np = 0.90 x 64 = 57.6

P95 = X0.95 = 5 pues np = 0.95 x 64 = 60.8

2) Datos agrupados por intervalos: Consideramos las frecuencias simples

(ni) y las frecuencias acumuladas (Ni).

Intervalos ni Ni
L1I – L1s n1 N1
L2I – L2s n2 N2
.......... ... ...
Lj-1 I – L1j-1 s nj-1 Nj-1
LjI – Ljs nj Nj
......... ... ...
L1I – L1s nk Nk

1) Se determina el intervalo que contiene a la cuantila Xp como eIntervalo j:

LjI – Ljs Si y sólo si Nj ≥ np y Nj-1 < np

2) X p = L jI + c
(np − N )j −1
, donde
nj
c: Amplitud del intervalo j

LjI: Frontera de clase del intervalo j (el punto medio entre los extremos

consecutivos para intervalos discretos) o límite inferior para intervalos

continuos.

Ejemplo 1.7. Consideremos la distribución de la edad de la muestra de

mujeres del ejemplo 1.1 presentadas en el cuadro 2 para la cual

obtendremos los percentiles 25, 50 y 95.

Edad de mujeres sometidas a evaluación de

porcentaje de saturación de colesterol en bilis

Nº de
Edad (años) mujeres Porcentaje Nº acumulado
20 - 29 5 17% 5
30 - 39 6 21% 11
40 - 49 10 34% 21
50 - 59 5 17% 26
60 - 69 2 7% 28
70 - 79 1 3% 29
Total 29 100%

P25 = 29.5 + 10 (7.25 – 5) = 33.5 años

P50 = 39.5 + 10 (14.5 – 11) = 43 años

P95 = 59.5 + 10 (27.55 – 26) = 67.25 años

2
Otra manera de obtener las cuantilas es a partir del gráfico de frecuencias

acumuladas en porcentaje, para lo cual el gráfico debe ser hecho a escala para

facilitar la aproximación, como se ilustra en el gráfico 4 para el percentil 50, el

cual aproximadamente sería igual a 43 años.

Gráfico 4

Distribución acumulada de las mujeres

100%
según edad
90%
80%
% de mujeres

70%
60%
50%
40%
30%
20%
10%
0%
20 29 39 49 59 69 79 Total
43 Edad (años)

Fuente: Dawson, B y Trapo R. Bioestadística Médica. 2ª Edición, 1997 (36)

1.2.2. Medidas de dispersión

1. Amplitud o rango:

Mide la variación total indicando los valores mínimo y máximo del conjunto de

datos, por ejemplo para las edades de las mujeres en el ejemplo 1.1,

Rango: 23 – 74 años

2. Varianza y desviación estándar

Miden la dispersión de los datos indicando en cuanto tienden a variar los datos

con respecto a la media.

N N

∑ ( xi − µ )2 ∑x 2
i
σ2 = i
= 1
− µ 2 Varianza Poblaciona l
N N

n n

∑(x ∑x
2
i − x) 2 2
i −n x
S2 = i
= 1
Varianza muestral
n−1 n−1

Desviación estándar σ = σ2 S= S2
La varianza indica cuan representativa de los datos es la media aritmética, ya

que una varianza pequeña indica que los datos están cerca de la media, en

cambio una varianza grande indica que los datos están alejados de la media.

La varianza expresa la dispersión en unidades al cuadrado y la desviación

estándar indica la tendencia de dispersión alrededor de la media en las mismas

unidades de los datos.

Ejemplo 1.8. Los siguientes son los niveles de hemoglobina (g/100ml) de 10

niños que reciben tratamiento para anemia hemolítica:

9,1 ; 10,0 ; 11,4 ; 12,4 ; 9,8 ; 8,3 ; 9,9 ; 9,1 ; 7,5 ; 6,7

9,1 + 10,0 + ... + 6,7 94,2

x= = = 9,42 g / 100ml
10 10

9,1 2 + 10,0 2 + ... + 6,7 2 − 10(9,42) 2 913,42 − 887,364

S =
2
= = 2,895
9 9
Luego S = 1,70 g/100ml
Los niños tienen en promedio 9,42 g/100ml de hemoglobina y esta tiende a

variar en 1,7g/100ml respecto a la hemoglobina promedio.

S
Coeficiente de Variación: C .V . = x 100
x
Indica la variabilidad de los datos en unidades porcentuales de media.

Esta medida nos indica cuan grande o pequeña es la desviación estándar.

Se utiliza para comparar la variabilidad de 2 o más grupos de datos.

1.7
Por ejemplo para la hemoglobina de los niños C .V . = x 100 = 18%
9.42

Calculo de la varianza para datos agrupados

k k

∑ ( x i − x ) 2 ni ∑x
2
2
i ni − n x
S2 = i
= 1
Varianza muestral
n−1 n−1
Donde: K: Número de intervalos
Xi: Punto medio de cada intervalo
ni: Frecuencia simple para el intervalo

Ejemplo 1.9. La siguiente tabla muestra la distribución de edades de casos de

una cierta enfermedad del ejemplo 1.3 y cuadro 6

Edad (años) xi ni xi ni Xi2 ni

5 –14 9.5 5 47.5 451.25
15 – 24 19.5 10 195.0 3802.50
25 – 34 29.5 20 590.0 17405.00
35 – 44 39.5 22 869.0 34325.50
45 – 54 49.5 13 643.5 31853.25
55 – 64 59.5 5 297.5 17701.25
Total 75 2645.5 105538.75
2645.5
x= = 35.27 años
75

105538 .75 − 75( 35.27 )2

S =
2
= 165.42 S = 12.86 años
74

12.86
C .V . = x 100 = 36.5%
35.27

Los resultados nos indican que los pacientes en promedio tienen 35 años y

que sus edades tienden a dispersase en aproximadamente 13 años respecto

de la edad promedio, es decir, la dispersión de la edad es el 36,5% de la edad

promedio.

1.2.3. Medidas de forma

Indican la dirección en la dispersión de los datos respecto de su centro y

completan la descripción de las distribuciones de frecuencia.

Asimetría

Indica la deformación horizontal de las distribuciones de frecuencia con

respecto a la media aritmética. Para una distribución unimodal tenemos tres

situaciones:

a) La distribución es simétrica, en cuyo caso la media, mediana y moda

coinciden y las frecuencias simples para cada punto equidistante de la

media son iguales.

Mo = x = Me

Gráfico 5. Distribución simétrica

b) La distribución es asimétrica, es decir, los datos se concentran a uno de los

extremos y aparecen con poca frecuencia hacia el otro extremo.

Asimetría Negativa Asimetría Positiva

x Me Mo Mo Me x

Gráfico 6. Distribuciones asimétricas

3 ( x − Me )
Coeficiente de asimetría de Pearson: S kP =
S

Si SkP = 0, la distribución es simétrica

Si S kP < 1 , la distribución tiene una asimetría leve

Si 1 < S kP < 2 , la distribución tiene asimetría moderada

Si S kP > 2 , la distribución tiene una asimetría severa

Curtosis

Es una medida de la deformación vertical de una distribución de frecuencias, es

decir, nos indica el apuntamiento o achatamiento de la curva, lo cual está

relacionado con la dispersión de los datos.

Platicúrtica Mesocúrtica Leptocúrtica

Gráfico 7. Clasificación de distribuciones según curtosis

( x0.75 − x0.25 )
Coeficiente de curtosis: K=
2 ( x0.90 − x0.10 )

Disribución platicúrtica: k → 0 , es decir, los datos están ampliamente

esparcidos y la curva es aplanada.

Distribución Mesocúrtica: k → 0.25 , esto ocurre cuando los datos tienen una

dispersión moderada. Por ejemplo en el caso de la distribución normal

mesocúrtica K = 0.263

Distribución Leptocúrtica: k → 0.5 , esto ocurre cuando los datos están

concentrados en un intervalo estrecho, es decir, tienen una dispersión

pequeña.
PRACTICA DOMICILIARIA 1

1. Los siguientes datos son parte de los resultados de una investigación

acerca del reuso de aguas residuales y su impacto en los cultivos. Aquí se

presentan los datos recopilados para el logaritmo del coliforme fecal en el

agua de irrigación y la verdura para una muestra de 100 productos

agrícolas, los que fueron irrigados con agua de diferente calidad bacteriana.

Se indica también la procedencia, el tipo de crecimiento y la calificación de

cada producto para el consumo humano.

La codificación utilizada es:

Cuadro 7. Codificación de categorías

Variable Categoría Código
Cieneguilla (agua de río) 1
Procedencia San Juan (agua tratada) 2
(Proced) San Martín (agua residual) 3
Callao (agua residual) 4
Tipo de VBT (verdura bajo tierra) 1
Crecimiento VFT (verdura a flor de tierra) 2
(T.C.) VTA (verdura de tallo alto) 3
Calificación Aceptado 1
del producto Provisionalmente aceptado 2
(Calif-P) Rechazado 3
Fuente: Evaluación de Riesgos para la salud por el uso de aguas residuales en agricultura.
Anexo 3: Aspectos Microbiológicos. CEPIS-OPS. Lima, Perú. 1990.

Tabla 3. Data de la contaminación bacteriana y calificación de verduras

Caso Proced T.C. Logcfa logcfv Calif-P Caso Proced T.C. Logcfa logcfv Calif-P
1 1 1 1.30 0.47 1 51 3 2 7.56 0.79 2
2 2 1 5.48 2.20 3 52 3 2 8.10 2.24 3
3 3 1 7.70 2.20 3 53 3 2 8.20 4.72 3
4 3 1 7.60 0.48 1 54 3 2 7.70 2.60 3
5 3 1 7.60 0.30 1 55 3 2 8.20 5.20 3
6 3 1 8.20 1.76 3 56 3 2 8.10 0.66 1
7 3 1 8.10 0.30 1 57 3 2 7.60 2.17 3
8 3 1 7.56 0.92 2 58 3 2 8.13 0.95 1
9 3 1 8.10 2.78 3 59 3 2 8.13 4.11 3
10 3 1 7.70 2.90 3 60 3 2 7.70 2.75 3
11 3 1 8.10 2.45 3 61 3 2 8.13 4.11 3
Caso Proced T.C. Logcfa logcfv Calif-P Caso Proced T.C. Logcfa logcfv Calif-P
12 4 1 7.70 2.17 3 62 3 2 8.10 2.10 3
13 4 1 7.78 0.73 2 63 3 2 7.70 2.52 3
14 4 1 7.90 0.40 1 64 3 2 8.20 5.14 3
15 4 1 7.81 3.13 3 65 3 2 7.70 2.85 3
16 4 1 9.96 2.30 3 66 3 2 8.10 3.94 3
17 4 1 7.70 2.14 3 67 3 2 7.70 3.17 3
18 4 1 7.60 4.47 3 68 3 2 8.10 0.64 1
19 4 1 7.60 3.01 3 69 3 2 7.60 0.69 2
20 4 1 7.70 2.14 3 70 3 2 8.13 3.38 3
21 4 1 7.70 0.30 1 71 4 2 7.78 2.52 3
22 4 1 8.96 3.14 3 72 4 2 7.90 0.69 2
23 4 1 7.78 0.50 1 73 4 2 7.81 1.59 2
24 4 1 7.70 0.34 1 74 4 2 7.78 1.21 2
25 4 1 7.60 4.20 3 75 4 2 7.60 0.63 2
26 1 2 1.90 0.41 1 76 4 2 7.70 0.54 1
27 1 2 2.36 0.73 2 77 4 2 8.96 2.61 3
28 1 2 1.90 0.30 1 78 4 2 7.90 2.27 3
29 1 2 1.90 1.02 1 79 4 2 8.96 2.21 3
30 1 2 3.48 0.30 1 80 4 2 7.70 0.49 1
31 1 2 2.36 1.64 2 81 4 2 7.90 3.69 3
32 1 2 1.30 0.36 1 82 4 2 7.70 1.97 3
33 1 2 1.30 0.34 1 83 4 2 7.70 1.66 3
34 1 2 2.36 0.30 1 84 4 2 7.70 1.84 3
35 1 2 2.36 0.64 1 85 4 2 7.81 1.61 2
36 1 2 1.30 0.43 1 86 4 2 7.81 3.02 3
37 1 2 3.48 2.84 3 87 1 3 1.30 0.85 1
38 1 2 1.30 0.30 1 88 1 3 1.30 0.85 1
39 1 2 3.48 0.86 2 89 1 3 3.48 0.30 1
40 2 2 5.48 1.62 3 90 1 3 1.30 0.30 1
41 2 2 4.34 3.14 3 91 1 3 1.90 0.30 1
42 2 2 5.48 1.23 2 92 1 3 2.36 0.36 1
43 2 2 5.48 1.46 2 93 2 3 5.48 1.52 2
44 2 2 4.34 3.14 3 94 2 3 4.34 2.37 3
45 3 2 8.13 2.27 3 95 3 3 8.20 1.04 2
46 3 2 7.56 3.20 3 96 3 3 7.60 2.11 3
47 3 2 8.10 3.28 3 97 3 3 7.70 3.10 3
48 3 2 8.20 4.20 3 98 4 3 7.60 0.30 1
49 3 2 7.56 1.07 3 99 4 3 7.70 1.28 3
50 3 2 8.10 3.28 3 100 4 3 7.81 0.30 1
Fuente: Evaluación de Riesgos para la salud por el uso de aguas residuales en agricultura.
Anexo 3: Aspectos Microbiológicos. CEPIS-OPS. Lima, Perú. 1990

a) Obtener la distribución de frecuencia cada variable. Asígnele títulos.

b) Elaborar los siguientes gráficos:

- Histograma de frecuencias para logcfa y logcfv

- Gráfico de barras para procedencia

- Gráfico pastel para tipo de crecimiento

- Gráfico pastel para la calificación del producto

c) Obtener las medidas de resumen para las variables cuantitativas (mínimo,

máximo, cuartiles, media, desviación estándar, coeficiente de variación).

Interpretar los resultados.

d) Obtener las tablas de frecuencia bivariante para

- Procedencia y calificación del producto

- Tipo de crecimiento y procedencia de los productos.

e) Comparar el logcfv por tipo de crecimiento.

2. Los siguientes datos fueron obtenidos al aplicar una encuesta a una

muestra de personas a las que se les realizó una densitometría, con el

objeto de establecer la asociación de variables con la densidad de masa

ósea. Las variables consideradas fueron: Raza, Sexo, Edad, Contextura,

Ejercicio físico a la semana (ejercicio), Número de cigarrillos al día

(cigarrillos), Tratamiento con cortisona (Tcortisona), Ingesta de lácteos

(lácteos), densidad de masa ósea en g/cm² (DMO).

Persona Raza Sexo Edad Contextura Ejercicio Cigarrillos Tcortisona Lácteos DMO
1 Mestiza F 42 Delgada 2 2 No Mucho 0.79
2 Blanca F 36 Gruesa 0 1 No Poco 0.89
3 Negra F 28 Gruesa 4 2 si Mucho 1.12
4 Blanca M 51 Mediana 2 6 si Nada 0.73
5 Blanca F 47 Delgada 3 1 si Nada 0.69
6 Mestiza F 25 Delgada 1 2 No Poco 0.99
7 Negra M 53 Gruesa 1 0 si Poco 0.84
8 Mestiza F 44 Delgada 0 5 No Nada 0.74
9 Blanca F 70 Mediana 1 0 No Mucho 0.78
10 Blanca F 32 Gruesa 3 4 No Mucho 1.01
11 Blanca F 46 Delgada 4 4 si Poco 0.70
12 Mestiza M 48 mediana 2 0 si Nada 0.83
13 Mestiza F 26 Gruesa 1 2 No Nada 1.07
14 Blanca F 64 Delgada 1 5 si Poco 0.68
15 Negra F 71 Delgada 0 3 si Nada 0.71
16 Negra F 48 Delgada 0 1 si Poco 0.92
17 Blanca M 62 Gruesa 2 2 No Poco 0.77
18 Blanca F 55 Gruesa 1 1 si Mucho 0.84
19 Negra F 68 Mediana 1 0 No Mucho 0.93
20 Blanca M 73 Mediana 2 4 No Nada 0.72
21 Negra F 77 Delgada 0 2 No Poco 0.82
22 Blanca F 56 Delgada 0 5 si Poco 0.66
23 Blanca F 80 Delgada 1 6 si Nada 0.68
24 Blanca M 49 Mediana 3 0 No Poco 1.03
25 Blanca F 38 Gruesa 1 1 No Mucho 0.97
26 Mestiza F 64 Gruesa 3 1 si Mucho 0.81
27 Blanca F 45 Gruesa 3 0 si Poco 0.84
28 Negra M 82 Mediana 2 2 si Nada 0.78
29 Blanca F 31 Delgada 3 0 No Nada 1.04
30 Blanca F 67 Gruesa 1 1 No Nada 0.72

a) Obtener la distribución de frecuencia de raza, sexo, edad, contextura,

ejercicio semanal. Asígnele títulos.

b) Elaborar los siguientes gráficos:

- Histograma de frecuencias para edad

- Gráfico de barras para raza

- Gráfico pastel para sexo

- Gráfico pastel para contextura

- Gráfico de barras para ejercicio semanal

c) Obtener las medidas de resumen para las variables cuantitativas (mínimo,

máximo, cuartiles, media, desviación estándar, coeficiente de variación) .

Interpretar los resultados.

d) Comparar la edad entre hombres y mujeres.

e) Comparar la DMO por raza.

1.2.4. MEDICIÓN DE DATOS NOMINALES
Proporción

Una proporción es la comparación por cociente entre el número de elementos

de un subconjunto y el número de elementos del conjunto al que pertenece el

subconjunto. Indica que parte del todo es el subconjunto.

a
p=
a+b

175 casos de cáncer pulmonar

Ejemplo: p= = 0,09
1956 casos de todos los tipos de cáncer

Porcentaje

Un porcentaje es una proporción multiplicada por 100. Indica la parte en

unidades por ciento, esta medida es más fácil de asimilar y trasmitir que la

proporción, en el ejemplo anterior

El 9% de los casos de cáncer fueron de cáncer pulmonar.

Razón

Una razón es la comparación por cociente entre dos cifras de diferente o similar

a
naturaleza. R=
b

Sean las siguientes razones:

380 camas
R= = 4 camas / enfermera
95 enfermeras

Es un indicador de la magnitud de trabajo de las enfermeras

R = 10 hab / vivienda
A esta razón se suele denominar índice de hacinamiento, nos indica cuan

densa es la población por vivienda

20 cirujanos
R= = 1 cirujano / 2 int ernistas .
40 int ernistas

Esta razón nos indica la relación entre la cantidad de 2 clases de especialistas

en medicina.

R1 18 alumnos / docente
R= = = 1.8 ⇒ R = 180%
R2 10 alumnos / docente

Esta razón compara dos razones y nos indica que los docentes del grupo 1

tienen 80% más de intensidad de trabajo que los docentes del grupo 2, para la

interpretación a la razón la hemos expresado en unidades porcentuales del

denominador.

MEDICION EPIDEMIOLOGICA

TASA

Una tasa es una comparación por cociente entre un número de eventos

ocurridos en un tiempo y lugar dados y la población que estuvo expuesta al

riesgo de que le ocurrieran dichos eventos en la misma época y en ese mismo

lugar

Tasa = a x base
a+b

La tasa es la expresión numérica del riesgo al que estuvo sometida la

población.
Los datos que integran una tasa ocurrieron en un período anterior al actual y en

cierto modo permiten anticipar, con un determinado valor numérico, la

probabilidad de que exista ese riesgo para la población en períodos

inmediatos, particularmente si las condiciones de dicha población se mantienen

estables.

En Epidemiología, usualmente los eventos están constituidos por casos de

enfermedad o defunciones por diversas afecciones.

Las tasas están constituidas por tres elementos:

1) El numerador del cociente, que consiste en el número de veces que ocurrió

el evento o suceso en estudio.

2) El denominador del cociente que es la población expuesta al riesgo de que

le ocurra el fenómeno.

3) Una constante por la cual se multiplica el resultado del cociente. Debido a

que la división resulta en una cifra inferior a la unidad el resultado suele

multiplicarse por 100, 1.000, 10.000, o 100.000 para una mejor comprensión

y fácil lectura.

Tasas de uso frecuente

N º de defunciones ocurridas en
una región y año dado
Tasa anual bruta de mortalidad = x 1000
Estimación de la población a mitad de año
en la misma región y el mismo año

N º de defunciones niños menores de un año

ocurridas en una región y año dado
Tasa de mortalidad inf antil = x 1000
N º total de nacimientos vivos ocurridos en la
poblaciónen de la misma región y año dado
N º de nacimientos vivos ocurridos
en una región y año dado
Tasa anual bruta de natalidad = x 1000
Estimación de la población a mitad de año
en la misma región y el mismo año

N º de enfermos nuevos de una afección

aparecidos en una región y año dado
Tasa de incidencia = x 1000
Estimación de la población a mitad de año
en la misma región y el mismo año

N º de personas de una región que tienen

la enfermedad en un tiempo especificado
Pr evalencia = x 1000
Estimación de personas en la población
en la misma región y tiempo especificado

Ejemplo 1.10

Cuadro 8. Casos con calcificaciones pulmonares en dos poblaciones

con fábrica de asbestos, según distancia de los domicilios
a la respectiva fábrica

Población A Población B
Distancia Habitantes Habitantes
(Km) Nº % Casos Nº % Casos
0 – 0,9 1 531 13,8 279 5 438 9,1 462
1,0 – 1,9 1 904 17,2 69 4 489 7,5 117
2,0 – 2,9 2 599 23,5 141 10 351 17,4 802
3,0 – 3,9 4 672 42,2 2 36 994 62,0 37
4,0 y más 368 3,3 119 2 384 4,0 665
TOTAL 11 074 100,0 610 59 656 100,0 2083
Fuente: Centro Panamericano de Ecología Humana y Salud. Evaluación Epidemiológica
de riesgos causados por agentes químicos ambientales. Edición de 1985. México: OPS;
1985.

Con la información del cuadro obtenemos:

610
Tasa de A = x1000 = 55,1 casos de calcificaciones / 1000 habi tan tes
11074
2083
Tasa de B = x1000 = 34,9 casos de calcificaciones / 1000 habi tan tes
59656

Tasa de A 55,1
Al comparar por cociente R = x100 = x100 = 158%
Tasa de B 34,9

Lo que nos indica que los habitantes de la población A tienen un riesgo 58%

mayor al de la población B para tener calcificaciones pulmonares.

AJUSTE DE TASAS

Cuando dos poblaciones tienen diferente estructura de población no es

apropiado comparar las tasas globales ya que está comparación podría no ser

válida debido a éstas diferencias, lo que nos permite, además explicar las

razones de la diferencia y las posibles causas del mayor riesgo en una de las

poblaciones.

El método directo de ajuste de tasas plantea

1º Definir cuál población será sometida a las condiciones de la otra

(Usualmente a la población menor se le aplican las tasas específicas de la

mayor)

2º Con las tasas específicas de la población mayor se calculan los casos

esperados de la población menor y a partir de ellos se obtiene la nueva tasa

global como sigue:

Casos esperados = Población x tasa

Constante

Ejemplo: Casos esperados = 1531 x 85,0 = 130

1000
Cuadro 9. Tasas específicas de calcificaciones pulmonares
por distancias en dos poblaciones

Población A Población B
Distancia Habitantes Habitantes
(Km) Nº Casos Tasa Nº Casos Tasa
0 – 0,9 1 531 279 182,2 5 438 462 85,0
1,0 – 1,9 1 904 69 36,2 4 489 117 26,1
2,0 – 2,9 2 599 141 54,3 10 351 802 77,5
3,0 – 3,9 4 672 2 0,4 36 994 37 1,0
4,0 y más 368 119 323,4 2 384 665 278,9
TOTAL 11 074 610 55,1 59 656 2083 34,9
Fuente: Centro Panamericano de Ecología Humana y Salud. Evaluación
Epidemiológica de riesgos causados por agentes químicos ambientales. Edición
de 1985. México: OPS; 1985.

Cuadro 10. Casos esperados en población A,

bajo condiciones de la población B

Tasas Casos esperados en A

Distancia Población A especificas bajo condiciones de B
(Km) Habitantes de B

0 – 0,9 1 531 85,0 130

1,0 – 1,9 1 904 26,1 50
2,0 – 2,9 2 599 77,5 201
3,0 – 3,9 4 672 1,0 5
4,0 y más 368 278,9 103
TOTAL 11 074 489
Fuente: Centro Panamericano de Ecología Humana y Salud. Evaluación
Epidemiológica de riesgos causados por agentes químicos ambientales. Edición
de 1985. México: OPS; 1985.

Tasa ajustada = Suma de casos esperados x constante

Población

Ejemplo: Tasa ajustada = 489 x 1000 = 44,2

11074

Tasas iniciales Tasas corregidas

A B A(ajustada) B
55,1 34,9 44,2 34,9
La comparación inicial (55,1/34,9 = 1,58) nos estaría indicando que la

población A tiene un riesgo 58% mayor al de la población B para tener

calcificaciones pulmonares.

La comparación luego del ajuste (44,2/34,9 = 1,3) nos indica que si la población

A estuviera sometida a condiciones de exposición al asbesto iguales a las que

tiene B, el riesgo de tener calcificaciones pulmonares en A sería 30% mayor

que en la población B, lo cual se explicaría por la distribución de la población

según distancia a la fábrica de asbestos.

Riesgo relativo (RR)

El riesgo relativo de una enfermedad (RR), es la razón de incidencia en

personas expuestas a un factor con respecto a la incidencia en las personas no

expuestas.

El riesgo relativo puede calcularse sólo a partir de un estudio de cohorte o

prueba clínica en donde se identifica primero a un grupo de personas

expuestas a un factor y otro no expuesto, las que se evalúan durante un tiempo

para determinar que personas desarrollan la enfermedad

Estudios de cohorte – Incidencia acumulativa

Personas Expuestas No expuestas Total

Enfermos A1 A0 A
No enfermos N1 –A1 N0 - A0 N-A
Total N1 N0 N

A1 / N 1 R EXP
RR = =
A0 / N 0 R No Exp
Así para interpretar este coeficiente lo comparamos con la unidad, de manera

que

- Si RR = 1, nos indica que el factor de exposición no es un factor de

riesgo para la enfermedad, pues se tiene la misma incidencia o riesgo de

enfermedad para las personas expuestas que para las no expuestas.

- Si RR > 1, nos indica que el factor de exposición es un factor de riesgo

para la enfermedad, ya que para las personas expuestas se tiene mayor

incidencia de la enfermedad que para las personas no expuestas.

- Si RR < 1, nos indica que el factor de exposición es un factor de

protección para la enfermedad, ya que para las personas expuestas se

tiene menor incidencia de la enfermedad que para las no expuestas.

Estimación interválica

Para que podamos concluir, con certeza, que el factor considerado es un factor

de riesgo para la enfermedad, es necesario que el valor obtenido para el RR

sea significativamente mayor que 1, por ello para estar seguros de este

resultado se obtiene la estimación interválica al 95% de confianza para RR;

cuyos límites se calculan con la siguiente expresión:

N 1 − A1 N 0 − A 0
ln( RR ) ± 1.96 +
N1A1 N0 A0
L=e

L: es el límite de la estimación interválica

e = 2.7182 es el número neperiano

ln(RR): es el logaritmo natural del RR

Si el intervalo obtenido tiene límite inferior mayor que 1, entonces concluimos

que el factor considerado es un factor de riesgo para la enfermedad.

Si el intervalo obtenido tiene límite inferior menor que 1, entonces no podemos

concluir que el factor considerado sea un factor de riesgo, porque con 95% de

probabilidad se está estimando que es posible que RR = 1, es decir que haya

la misma incidencia para los expuestos que para los no expuestos.

Ejemplo 1.15

Asuma que de 100 individuos expuestos 20 desarrollaron la enfermedad. En

un grupo de 200 individuos no expuestos, 25 desarrollaron la enfermedad. Así

en un arreglo de 2x2 tenemos:

Individuos Expuestos No expuestos Total

Enfermos 20 25 45
No enfermos 80 175 255
Total 100 200 300

RR = (20/100) / (25/200) = 1.60

Este resultado nos indica que para los expuestos se tiene un 60% más de

incidencia de la enfermedad que para los no expuestos.

100 −20 200 −25

ln( 1.60 ) − 1.96 +
100 ( 20 ) 200 ( 25 )
Li = e = 0.935
100−20 200−25
ln(1.60 ) + 1.96 +
100 ( 20 ) 200 ( 25 )
Ls = e = 2.74

Luego el intervalo de confianza al 95% es: 0.935 – 2.74

Este resultado nos indica que no podemos concluir que el factor de exposición

sea un factor de riesgo, pues la diferencia encontrada no es significativa.

Odds Ratio (OR)

En estudios de caso-control, en los cuales los investigadores determinan el

número de controles, no es apropiado estimar las tasas de incidencia. No

obstante puede realizarse un cálculo de riesgo relativo, llamado Odds Ratio

(OR)

El Odds Ratio es el cociente entre la razón de expuestos a no expuestos en los

casos, y la razón de expuestos y no expuestos en los controles

Personas Expuestos No expuestos Total

Casos a b N1
Controles c d N0

a b axd
OR = =
c d b xc

Esta estimación será correcta si el grupo de control es seleccionado de manera

que refleja la distribución de exposición de la población.

Aquí también, para interpretar este coeficiente debemos compararlo con la

unidad, de manera que

- Si OR = 1, nos indica que el factor de exposición no es un factor de

riesgo para la enfermedad, pues la relación de expuestos a no expuesto

es la misma para casos y controles.

- Si OR > 1, nos indica que el factor de exposición es un factor de riesgo

para la enfermedad, ya que la proporción de casos que han sido

expuestos es mayor que la proporción de controles que han sido

expuestos.

- Si OR < 1, nos indica que el factor de exposición es un factor de

protección para la enfermedad, ya que aquí la porción de expuestos es

mayor en los controles que en los casos.

Estimación interválica

Para que podamos concluir, con certeza, que el factor considerado es un factor

de riesgo para la enfermedad, es necesario que el valor obtenido para el OR

sea significativamente mayor que 1, por ello para estar seguros de este

resultado se obtiene la estimación interválica al 95% de confianza para OR

1 1 1 1
ln( OR ) ± 1.96 + + +
L=e a b c d

donde

L: es el límite de la estimación interválica

e = 2.7182 : es el número neperiano

ln(OR): es el logaritmo natural del OR

Si el intervalo obtenido tiene límite inferior mayor que 1, entonces concluimos

que el factor considerado es un factor de riesgo para la enfermedad.

Si el intervalo obtenido tiene límite inferior menor que 1, entonces no podemos

concluir que el factor considerado sea un factor de riesgo, porque con 95% de

probabilidad se está estimando que es posible que OR = 1, es decir que haya

la misma proporción de expuestos en los casos y controles.

Ejemplo 1.16

En un estudio de casos-control de dieta con frituras y cáncer pancreático

(Norell et al 1986), los siguientes datos fueron obtenidos:

Cuadro 11. Exposición a dieta con frituras para casos y Controles

Dieta con No dieta con

Individuos frituras frituras Total
Casos 53 43 96
Controles 53 85 138
Total 106 128 234
Fuente: Ahlbom, a y Norell, s. Introduction to Modern Epidemiology. Second
Edition. Epidemiology REources Inc. 1990

OR = 53/43 = 1.98
53/85

Este resultado nos indica que hubo 98% más de exposición a la dieta con

frituras para los casos que para los controles, lo que probablemente influyó en

el desarrollo del cáncer.

Estimación interválica:

1 1 1 1
ln( 1.98 ) ± 1.96 + + +
Li = e 53 43 53 85
= 1.167
1 1 1 1
ln( 1.98 ) ± 1.96 + + +
LS = e 53 43 53 85
= 3.359

Luego el intervalo de confianza al 95% es: 1.167 – 3.359

Este resultado nos indica que podemos concluir que la dieta con frituras es un

factor de riesgo para el desarrollo de cáncer pancreático, pues la diferencia

encontrada es significativa.

Práctica domiciliaria 2

1. En un estudio para examinar la relación entre clase socio-económica y tipo

más frecuente de uso de tarjetas de crédito, se entrevistaron a 1500

usuarios de tarjetas de crédito y se obtuvo la información que aparece en la

tabla siguiente:

Clasificación Uso más frecuente de tarjeta de crédito

Socio-económica Entretenimiento Adquisición de bienes Total
Alta 36 39 75
Media alta 114 186 300
Media 174 426 600
Media baja 72 228 300
Baja 41 184 225
Total 437 1063 1500

a) Elabore un gráfico para comparar el uso de tarjeta de crédito según

clasificación socio-económica

b) ¿Quiénes son los mayores usuarios de tarjeta de crédito?

c) Analice y compare el uso de tarjeta de crédito para entretenimiento

2. A continuación aparecen las frecuencias porcentuales de concentración de

plomo en la sangre de los trabajadores de una fábrica de pinturas

examinados en 2007 y otro en 2017.

Plomo en la % de trabajadores
Sangre (µg/dl) 2007 2017
10 – 19 11 38
20 – 29 12 15
30 – 39 14 13
40 – 49 15 15
50 – 59 17 10
60 – 69 13 7
70 – 79 10 1
80 – 90 8 1
Nº trabajadores 280 325

a) ¿En cuál de los dos años tienden los trabajadores a presentar niveles

más bajos de plomo en la sangre?

b) Elabore un gráfico de frecuencias acumuladas para cada año.

c) Obtenga los percentiles 10 y 90 para cada año, compare e interprete.

d) Obtenga las media, coeficiente de variación, y coeficiente de asimetría

para cada año. Interprete.

e) Si plomo en la sangre mayor de 45 µg/dl es indicador de riesgo de

enfermedades respiratorias y daño cerebral, calcule la tasa de

trabajadores en riesgo para cada año. Interprete.

3. En un estudio realizado para evaluar el riesgo de infarto de miocardio (IM)

se sometieron a seguimiento un grupo de médicos, a quienes se les

administró aspirina o placebo, obteniéndose los siguientes resultados:

Médicos IM Sin IM Total

Tomaron Aspirina 139 10898 11037
Tomaron Placebo 239 10795 11034
Fuente: Dawson, B y Trapo R. Bioestadística Médica. 2ª Edición, Manual Moderno 1997 (28)
Obtenga el riesgo de infarto de miocardio por tomar aspirina. Interprete.

4. Compare e interprete las siguientes informaciones :

a) Para el año 2000 se obtuvo Tasa de mortalidad por 10000 hbt.

las tasas siguientes: Ciudad General Infantil
A 35 80
B 42 60

b) En un estudio de casos-control Antecedente familiar

para Artritis Reumatoide se Individuo Si No Total
obtuvo la siguiente información. Caso 95 55 150
Calcule el riesgo apropiado e Control 40 180 220
interprete.

c) Para el año 2000 se obtuvo las Tasa por 1000 horas-hombre

tasas siguientes: Empresa Productividad Accidentes
A 500 40
B 350 60

d) En un estudio de casos-control Consume agua potable

para Parasitosis se obtuvo la Individuo Si No Total
siguiente información. Calcule Caso 70 130 200
el riesgo apropiado e Control 180 70 250
interprete.

5. Con el objeto de evaluar el riesgo al que están expuestos los niños que

residen en Callao, con respecto a la contaminación por plomo, se ha

realizado la medición de los niveles de plomo en sangre para una muestra

de niños de la zona, obteniéndose los siguientes resultados:

Plomo Numero
(µg/dl) de niños
〈5.0 – 5.5] 40
〈5.5 – 6.0] 219
〈6.0 – 6.5] 286
〈6.5 – 7.0] 282
〈7.0 – 7.5] 206
〈7.5 – 8.0] 584
〈8.0 – 8.5] 343
〈8.5 – 9.0] 240
Total 2200

a) Elabore el histograma y polígono de frecuencias.

b) Obtenga la media, desviación estándar y coeficiente de variación.

Interprete

c) El riesgo de la población es evaluado: Bajo, si X0.90 ≤ 7.5; Moderado, si:

X0.90 >7.5; pero X0.50< 7.5 y Alto, si X0.50 ≥7.5. Según este criterio, evaluar

el riesgo de los niños del Callao.

d) Calcule el grado de asimetría de la distribución: Interprete.

e) Indique el porcentaje de niños para los que el nivel de plomo en sangre

excede a los 7.5 µg/dl

6. Considere los siguientes datos que comparan la mortalidad por cáncer en

dos países para el año 1986.

País A País B
Edad Población Población
(miles) Muertes (miles) Muertes
0–4 10541 494 18152 666
5 – 14 22431 667 33860 1165
15 – 24 23922 1287 39021 2115
25 – 34 21339 3696 42779 5604
35 – 44 18333 11198 33070 14991
45 – 54 15512 26180 22815 37800
55 – 64 10572 39071 22232 98805
65 – 74 6377 44328 17332 146803
+ 75 2643 31279 11836 161381
Total 131670 158200 241097 469330

a) Obtenga la tasa bruta de mortalidad para cada país, compare.

b) Calcule las tasas específicas de mortalidad por rango de edad. ¿Existe

alguna relación entre las tasas de mortalidad y la edad?

c) Calcule las tasas de mortalidad ajustadas para el país A, sujeto a las

condiciones del país B. Interprete.

7. En una compañía trabajan 200 obreros y 12 empleados. Luego de las

negociaciones con el Sindicato de trabajadores, la compañía otorgará un

incremento de 20% a los obreros y de 15% a los empleados. Los ingresos

mensuales en promedio son de S/. 1200 para los obreros y de S/. 1800 para

los empleados. Calcule usted, la cantidad de dinero que debe disponer la

compañía para hacer efectivo el aumento.

8. Un sociólogo desea comparar los grados de fertilidad de las mujeres de dos

grupos suburbanos de una ciudad. Seleccionó dos muestras al azar de 100

mujeres cuyas edades estaban entre los 50 y 60 años, en ambos grupos y

se registró el número de hijos que había tenido cada mujer.

Nº de hijos Nº mujeres Nº mujeres

Por mujer grupo A grupo B
0 6 0
1 14 3
2 18 8
3 22 18
4 19 30
5 11 19
6 5 15
7 2 5
8 3 2
Total 100 100

a) Complete el gráfico e interprete las tendencias sugeridas en éste.

35
Del grupo A
30
Del grupo B
25
20
15
10
5
0
0 1 2 3 4 5 6 7 8

b) Interprete las siguientes medidas de resumen y compare los grados de

fertilidad medidos por el número de hijos por mujer

Hijos por mujer para dos grupos suburbanos

Medida de
resumen Grupo A Grupo B
Media 3.2 4.3
Desv. Est. 3.4 2.3
Mediana 3 4
Percentil 90 5 6

También podría gustarte

Clase 3
Aún no hay calificaciones
Clase 3
41 páginas
Distribución de Frecuencias.3
Aún no hay calificaciones
Distribución de Frecuencias.3
26 páginas
02 2013 Tabla de Frecuencias
Aún no hay calificaciones
02 2013 Tabla de Frecuencias
74 páginas
Lectura Estadistica Descriptiva
Aún no hay calificaciones
Lectura Estadistica Descriptiva
11 páginas
Bio Clase 1
Aún no hay calificaciones
Bio Clase 1
31 páginas
Unidad 3
Aún no hay calificaciones
Unidad 3
8 páginas
Guía de Intervalos y Gráficos
Aún no hay calificaciones
Guía de Intervalos y Gráficos
10 páginas
Semana 2 - Datos Cunatitativos
Aún no hay calificaciones
Semana 2 - Datos Cunatitativos
38 páginas
C7 - Medidas de Frecuencia
Aún no hay calificaciones
C7 - Medidas de Frecuencia
78 páginas
Análisis de Variables Cuantitativas en Bioestadística
Aún no hay calificaciones
Análisis de Variables Cuantitativas en Bioestadística
5 páginas
Sesion 03
Aún no hay calificaciones
Sesion 03
40 páginas
Gráficos y Estadísticas - Edited
Aún no hay calificaciones
Gráficos y Estadísticas - Edited
41 páginas
Guia #2 de Tablas de Frecuencias Estadistica I Grupo A
Aún no hay calificaciones
Guia #2 de Tablas de Frecuencias Estadistica I Grupo A
13 páginas
Intro & Estadística Descriptiva
Aún no hay calificaciones
Intro & Estadística Descriptiva
40 páginas
Tema 2 - Organizacion y Presentacion de Datos
Aún no hay calificaciones
Tema 2 - Organizacion y Presentacion de Datos
6 páginas
Organización y Distribución de Datos
Aún no hay calificaciones
Organización y Distribución de Datos
7 páginas
Distrib Frecuencia Unidimens VariableCuantitativa. 2024 1
Aún no hay calificaciones
Distrib Frecuencia Unidimens VariableCuantitativa. 2024 1
19 páginas
Estadística Descriptiva Tablas de Distribución de Frecuencias
100% (1)
Estadística Descriptiva Tablas de Distribución de Frecuencias
29 páginas
Clases de Variables Frecuencias y Ejemplos
Aún no hay calificaciones
Clases de Variables Frecuencias y Ejemplos
9 páginas
Clase Estadistica Descriptiva
Aún no hay calificaciones
Clase Estadistica Descriptiva
33 páginas
Unidad 2 - Organización de Datos y Medidas de Frecuencia en Epidemiología
Aún no hay calificaciones
Unidad 2 - Organización de Datos y Medidas de Frecuencia en Epidemiología
10 páginas
U1 - Semana 3 - Sesión 03 - Dist. Frecuencia - INTERVALO - EG - 2023
Aún no hay calificaciones
U1 - Semana 3 - Sesión 03 - Dist. Frecuencia - INTERVALO - EG - 2023
14 páginas
Capítulo 2. Resumen y Gráfica de Datos: Distribución de Frecuencias
Aún no hay calificaciones
Capítulo 2. Resumen y Gráfica de Datos: Distribución de Frecuencias
9 páginas
Variables Cuantitativas (Tablas de Frecuencia y Gráficas) Con Ejemplo Resuelto
Aún no hay calificaciones
Variables Cuantitativas (Tablas de Frecuencia y Gráficas) Con Ejemplo Resuelto
30 páginas
Tipos de Variables y Recolección de Datos
Aún no hay calificaciones
Tipos de Variables y Recolección de Datos
16 páginas
Documento 2 Estadistica
Aún no hay calificaciones
Documento 2 Estadistica
8 páginas
Conferencia Estadística Descriptiva
Aún no hay calificaciones
Conferencia Estadística Descriptiva
34 páginas
Descript Iva
Aún no hay calificaciones
Descript Iva
40 páginas
Cocepto de Estadistica
Aún no hay calificaciones
Cocepto de Estadistica
18 páginas
Histograma, Polígonos de Frecuencia, Ojivas
Aún no hay calificaciones
Histograma, Polígonos de Frecuencia, Ojivas
5 páginas
Técnicas Gráficas para Descripción de Datos
Aún no hay calificaciones
Técnicas Gráficas para Descripción de Datos
6 páginas
Definición de Estadística Completo2-1
100% (1)
Definición de Estadística Completo2-1
51 páginas
Tablas y Gráficos de Frecuencias Unidimensionales
Aún no hay calificaciones
Tablas y Gráficos de Frecuencias Unidimensionales
14 páginas
Distribución de Frecuencias para Docentes
Aún no hay calificaciones
Distribución de Frecuencias para Docentes
19 páginas
M2L3
Aún no hay calificaciones
M2L3
11 páginas
Gráficos Estadística.
Aún no hay calificaciones
Gráficos Estadística.
9 páginas
Clase de Estadística Unidad 1-2022
Aún no hay calificaciones
Clase de Estadística Unidad 1-2022
11 páginas
Estadística Descriptiva: Conceptos y Tablas
Aún no hay calificaciones
Estadística Descriptiva: Conceptos y Tablas
62 páginas
Gráficos Estadísticos: Tipos y Uso
Aún no hay calificaciones
Gráficos Estadísticos: Tipos y Uso
30 páginas
Manual de Bioestadística Esencial
Aún no hay calificaciones
Manual de Bioestadística Esencial
16 páginas
Clase 2 y 3 Distribucion de Frecuencias
Aún no hay calificaciones
Clase 2 y 3 Distribucion de Frecuencias
34 páginas
Pensamiento Científico - Matemáticas y Estadística
Aún no hay calificaciones
Pensamiento Científico - Matemáticas y Estadística
44 páginas
Antología Bioestadistica.
Aún no hay calificaciones
Antología Bioestadistica.
14 páginas
Unidad 3 RC 2025-1 Sicvi-J (1) - Organized
Aún no hay calificaciones
Unidad 3 RC 2025-1 Sicvi-J (1) - Organized
38 páginas
Estadística: Conceptos y Aplicaciones
Aún no hay calificaciones
Estadística: Conceptos y Aplicaciones
34 páginas
Tablas de Frecuencia y Agrupación
Aún no hay calificaciones
Tablas de Frecuencia y Agrupación
9 páginas
ACTIVIDAD ACADEMICA #04 para El 22.05.2022
Aún no hay calificaciones
ACTIVIDAD ACADEMICA #04 para El 22.05.2022
12 páginas
Unidad 2 Estadistica
Aún no hay calificaciones
Unidad 2 Estadistica
15 páginas
Unidad 1. Estadistica Descriptiva
Aún no hay calificaciones
Unidad 1. Estadistica Descriptiva
14 páginas
Estadistica Descriptiva
Aún no hay calificaciones
Estadistica Descriptiva
56 páginas
TEMA 2 Organizacion y Presentacion de Datos
Aún no hay calificaciones
TEMA 2 Organizacion y Presentacion de Datos
44 páginas
Estadistica
Aún no hay calificaciones
Estadistica
18 páginas
Tercera Clase Periodo 2023 - Tabla Frecuencia y Descriptivos
Aún no hay calificaciones
Tercera Clase Periodo 2023 - Tabla Frecuencia y Descriptivos
77 páginas
Medidas de Resumen
Aún no hay calificaciones
Medidas de Resumen
5 páginas
Estadísticas 1
Aún no hay calificaciones
Estadísticas 1
45 páginas
Tablas Estadísticas
Aún no hay calificaciones
Tablas Estadísticas
21 páginas
Resumen de Bioestadística Médica
Aún no hay calificaciones
Resumen de Bioestadística Médica
6 páginas
Teoria 2-Organización de Datos
Aún no hay calificaciones
Teoria 2-Organización de Datos
23 páginas
Seguridad en Instalaciones Eléctricas
Aún no hay calificaciones
Seguridad en Instalaciones Eléctricas
1 página
Punción Seca de Los Puntos Gatillo Miofasciales: Capítulo 11
Aún no hay calificaciones
Punción Seca de Los Puntos Gatillo Miofasciales: Capítulo 11
33 páginas
Parte Valiraciom
Aún no hay calificaciones
Parte Valiraciom
74 páginas
Policitemia Vera: Guía Clínica
Aún no hay calificaciones
Policitemia Vera: Guía Clínica
10 páginas
Cáncer gástrico: caso clínico y diagnóstico
Aún no hay calificaciones
Cáncer gástrico: caso clínico y diagnóstico
4 páginas
03cáncer Pulmonar
Aún no hay calificaciones
03cáncer Pulmonar
7 páginas
American Splendor (2003) de Shari Springer Berman Y Robert: Pulcini: Un Superhéroe Underground Con Cáncer
Aún no hay calificaciones
American Splendor (2003) de Shari Springer Berman Y Robert: Pulcini: Un Superhéroe Underground Con Cáncer
10 páginas
Autorizacion 276919546
Aún no hay calificaciones
Autorizacion 276919546
1 página
Cáncer de Piel: Tipos y Prevención
Aún no hay calificaciones
Cáncer de Piel: Tipos y Prevención
5 páginas
Marcadores Tumorales en Oncología
Aún no hay calificaciones
Marcadores Tumorales en Oncología
16 páginas
Características del Crecimiento Tumoral
Aún no hay calificaciones
Características del Crecimiento Tumoral
3 páginas
Guía de Enfermedades Mamarias
Aún no hay calificaciones
Guía de Enfermedades Mamarias
63 páginas
Registro Institucional de Cancer
Aún no hay calificaciones
Registro Institucional de Cancer
132 páginas
Reprogramacion de Metas Fisicas Proms 2025 - Red de Salud San Roman Ok
Aún no hay calificaciones
Reprogramacion de Metas Fisicas Proms 2025 - Red de Salud San Roman Ok
6 páginas
Antineoplasicos en Medicina Veterinaria
Aún no hay calificaciones
Antineoplasicos en Medicina Veterinaria
37 páginas
Diagnóstico de Tumores Óseos Comunes
Aún no hay calificaciones
Diagnóstico de Tumores Óseos Comunes
25 páginas
7a2 Nueva Medicina Germanica
Aún no hay calificaciones
7a2 Nueva Medicina Germanica
30 páginas
Diagnóstico y Tratamiento del Cáncer Infantil
Aún no hay calificaciones
Diagnóstico y Tratamiento del Cáncer Infantil
11 páginas
Unidad Académica Multidisciplinaria Matamoros
Aún no hay calificaciones
Unidad Académica Multidisciplinaria Matamoros
21 páginas
Ensayos Clinicos 2020
Aún no hay calificaciones
Ensayos Clinicos 2020
8 páginas
Neoplasias
Aún no hay calificaciones
Neoplasias
23 páginas
Introducción al cáncer colorrectal
Aún no hay calificaciones
Introducción al cáncer colorrectal
1 página
?? Jose Salgado - Su Señora Privada
Aún no hay calificaciones
?? Jose Salgado - Su Señora Privada
233 páginas
Evaluacion Final de Actividades de Alto Riesgo 2
Aún no hay calificaciones
Evaluacion Final de Actividades de Alto Riesgo 2
10 páginas
Cartel Informativo Sobre El Cáncer de Mamá
Aún no hay calificaciones
Cartel Informativo Sobre El Cáncer de Mamá
1 página
Cancer
Aún no hay calificaciones
Cancer
106 páginas
Nomenclatura de Neoplasias en Patología
Aún no hay calificaciones
Nomenclatura de Neoplasias en Patología
22 páginas
Presentación Tamizaje
Aún no hay calificaciones
Presentación Tamizaje
10 páginas
Informe Biologia Cancer
Aún no hay calificaciones
Informe Biologia Cancer
2 páginas
Mir 11 2021 Desgloses On
Aún no hay calificaciones
Mir 11 2021 Desgloses On
6 páginas
Peligros y Seguridad en Soldadura y Corte
Aún no hay calificaciones
Peligros y Seguridad en Soldadura y Corte
24 páginas
HTTPWWW - Saludcapital.gov - CoDSPCoves20201420156.20COVE20JulioPresentaciones9 Grupo QUINCY PDF
Aún no hay calificaciones
HTTPWWW - Saludcapital.gov - CoDSPCoves20201420156.20COVE20JulioPresentaciones9 Grupo QUINCY PDF
26 páginas
Carcinomas cutáneos: basocelular y espinocelular
Aún no hay calificaciones
Carcinomas cutáneos: basocelular y espinocelular
1 página
Cirugía Oncológica Veterinaria
Aún no hay calificaciones
Cirugía Oncológica Veterinaria
6 páginas

Estadistica Descriptiva: 1.1. Organización de Datos

Cargado por

Estadistica Descriptiva: 1.1. Organización de Datos

Cargado por

1.

La estadística descriptiva se ocupa de la organización y resumen de datos para

la mejor descripción de los elementos bajo estudio según la o las

1.1. ORGANIZACIÓN DE DATOS

Para la descripción de un conjunto de datos el primer procedimiento consiste

en organizarlos presentándolos en un listado en forma ascendente y

agrupándolos para ser presentados en tablas y gráficos de frecuencias.

Ejemplo 1.1. El siguiente cuadro proporciona la edad y el porcentaje de

sobresaturación de bilis para una muestra de 31 varones y 29 mujeres en un

estudio sobre la formación de cálculos de colesterol en la vesícula.

Tabla 1. Edad y porcentaje de sobresaturación de colesterol en bilis

Para describir la edad de las personas en el estudio ordenamos las edades

Tabla 2. Arreglo ordenado según edad

El arreglo nos permite apreciar que el grupo de varones tienen edades

ligeramente menores que las mujeres, pero para tener información de la

Según la cantidad y tipo de datos estos se pueden agrupar de dos maneras:

a) Agrupamiento por intervalos: Para datos cuantitativos

b) Por conteo individual: Según categoría o valor diferente

a) Agrupamiento por intervalos

Para la mejor descripción o lectura de las edades, las agrupamos y

presentamos en una tabla de frecuencias por intervalos e ilustramos con un

gráfico de histograma de frecuencias como sigue

Criterios para determinar los intervalos

1) Determinar los valores mínimo y máximo

2) Calcular la amplitud o rango de los datos R = Máx – Mín

b) Todos los intervalos deben ser de igual longitud y de preferencia determinar

c como una medida que nos proporcione intervalos de fácil lectura

Lo más importante es el criterio propio y el sentido común. No existe regla

precisa para la determinación del número de intervalos (k), generalmente

datos es revelar la forma de la distribución utilizando un número moderado de

En el cuadro 2 se presenta el agrupamiento de las mujeres por intervalos de

edad en la muestra del ejemplo 1.1

Cuadro2: Edad de mujeres sometidas a evaluación de

Se utiliza para representar frecuencias simples (absolutas o porcentuales) de

datos continuos. Se construye dibujando un eje en el cual se indican los

frecuencias correspondientes a cada intervalo. En el caso de que todos los

intervalos sean de igual amplitud, la altura de cada rectángulo será

proporcional a la frecuencia. Si los intervalos tienen amplitudes diferentes,

entonces, las alturas son llamadas densidad de frecuencia.

Edad de mujeres sometidas a evaluación de

Fuente: Dawson, B y Trapo R. Bioestadística Médica. 2ª Edición, 1997 (36)

Es un gráfico que se utiliza, también, para representar las frecuencias simples

(absolutas o porcentuales) de datos continuos. Se construye uniendo con

segmentos los puntos correspondientes a los puntos medios y densidad de

frecuencias de cada intervalo (Ver gráfico 1)

en base a ella poder ajustarla a un modelo de probabilidad. Para el uso

descriptivo con este gráfico podemos representar, simultáneamente, la

distribución de frecuencias de dos o más subconjuntos de datos para efectos

de comparación de tendencias de agrupamiento; en este caso se sugiere

graficar las frecuencias porcentuales para evitar distorsiones debido a la

diferencia en los tamaños de muestra.

b) Agrupamiento por conteo individual

Si los datos son categóricos o de tipo discreto los ordenamos en cuadros de

frecuencia por conteo individual e ilustramos con un gráfico de barras. Por

ejemplo en el cuadro 3 se presenta el agrupamiento de pacientes según etapa

Cuadro 3. Etapa de la enfermedad de pacientes con cáncer colorrectal

Se utiliza para representar frecuencias simples (absolutas o porcentuales) de

datos categóricos o discretos. Se construye dibujando un eje en el cual se

barras de igual ancho y cuyas longitudes deben ser proporcionales a las

frecuencias correspondientes a cada categoría.

Etapa de la enfermedad de pacientes

Fuente: Dawson, B y Trapo R. Bioestadística Médica. 2ª Edición, 1997 (31)

aprecia en el cuadro 4 y gráfico 3.

Cuadro 4. Frecuencia de bacteriemia en pacientes hipotéticos

Frecuencia de bacteriemia en pacientes

1.2. MEDIDAS DE RESUMEN

naturaleza de la característica en estudio.

MEDICIÓN DE DATOS NUMÉRICOS

- Media aritmética o promedio

- Cuantilas: Mediana, cuartiles, deciles, percentiles

Medidas de dispersión. Indican la variabilidad de los datos

- Varianza y desviación estándar

Medidas de forma. Indican la deformación horizontal y vertical de los datos.

MEDICIÓN DE DATOS NOMINALES

* Tasa. Ajuste de tasas

* Riesgo Relativo (RR)