0% encontró este documento útil (0 votos)
92 vistas33 páginas

Estadística Descriptiva: 1.1 Introducción

El documento presenta los conceptos básicos de la estadística descriptiva. Explica que la estadística descriptiva resume la información de un conjunto de datos de manera concisa mediante tablas, gráficos y estadísticas numéricas. Luego, presenta un ejemplo de datos experimentales sobre el cultivo de girasol que incluye variables como el diámetro del capítulo, la altura de la planta y el número de hojas. Finalmente, distingue entre variables cualitativas, que toman valores de categorías, y cuantitativas, que

Cargado por

r
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
92 vistas33 páginas

Estadística Descriptiva: 1.1 Introducción

El documento presenta los conceptos básicos de la estadística descriptiva. Explica que la estadística descriptiva resume la información de un conjunto de datos de manera concisa mediante tablas, gráficos y estadísticas numéricas. Luego, presenta un ejemplo de datos experimentales sobre el cultivo de girasol que incluye variables como el diámetro del capítulo, la altura de la planta y el número de hojas. Finalmente, distingue entre variables cualitativas, que toman valores de categorías, y cuantitativas, que

Cargado por

r
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

1.

ESTADÍSTICA DESCRIPTIVA

1.1 Introducción
El objetivo de la estadística descriptiva es resumir la información contenida en un conjunto de
datos, de la manera más concisa y completa posible. Esto puede hacerse mediante la construcción
de tablas y gráficos y el cálculo de ciertas características numéricas llamadas "estadísticas".

Veamos un ejemplo. A continuación se presentan los datos obtenidos para evaluar el efecto de la
aplicación de dos fertilizantes utilizados en el cultivo de girasol, sobre diferentes características de las
plantas. En una estación experimental agropecuaria, se eligieron al azar 30 plantas de cada uno de
dos lotes sembrados con la misma variedad pero tratados con diferentes fertilizantes. En cada planta
se registraron el número de hojas, el diámetro del capítulo (flor), la altura de la planta, el diámetro
del tallo y la calidad del llenado del capítulo a los 110 días de la siembra.

Tabla 1.1: Datos experimentales sobre el cultivo del girasol

Diámetro del Altura de Número Diámetro del


Planta Fertilizante Llenado
capítulo (cm) la planta (m) de hojas tallo (cm)
1 A 17.3 2.45 9 3.4 regular
2 A 17.9 2.59 13 2.4 bueno
3 A 14.1 2.37 10 2.4 bueno
4 A 17.6 2.51 11 2.3 malo
5 A 15.2 2.29 8 2.0 malo
6 A 19.0 2.47 9 2.4 regular
7 A 20.4 2.46 7 2.5 malo
8 A 15.7 2.54 12 3.6 regular
9 A 18.3 2.62 13 2.3 bueno
10 A 19.3 2.56 10 3.9 regular
11 A 21.0 2.64 11 3.5 bueno
12 A 16.5 2.46 9 4.0 malo
13 A 22.3 2.62 10 2.4 regular
14 A 23.7 2.76 12 5.1 regular
15 A 26.0 2.89 13 8.3 malo

Racca, Bottai, Ivancovich, Piskulic, Prunello, Allasia, Silva Quintana, Daurelio (2018). Problemas de Estadística aplicados a la Biología y la
Química. Capítulo 1. UNR Editora, Rosario.
8 Capítulo 1. Estadística descriptiva

16 A 20.9 2.64 11 2.5 malo


17 A 20.2 2.46 7 3.4 regular
18 A 19.9 2.75 12 5.0 malo
19 A 14.8 2.28 8 2.1 regular
20 A 18.7 2.46 8 2.5 regular
21 A 17.3 2.49 11 2.5 bueno
22 A 18.0 2.59 11 5.4 bueno
23 A 19.1 2.52 12 3.3 malo
24 A 19.6 2.57 11 3.1 malo
25 A 14.9 2.44 11 3.8 regular
26 A 14.5 2.53 13 3.8 bueno
27 A 13.3 2.26 8 2.1 bueno
28 A 10.8 2.12 6 2.2 malo
29 A 15.3 2.47 14 3.9 bueno
30 A 12.7 2.31 9 2.4 malo
31 B 18.9 2.46 12 2.3 bueno
32 B 22.0 2.54 11 2.4 bueno
33 B 21.7 2.40 8 2.3 bueno
34 B 20.0 2.42 9 3.1 regular
35 B 22.9 2.54 10 3.6 regular
36 B 20.9 2.40 9 2.1 regular
37 B 17.2 2.21 8 2.1 regular
38 B 19.9 2.39 9 2.3 bueno
39 B 25.5 2.61 10 3.6 bueno
40 B 20.0 2.50 11 3.5 bueno
41 B 21.2 2.59 13 2.4 bueno
42 B 18.5 2.27 7 2.3 bueno
43 B 23.6 2.58 10 3.9 bueno
44 B 25.7 2.71 12 3.9 malo
45 B 23.4 2.58 12 2.3 bueno
46 B 26.1 2.73 12 3.6 malo
47 B 24.5 2.53 8 3.6 regular
48 B 25.7 2.65 10 7.4 bueno
49 B 20.1 2.30 9 2.2 bueno
50 B 20.2 2.46 10 2.5 bueno
51 B 22.8 2.56 11 2.3 malo
52 B 24.0 2.72 14 3.8 regular
53 B 20.1 2.57 13 4.0 regular
54 B 17.5 2.14 5 2.2 regular
55 B 15.6 2.32 11 2.3 regular
56 B 12.1 2.08 7 2.3 bueno
57 B 18.0 2.25 7 2.3 bueno
58 B 17.4 2.33 9 2.5 malo
59 B 15.3 2.15 6 2.1 bueno
60 B 18.5 2.41 10 2.4 bueno

● Una unidad es el ítem sujeto a observación (una alícuota de una solución, un extendido de
sangre periférica, un animal, etc.).

● Cada unidad puede ser observada en relación con una o varias características. Una caracte-
rística que puede variar de unidad a unidad se denomina variable (concentración, densidad,
pH en el caso de una solución, porcentaje de eosinófilos en un extendido de sangre periférica,
peso, edad, sexo, etc. en un animal).
1.2 Clasificación de variables 9

● Las observaciones registradas de una o más variables conforman el conjunto de datos.


En nuestro ejemplo, la unidad es la planta, las variables son el número de hojas, el diámetro del
capítulo, la altura de la planta, el diámetro del tallo y el llenado del capítulo y el conjunto total de
datos es el brindado anteriormente.

1.2 Clasificación de variables


Un primer paso importante es reconocer las variables bajo estudio y determinar de qué tipo son:
cualitativas o cuantitativas.
Variables cualitativas, también llamadas categóricas, son aquellas no medibles numéricamente
(sexo, grupo sanguíneo, etc.). Cuando la variable en estudio es de este tipo, cada unidad observada
resulta incluida en una de dos o más categorías exhaustivas y mutuamente excluyentes.

En el ejemplo se estudió una variable cualitativa, el llenado del capítulo. Las categorías posibles
son: malo, regular y bueno. Estas pueden ser codificadas como malo = 1, regular = 2 y bueno = 3. La
suma, diferencia o promedio no tiene sentido en este caso.
Variables cuantitativas son aquellas que toman valores numéricos para los cuales tienen sentido
las operaciones aritméticas. Estas variables pueden ser discretas o continuas. Si la variable puede
asumir, teóricamente, cualquier valor de un intervalo se denomina continua en dicho intervalo y
si sólo puede tomar en él valores aislados, discreta.

En nuestro ejemplo, las variables cuantitativas son el número de hojas, el diámetro del capítulo,
la altura y el diámetro del tallo. La primera de ellas es discreta y las restantes continuas.
En la Figura 1.1 se presenta un esquema que resume la clasificación de variables ya vista.

Figura 1.1: Clasificación de las variables

VARIABLES

CUALITATIVAS CUANTITATIVAS

DISCRETAS CONTINUAS

1.3 Descripción de un conjunto de observaciones de una variable cualitativa


Presentaremos tres tipos de gráficos particularmente útiles para variables cualitativas: el de
sectores, el de barras y el diagrama de Pareto.

Gráfico de sectores
La construcción del gráfico de sectores consiste en diagramar un círculo que representa al 100 %
de las unidades. El mismo se divide en tantos sectores como categorías existan. El área de cada sector
es proporcional al porcentaje de unidades que pertenecen a la categoría que representa. En la Figura
1.2 se presenta el gráfico de sectores para calidad de llenado del capítulo.

Gráfico de barras
En el gráfico de barras se representa una barra para cada categoría. La longitud de cada una de
ellas es proporcional al porcentaje de unidades que pertenecen a la categoría y el ancho es el mismo
para todas. La Figura 1.3 muestra la utilización del gráfico de barras para representar el llenado con los
10 Capítulo 1. Estadística descriptiva

datos de cada tipo de fertilizante por separado. Esta información puede presentarse conjuntamente
en un gráfico de barras subdivididas o de barras adyacentes (Figura 1.4).

Figura 1.2: Distribución porcentual del llenado del capítulo

Bueno 43.3%
Malo 25%

Regular 31.7%

Figura 1.3: Distribución porcentual del llenado del capítulo según fertilizante

Fertilizante A Fertilizante B

Bueno Bueno

Regular Regular

Malo Malo

0 10 20 30 40 0 10 20 30 40 50 60
Porcentaje Porcentaje

Figura 1.4: Distribución porcentual del llenado según fertilizante

Fertilizante A Llenado
Malo
Regular
Bueno
Fertilizante B

0 10 20 30 40 50 60
Porcentaje

Diagrama de Pareto
El diagrama de Pareto es un tipo especial de gráfico de barras. La frecuencia de cada categoría
se representa en el eje vertical y las distintas categorías se indican en el eje horizontal en orden
descendente de acuerdo con el número de observaciones de cada una de ellas. Se suele agregar
un eje vertical derecho para representar el porcentaje de veces que se observó una categoría o las
1.4 Variables cuantitativas 11

que se encuentran a su izquierda (porcentaje acumulado). Una línea sobre el diagrama conecta los
porcentajes acumulados a través de las distintas categorías. Estos diagramas son muy útiles en los
programas de mejoramiento de calidad porque permiten enfocar la atención en los defectos más
frecuentes de un producto o proceso.
Veamos un ejemplo. Los errores en las pesadas pueden ser atribuidos a distintas causas: la
adsorción de la humedad en la superficie del recipiente de pesada (a); no permitir que los recipientes
se enfríen alcanzando la misma temperatura que la balanza antes de pesar (b) y un inadecuado
mantenimiento de las pesas (c). Con el fin de lograr un mejoramiento del proceso de pesada, un
laboratorio empleó diversos procedimientos para determinar la causa del error presente en 180
mediciones. Se encontraron las siguientes frecuencias para cada causa: (a) 81 casos (45 %), (b) 54 casos
(30 %) y (c) 27 casos (15 %). El 10 % restante corresponde a la categoría “otras” (d). La representación
de la distribución de las causas de error mediante un diagrama de Pareto se presenta en la Figura 1.5.
Podemos concluir, por ejemplo, que el 30 % de los errores observados son de tipo b y el 75 % de los
errores son de tipo a o de tipo b.

Figura 1.5: Distribución de las causas de los errores en las pesadas

180 ● 100

Frecuencia absoluta

144 80

Porcentaje
108 60


72 40

36 20

0 0
a b c d

1.4 Descripción de un conjunto de observaciones de una variable cuantitativa


1.4.1 Representaciones gráficas
Para variables cuantitativas los gráficos más comunes son el diagrama de puntos, el de tallo y
hoja, el de bastones, el histograma y el boxplot.

Diagrama de puntos

Sea x la variable altura de la planta, cuyos valores observados son: 2.45, 2.59, . . . , 2.28, . . . , 2.15,
2.41. Los mismos se simbolizan con x1 , x2 , ..., xi , ..., xn ; indicando el subíndice el orden de observación
del dato (xi será el valor de la variable x observado en la i-ésima unidad elegida, i = 1, 2, . . . , n; siendo
n el número total de datos obtenidos). Para este ejemplo se tiene n = 60, x1 = 2.45 m y x60 = 2.41 m.
El conjunto de datos x1 , x2 , ..., xi , ..., xn puede representarse en un diagrama de puntos. Este
permite en forma rápida visualizar la distribución de los datos sobre una escala real. Los valores de la
variable se indican sobre el eje de abscisas. Cada valor observado se marca con una cruz o un punto
arriba del número que le corresponde en el eje de abscisas. Si existen dos o más unidades con el
mismo valor, las cruces o puntos correspondientes se alinean en forma vertical. En el eje de ordenadas
se representa la frecuencia absoluta o número de veces que se presentó cada valor.
El diagrama de puntos resultante para la variable altura de la planta se muestra en la Figura 1.6.
12 Capítulo 1. Estadística descriptiva

Figura 1.6: Distribución de la altura de la planta


7
6
Frecuencia absoluta

5
4
3
2
1
0
2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9
Altura (m)

Diagrama de tallo y hoja


El gráfico de tallo y hoja, apropiado cuando el número de datos es relativamente pequeño, se
construye de la siguiente manera:

● En primera instancia, cada observación debe ser separada en un tallo y una hoja. Generalmente
la hoja está constituida por el último dígito y el tallo por los restantes (uno o más dígitos). Así,
para el valor 2.45 m el tallo es 2.4 y la hoja, 5.

● Luego se ordenan los tallos de menor a mayor en forma vertical, trazando una línea a la derecha
de ellos. Finalmente, se une cada hoja al tallo correspondiente, ordenándolas en sentido
creciente al alejarse del tallo.

La Figura 1.7 muestra el diagrama de tallo y hoja para la variable altura de la planta.

Figura 1.7: Distribución de la altura de la planta

20 8
21 245
22 156789
23 012379
24 001245666666779
25 01233444667788999
26 122445
27 12356
28 9

Unidad de la hoja: 0.01 m. Ejemplo: 20|8 representa 2.08 m

A partir de este gráfico se pueden observar ciertas características de la distribución. Si ubicamos


aproximadamente en el gráfico el valor central y por ese punto trazamos una recta horizontal, la
distribución se divide en dos partes cada una de las cuales es prácticamente imagen especular de la
otra. Diremos en este caso que la distribución es aproximadamente simétrica.
La Figura 1.8 presenta otras situaciones hipotéticas, mientras que la Figura 1.9 muestra los gráficos
resultantes al rotar 90º los diagramas anteriores e idealizarlos mediante una curva trazada sobre las
hojas. En el primero se observa una distribución simétrica con un único pico. En la idealización de la
situación 1, la distribución “se extiende” más hacia la derecha; en este caso diremos que es asimétrica
hacia la derecha. En el gráfico correspondiente a la situación 2 se visualiza el caso de una distribución
con dos picos. En el último gráfico se observa, comparativamente con el de nuestro ejemplo, menor
variabilidad de los datos. La nueva distribución resulta más concentrada alrededor del valor central.
1.4 Variables cuantitativas 13

Figura 1.8: Distintos tipos de distribuciones de la altura de la planta

a) Situación 1 b) Situación 2 c) Situación 3


20 24556677899 20 248 20
21 001123345566678899 21 002467 21 5
22 112234556789 22 0122334456789 22 56
23 0123679 23 2379 23 00123455667899
24 04569 24 014 24 00123345566666688779
25 3447 25 1245669 25 0122233444667788999
26 45 26 012334566778899 26 568
27 27 12445 27 6
28 9 28 1269 28

Unidad de la hoja: 0.01 m

Figura 1.9: Idealización de los diagramas de tallo y hoja luego de una rotación de 90º

Nuestro ejemplo Situación 1

Situación 2 Situación 3

2.1 2.3 2.5 2.7 2.9 2.1 2.3 2.5 2.7 2.9
Altura (m)

Cuando se desean comparar dos distribuciones relacionadas, es útil construir un diagrama de


tallo y hoja con un tallo común. En la Figura 1.10 se presenta el diagrama correspondiente a la altura
de la planta para ambos fertilizantes.

Figura 1.10: Distribución de la altura de la planta según fertilizante

Fertilizante A Fertilizante B
20 8
2 21 45
986 22 157
71 23 0239
977666654 24 001266
99764321 25 034467889
4422 26 15
65 27 123
9 28

Unidad de la hoja: 0.01 m


14 Capítulo 1. Estadística descriptiva

A partir de la observación del diagrama de tallo y hoja y del de puntos, se puede ubicar aproxima-
damente el valor central del conjunto de datos y tener idea de la variabilidad de los mismos alrededor
de ese valor central, de la simetría, del número de picos, etc.
Otra utilidad de estos gráficos es la detección de outliers, observaciones que se encuentran “lejos”
del resto de los datos. Más adelante precisaremos mejor este concepto.

Gráfico de bastones
A menudo resulta de interés efectuar un resumen de los datos mediante una tabla de frecuencias
a través de un agrupamiento de los mismos.
Cuando el número de observaciones es grande pero hay pocos valores diferentes, como ocurre
generalmente cuando la variable es discreta, la tabla consta de los m valores diferentes observados
de la variable (simbolizados con xj , variando j de 1 a m) y del número de veces que se repite cada uno
de ellos o frecuencia absoluta (simbolizada con fj ).
También suelen utilizarse la frecuencia relativa (simbolizada con hj ) que se define como el cociente
entre la correspondiente frecuencia absoluta y el número total de datos; la frecuencia absoluta
acumulada (simbolizada con Fj ) igual al número de observaciones menores o iguales a xj y frecuencia
relativa acumulada (simbolizada con Hj ) definida como el cociente entre la correspondiente frecuencia
absoluta acumulada y el número total de datos.
A continuación se presenta dicha tabla para la variable número de hojas del ejemplo:

Tabla 1.2: Distribución de frecuencias del número de hojas de la planta

Frecuencia Frecuencia
Frecuencia Frecuencia
Nº de hojas (xj ) absoluta relativa
absoluta (fj ) relativa (hj )
acumulada (Fj ) acumulada (Hj )
5 1 0.0167 1 0.0167
6 2 0.0333 3 0.0500
7 5 0.0833 8 0.1333
8 7 0.1167 15 0.2500
9 9 0.1500 24 0.4000
10 9 0.1500 33 0.5500
11 11 0.1833 44 0.7333
12 8 0.1333 52 0.8667
13 6 0.1000 58 0.9667
14 2 0.0333 60 1.000
Total 60 1

El gráfico o diagrama de bastones es la representación gráfica adecuada en este caso. En el eje de


abscisas se representan los valores observados de la variable y en el de ordenadas las correspondientes
frecuencias (absolutas o relativas). Para cada valor observado se levanta un segmento de altura igual
a su frecuencia.
Al igual que en el gráfico de puntos y en el diagrama de tallo y hoja, el gráfico de bastones permite
tener idea de la simetría de la distribución, de la ubicación del o de los picos, así como del valor
central del conjunto de datos, de su variabilidad y de la existencia de potenciales outliers.

El gráfico de bastones correspondiente a nuestro ejemplo se muestra en la Figura 1.11.

Histograma de frecuencias
En el caso en que la variable toma muchos valores diferentes, como ocurre generalmente con
observaciones de una variable continua, los pasos para la construcción de la tabla de frecuencias son
los siguientes:
1.4 Variables cuantitativas 15

Figura 1.11: Distribución del número de hojas de la planta

12

10

Frecuencia absoluta
8

0
5 6 7 8 9 10 11 12 13 14
Número de hojas

● Se determina un intervalo que incluya a todos los datos; para ello se calcula la diferencia entre
el mayor y el menor valor observados de la variable x en estudio. En nuestro caso, para la
variable altura de la planta: 2.89 – 2.08 = 0.81 m. Podemos entonces tomar un intervalo total
cuya amplitud sea 0.88, para comenzar en 2.05 y finalizar con 2.93 m.

● Se divide a dicho intervalo en m intervalos más pequeños (intervalos o subintervalos de clase).


Estos intervalos, en la mayoría de los casos, se eligen de igual amplitud, aunque en algunas
distribuciones de índole etaria o económica, conviene tomarlos de amplitud diferente. En
nuestro ejemplo, pensemos en formar ocho subintervalos, o sea m = 8, de amplitud igual a 0.11
m.

● Se calcula la frecuencia absoluta (fj ) correspondiente a cada intervalo. Definiremos como


frecuencia absoluta correspondiente a un intervalo genérico j (j = 1, 2, ..., m) al número de
valores de la variable x que pertenecen al mismo, sin incluir el extremo inferior pero incluyendo
el superior. Otro criterio es incluir el extremo inferior excluyendo el superior. Es conveniente
aclarar el criterio que se ha seguido en la agrupación.

● También pueden calcularse la frecuencia relativa (hj ) que se define como el cociente entre
la correspondiente frecuencia absoluta y el número total de datos; la frecuencia absoluta
acumulada (Fj ) igual al número de observaciones menores o iguales al límite superior del
intervalo correspondiente y frecuencia relativa acumulada (Hj ) definida como el cociente entre
la correspondiente frecuencia absoluta acumulada y el número total de datos.

La tabla 1.3 presenta la distribución de frecuencias para la variable altura de la planta. Como se
puede observar, con esta forma de agrupamiento se ha perdido parte de la información original,
porque sólo sabemos cuántos datos caen dentro de un intervalo pero no conocemos el valor de cada
uno de ellos. Por lo cual, el número de intervalos no debe ser muy pequeño para que su amplitud
no resulte muy grande y de esa manera se pierda demasiada información original. El número de
intervalos tampoco debe ser muy grande ya que no se cumpliría con el objetivo del agrupamiento.

Para construir el histograma de frecuencias se procede de la siguiente manera:

● Se representan en el eje de las abscisas los intervalos en que se agruparon los valores de la
variable y en el eje de las ordenadas la frecuencia absoluta o la frecuencia relativa.
16 Capítulo 1. Estadística descriptiva

Tabla 1.3: Distribución de frecuencias de la altura de la planta

Frecuencia Frecuencia
Frecuencia Frecuencia
Intervalos (m) absoluta relativa
absoluta (fj ) relativa (hj )
acumulada (Fj ) acumulada (Hj )
(2.05 – 2.16] 4 0.0667 4 0.0667
(2.16 – 2.27] 4 0.0667 8 0.1333
(2.27 – 2.38] 7 0.1167 15 0.2500
(2.38 – 2.49] 16 0.2667 31 0.5167
(2.49 – 2.60] 17 0.2833 48 0.8000
(2.60 – 2.71] 7 0.1167 55 0.9167
(2.71 – 2.82] 4 0.0667 59 0.9833
(2.82 – 2.93] 1 0.0167 60 1.000
Total 60 1

● Sobre cada uno de los subintervalos se grafica un rectángulo cuya área representa la frecuencia
(absoluta o relativa) del mismo. Cuando todos los subintervalos son de igual amplitud, la base de
cada rectángulo se considera el segmento unitario y por lo tanto la altura es numéricamente igual
a la frecuencia del correspondiente subintervalo. En el caso que la amplitud de los subintervalos
(∆j ) no sea la misma, se grafica en el eje de ordenadas el cociente fj /∆j o hj /∆j de manera que el
área del rectángulo siga representando la frecuencia.

El histograma correspondiente a la altura de la planta se muestra en la Figura 1.12.

Figura 1.12: Distribución de la altura de la planta

20
Frecuencia absoluta

15

10

0
2.05 2.16 2.27 2.38 2.49 2.60 2.71 2.82 2.93
Altura (m)

La construcción de un histograma es más dificultosa que la de un diagrama de tallo y hoja y además


este último tiene la ventaja de mostrar la totalidad de los valores observados.
En la Figura 1.14 se muestra un diagrama resumen de los gráficos vistos.

Diagrama de dispersión
Un diagrama de dispersión muestra la relación entre dos variables cuantitativas. Los valores de
una variable se sitúan en el eje de las abscisas y los valores de la otra en el de las ordenadas. Cada
par de observaciones viene representado en el gráfico por un punto. El grafico puede revelar la
naturaleza de la relación entre las variables, analizando las siguientes características:

● Forma: cuando los puntos del diagrama de dispersión se sitúan aproximadamente a lo largo
1.4 Variables cuantitativas 17

de una recta se dice que la relación es lineal. Otras formas que pueden presentarse son
agrupaciones, relaciones curvilíneas u otras no definidas o claras.

● Dirección: si la relación entre las dos variables tiene una dirección clara, decimos que existe
una asociación positiva cuando a valores mayores de una variable le corresponden en general
valores mayores de la otra o negativa en el caso en que a valores menores de una variable le
corresponden valores mayores de la otra.

● Intensidad: la fuerza de la relación estará dada por la proximidad de los puntos a la curva
que se supone describe el comportamiento de una en función de la otra.
Si se consideran las variables del ejemplo diámetro del capítulo y altura de la planta, el gráfico de
dispersión permite decir que la relación es directa, lineal y no muy intensa (ya que se observa gran
dispersión de los puntos alrededor del patrón lineal, Figura 1.13).
Figura 1.13: Distribución conjunta del diámetro del capítulo y la altura de la planta

30

25
Altura (m)

20

15

10
2.0 2.2 2.4 2.6 2.8 3.0
Diámetro del capítulo (cm)

Figura 1.14: Gráficos según tipo de variable

GRÁFICOS SEGÚN TIPO DE VARIABLE

CUALITATIVA CUANTITATIVA

Pocos datos Muchos datos

Pocos valores Muchos valores


diferentes diferentes

Barras
Puntos Tallo y hoja Tallo y hoja
Sectores
Tallo y hoja Bastones Histograma
Pareto
18 Capítulo 1. Estadística descriptiva

1.4.2 Estadísticas
Para completar la descripción de los datos se calculan las principales medidas características
del conjunto llamadas estadísticas. Dentro de ellas, podemos hablar de medidas de posición (dan
una idea de la localización de los datos) y medidas de dispersión (se refieren a la variabilidad de los
mismos).

Estadísticas de posición
Las principales medidas de posición son: la media aritmética, las fractilas o cuantilos, entre ellos
la mediana o cuantil del 50 %, y el modo.

Media aritmética: es la suma de los valores observados dividida por el número total de datos. Es
la abscisa del centro de gravedad de la distribución de frecuencias. Así, si x1 , x2 , ....., xi , ....., xn
representan los n valores observados de la variable x:

1 1 n
x̄ = (x1 + x2 + ... + xn ) = ∑ xi
n n i=1

En nuestro ejemplo, si calculamos la media aritmética para las variables número de hojas y altura
de la planta concluimos que el número de hojas promedio por planta fue de 10.0 hojas y la altura
promedio fue de 2.475 m.

Fractilas o cuantilos: La fractila de orden r es aquel valor tal que el r % (0 ≤ r ≤ 100) de las
observaciones son menores o iguales que él. Distinguiremos las fractilas más importantes:

● Mediana: es aquel valor de la variable que se encuentra en el lugar central del conjunto
ordenado de datos. La mitad de las observaciones son menores o iguales que él y la otra
mitad son mayores.

● Los tres valores que dividen a los datos ordenados en cuatro partes con aproximadamente
el mismo número de datos se denominan cuartilos, a los que simbolizaremos Q1 , Q2 y Q3 . El
primer cuartil es el valor tal que el 25 % de las observaciones son menores o iguales que
él. El segundo cuartil es la mediana y el tercer cuartil es aquel valor tal que el 75 % de las
observaciones son menores o iguales que él.

● De forma similar se pueden definir los decilos y los percentilos.

Para calcular la mediana de una distribución se procede de la siguiente forma. Se ordenan las
observaciones de menor a mayor. Si el número de observaciones es impar, la mediana es el valor
central del conjunto. Si el número de observaciones es par, la mediana es el promedio de las dos
observaciones centrales.
El primer cuartil se calcula como la “mediana” del conjunto de observaciones menores a Q2 y el
tercer cuartil como la “mediana” del conjunto de observaciones por encima de Q2 . Si el número de
observaciones es impar la mediana se excluye para calcular Q1 y Q3 . Algunos programas suelen usar
reglas diferentes, por lo cual los resultados pueden no coincidir exactamente con los obtenidos con
nuestra regla.
A continuación se presentan los valores ordenados de la variable altura de la planta del ejemplo:

2.08 2.12 2.14 2.15 2.21 2.25 2.26 2.27 2.28 2.29 2.3 2.31
2.32 2.33 2.37 2.39 2.4 2.4 2.41 2.42 2.44 2.45 2.46 2.46
2.46 2.46 2.46 2.46 2.47 2.47 2.49 2.5 2.51 2.52 2.53 2.53
2.54 2.54 2.54 2.56 2.56 2.57 2.57 2.58 2.58 2.59 2.59 2.59
2.61 2.62 2.62 2.64 2.64 2.65 2.71 2.72 2.73 2.75 2.76 2.89
1.4 Variables cuantitativas 19

Ya que el número de datos es par, se procede a ubicar las dos observaciones centrales y a calcular
el promedio de ellas. La mediana, primer y tercer cuartil resultan iguales a:

Q2 = (2.47 + 2.49)/2 = 2.48 m


Q1 = (2.37 + 2.39)/2 = 2.38 m
Q3 = (2.58 + 2.59)/2 = 2.585 m

Por lo tanto, se informa que el 50 % de las plantas presentó una altura menor o igual a 2.48 m, el
25 % menor o igual a 2.38 m y el 75 % menor o igual a 2.585 m.
La media aritmética depende de todas los valores observados, por lo que la presencia de un
valor anormalmente grande o pequeño influye sensiblemente en ella. En estas ocasiones, la media
aritmética no es una medida adecuada de posición central, usándose entonces la mediana como
medida de tendencia central más representativa. Aclaremos esto a través de un ejemplo. Se registra
la temperatura máxima en cinco días de un mes (en ºC):

21 22 24 26 28

La media aritmética y la mediana resultan, respectivamente: 24.2 y 24 ºC.


Imaginemos una segunda situación en que las temperaturas registradas fueran:

21 22 24 26 40

La media aritmética y la mediana resultan, respectivamente: 26.6 y 24 ºC. En este caso la media
aritmética no es una buena medida de tendencia central, ya que el 80 % de las temperaturas son
menores que ella. Como vemos, la mediana es más “resistente” a la presencia de valores extremos.
Pensemos en tres curvas que idealizan los contornos de distintos histogramas: uno simétrico, otro
asimétrico a la derecha y el tercero asimétrico a la izquierda. Ubique la media y la mediana, en la
Figura 1.15 en la que se ejemplifican estas situaciones.

Figura 1.15: Idealizaciones de contornos de distintos histogramas

Modo: es el valor de la variable que se presenta mayor número de veces, es decir, el que tiene la
mayor frecuencia.

En nuestro ejemplo, el modo de la variable altura de la planta es igual a 2.46 m, puesto que esta
fue la altura que presentaron más plantas.
Puede ocurrir que un conjunto de datos no presente modo, si todos los valores poseen igual
frecuencia, o bien que haya más de uno.
El modo es la única medida de posición que puede usarse para datos provenientes de una variable
cualitativa. Así, en nuestro ejemplo, la calidad de llenado del capítulo más frecuente es “bueno”.
20 Capítulo 1. Estadística descriptiva

Estadísticas de dispersión

Las medidas de posición son útiles pero resumen sólo parte de la información contenida en el
conjunto de datos. Podemos tener dos conjuntos de observaciones con aproximadamente la misma
media, mediana y modo, pero que difieran en cuánto se alejan del valor “central”.
Para aclarar este último punto veamos un ejemplo: los siguientes datos corresponden a 10 medi-
ciones reiteradas de la concentración de paracetamol ( %p/p), realizadas sobre comprimidos molidos
a fino polvo homogéneo en mortero, aplicando dos métodos distintos, ensayo espectrofotométrico
(EE) y espectroscopía de reflectancia (ER) en el infrarrojo cercano.

EE 83.85 83.90 83.72 83.92 83.92 84.02 83.92 84.16 84.02 84.13
ER 83.92 83.72 83.84 84.20 83.92 84.16 84.02 83.60 84.13 84.26

Las medidas de posición calculadas para los valores de concentración de paracetamol fueron:

Método Media Mediana


EE 83.956 %p/p 83.920 %p/p
ER 83.977 %p/p 83.970 %p/p

Las distribuciones de los valores de concentración de paracetamol para ambos métodos se repre-
sentan en la figura 1.16.

Figura 1.16: Distribución de la concentración de paracetamol según método de medición

EE ER
4
Frecuencia absoluta

0
83.6 83.8 84.0 84.2 83.6 83.8 84.0 84.2
Concentración de paracetamol (%p/p)

Las medidas de posición son prácticamente las mismas para las observaciones obtenidas con
uno y otro método. Sin embargo, ellas no resumen en forma completa la información contenida en
cada conjunto de datos. Por ejemplo, en el primer caso las observaciones están más concentradas
alrededor del valor central que en el segundo. Surge entonces la necesidad de definir medidas que
den idea de la variabilidad de los valores observados.
Las medidas de dispersión que estudiaremos son el rango, la variancia, la desviación estándar, el
coeficiente de variación y el rango intercuartil.

Rango: es la diferencia entre el mayor y el menor valor observado de la variable.

En nuestro ejemplo, para el método EE el rango observado resultó igual a 84.16 – 83.72 = 0.44 %p/p,
mientras que para el método ER fue igual a 0.66 %p/p, evidentemente mayor.
1.4 Variables cuantitativas 21

El rango sólo tiene en cuenta la variabilidad entre los valores extremos y no nos proporciona una
medida de la concentración de los datos alrededor del valor “central”. Se utiliza cuando el número de
observaciones es pequeño, ya que, como los datos intermedios son pocos la diferencia entre el mayor
y menor valor nos da idea de la variación de los datos.
Variancia: cuando se usa la media aritmética como medida de posición, debe definirse una carac-
terística que sirva como medida de la variabilidad, en promedio, de los datos respecto de la media.
Por lo tanto, debe basarse en el siguiente desvío: (xi − x̄). Pero la suma de esos desvíos es nula,
puesto que:
n n
∑(xi − x̄) = ∑ xi − nx̄ = nx̄ − nx̄ = 0
i=1 i=1

De aquí se deduce que si se desea definir una medida de variabilidad promedio, la suma anterior
no servirá como base pues, sea cual fuere la variabilidad de los datos respecto del promedio, la
misma valdrá siempre cero.
Tomaremos como medida de dispersión a una característica que se basa en la suma de los
cuadrados de esos desvíos. La medida promedio de dispersión más lógica sería:

1 n 2
∑(xi − x̄)
n i=1

Sin embargo, definiremos la variancia muestral como:

1 n
s2 = ∑(xi − x̄)
2
n − 1 i=1
Justificaremos más adelante el por qué de la corrección efectuada.

Si no existe variabilidad en el conjunto de datos, o sea que cada observación xi es igual a x̄, la
variancia resultaría igual a 0. A mayor variabilidad, mayor s2 .
Para nuestro ejemplo la variancia de la variable concentración de paracetamol aplicando el método
EE resulta igual a 0.0171 ( %p/p)2 y con el método ER, 0.0469 ( %p/p)2 .
Si el conjunto de observaciones son mediciones reiteradas de una misma magnitud, como en el
caso de este ejemplo, la variancia nos refleja la precisión de la medida. A mayor variancia, menor
precisión. Por lo cual, el método EE es aparentemente más preciso que el otro.
Si las observaciones provienen de unidades diferentes, la variancia es medida de la homogeneidad
del conjunto. Este es el caso de las mediciones de la altura de las 60 plantas de girasol. A menor
variancia, mayor homogeneidad.
Desviación estándar: se define esta medida como la raíz cuadrada positiva de la variancia:
¿
Á 1 n
s = +Á
À ∑(xi − x̄)2
n − 1 i=1

Obviamente la desviación estándar está expresada en unidades de la variable y podemos interpre-


tarla como una “distancia promedio de las observaciones con respecto a la media”.
La desviación estándar de la variable concentración de paracetamol para el método EE fue
0.131 %p/p y para el método ER, 0.217 %p/p. Los valores observados de la concentración aplican-
do el EE se desvían, en promedio, 0.131 %p/p de su media aritmética; y 0.217 %p/p al aplicar el método
ER.
22 Capítulo 1. Estadística descriptiva

Coeficiente de variación: es la desviación estándar dividida por la media aritmética, o sea que es
la desviación estándar medida en unidades de la media aritmética.
s
CV =
∣x̄∣

Es una medida adimensional que indica qué proporción representa la desviación estándar respecto
de la media aritmética. Se utiliza con frecuencia en la comparación de la variabilidad de dos o más
conjuntos de datos que difieren en unidades y/o magnitudes.
Los coeficientes de variación (en porcentaje) de la variable concentración de paracetamol para el
método EE y ER resultaron respectivamente 0.16 % y 0.26 %. La desviación estándar representa un
0.16 % de la media aritmética en el primer caso y un 0.26 % en el segundo.
Rango intercuartil: es la diferencia entre el tercer cuartilo y el primero, es decir:

RI = Q3 − Q1

El rango intercuartil es una medida de dispersión que no está influenciada por valores extremos.
Cuando se usa la mediana (Q2 ) como medida de posición, el rango intercuartil es la medida de
dispersión adecuada para acompañarla.
Por lo tanto, el rango intercuartil para el primer método es:

RI = 84.02 %p/p − 83.90 %p/p = 0.12 %p/p

El rango intercuartil mide la dispersión del 50 % de los datos centrales. Si su valor es pequeño, nos dice
que el conjunto del 50 % central de las observaciones es poco variable, nada nos dice de las restantes.
El rango intercuartil de la altura de la planta resulta igual a 2.585 m – 2.38 m = 0.205 m. El 50 %
central de los valores de altura cae en un rango de 0.205 m.

Boxplot. Outliers
Si tenemos en cuenta los cuartilos y los valores observados mínimo y máximo, obtenemos un
conjunto de cinco números que brindan un buen resumen de nuestros datos.
Con esos cinco valores, podemos construir un gráfico llamado boxplot o diagrama de caja.
Este gráfico se construye diagramando una caja (box) cuyo lateral izquierdo (o inferior) representa
a Q1 y el derecho (o superior) a Q3 , de modo que la longitud de la caja es el rango intercuartil.
La mediana se representa como una línea dentro de la caja. Dos líneas hacia la izquierda y derecha
(o hacia abajo y hacia arriba), llamadas whiskers o bigotes, se extienden hasta los valores extremos.
Para los valores observados de la concentración de paracetamol medido por EE los cinco números
a tener en cuenta para su construcción son:

Q1 = 83.9 %p/p
Q2 = 83.92 %p/p
Q3 = 84.02 %p/p
Valor mínimo = 83.72 %p/p
Valor máximo = 84.16 %p/p

Este gráfico brinda una medida central, la mediana, y una idea de la dispersión a través del rango
y del rango intercuartil. La posición de la mediana dentro de la caja y la semejanza en la longitud de
los bigotes nos dan idea de simetría de la distribución, aunque el histograma y el diagrama de tallo y
hoja son más útiles en este aspecto (Figura 1.17).
En la Figura 1.14 se presenta un diagrama con los gráficos adecuados a cada tipo de variable.
¿Dónde ubicaría el boxplot?
1.4 Variables cuantitativas 23

Figura 1.17: Distribución de la concentración de paracetamol determinada por el método EE

83.7 83.8 83.9 84.0 84.1 84.2


Concentración de paracetamol (%p/p)

Si se deseara comparar dos distribuciones, en cuanto a los cinco números mencionados, es de


utilidad diagramar dos boxplots en forma paralela. En la Figura 1.18 se representan los diagramas
para ambos métodos de medición de paracetamol. Como ya comentamos con anterioridad, ambos
métodos registran aproximadamente las mismas medidas de posición, pero el método EE presenta
menor variabilidad en sus observaciones por lo que sería aparentemente más preciso.

Figura 1.18: Distribución de la concentración de paracetamol según método de medición

ER

EE

83.6 83.8 84.0 84.2 84.4


Concentración de paracetamol (%p/p)

Una modificación de este gráfico permite detectar potenciales outliers (observaciones que no
son típicas del conjunto). Se considerarán potenciales outliers aquellas observaciones que caigan por
fuera de:

Q1 − 1.5 RI
Q3 + 1.5 RI

La modificación del gráfico consiste en extender los whiskers hasta las observaciones mínima y
máxima que no sean puntos atípicos. Los outliers se marcan en el gráfico como puntos separados de
los whiskers.
Para realizar el boxplot modificado (Figura 1.19) de la variable diámetro del tallo de las plantas,
calculamos:
24 Capítulo 1. Estadística descriptiva

Q1 = 2.3 cm
Q2 = 2.5 cm
Q3 = 3.6 cm
RI = 1.3 cm
Valor mínimo = 2.0 cm
Valor máximo = 8.3 cm
Q1 − 1.5RI = 0.35 cm
Q3 + 1.5RI = 5.55 cm

Por lo tanto, todo valor menor a 0.35 cm y superior a 5.55 cm se considerará potencial outlier. Al
revisar el conjunto de datos, no se observa ningún valor inferior a 0.35 cm, razón por la cual el bigote
izquierdo no se modifica. En cambio sí se detectan dos datos superiores a 5.55 cm: 7.4 y 8.3 cm. Luego,
el bigote derecho se modifica extendiéndose sólo hasta 5.4 cm y las dos observaciones consideradas
potenciales outliers se marcan como puntos separados.

Figura 1.19: Distribución del diámetro del tallo

2 3 4 5 6 7 8
Diámetro del tallo (cm)

Lo presentado en el punto 1.4.2 puede resumirse en la Figura 1.20.

Figura 1.20: Medidas descriptivas para conjuntos de observaciones de variables cuantitativas

MEDIDAS DESCRIPTIVAS
(Estadísticas)

ESTADÍSTICAS ESTADÍSTICAS
DE POSICIÓN DE DISPERSIÓN

Media aritmética Rango


Mediana Rango intercuartil
Modo Desviación estándar
Cuartilos Variancia
Percentilos Coeficiente de variación
1.5 Ejercicios de aplicación resueltos 25

1.5 Ejercicios de aplicación resueltos


1. En un estudio sobre la cantidad de pesticida residual en frutas se detectaron 15 manzanas con
restos de pesticida que excedían los límites fijados por la Unión Europea (0.01 mg/kg). Las
manzanas contenían las siguientes cantidades de Fenitrothion (en mg/kg):

0.012 0.018 0.015 0.039 0.028


0.025 0.016 0.012 0.012 0.040
0.021 0.020 0.011 0.015 0.023

Para realizar la descripción de este conjunto de pocos datos de la variable contenido de Fe-
nitrothion (cuantitativa continua) se procede en primera instancia a ordenarlos de menor a
mayor.

0.011 0.012 0.012 0.012 0.015


0.015 0.016 0.018 0.020 0.021
0.023 0.025 0.028 0.039 0.040

La Figura 1.21 presenta el diagrama de puntos. Se observa una distribución asimétrica a la


derecha.

Figura 1.21: Distribución del contenido de Fenitrothion

4
Frecuencia absoluta

0
0.010 0.015 0.020 0.025 0.030 0.035 0.040
Fenitrothion (mg/kg)

A continuación efectuamos el cálculo de las estadísticas.

(a) De posición:
1 15
x̄ = ∑ xi = 0.0205 mg/kg
15 i=1
Cada manzana presentó en promedio 0.0205 mg/kg de Fenitrothion.

Mediana = 0.018 mg/kg


Q1 = 0.012 mg/kg
Q3 = 0.025 mg/kg

La mitad de las manzanas presentó un contenido de Fenitrothion menor o igual a 0.018


mg/kg. El 25 % presentó un contenido menor o igual a 0.012 mg/kg y el 75 % menor o
igual a 0.025 mg/kg.
En correspondencia con la forma asimétrica hacia la derecha de esta distribución, se
observa que la media es mayor que la mediana.
26 Capítulo 1. Estadística descriptiva

(b) De dispersión:
Rango = 0.040 mg/kg - 0.011 mg/kg = 0.029 mg/kg
Los valores observados del contenido de Fenitrothion caen en un rango de 0.029 mg/kg.

1 15 2 −5 2
Variancia = ∑(xi − 0.0205) = 8.5695 × 10 (mg/kg)
15 − 1 i=1

Desviación estándar = s = + 8.5695 × 10−5 (mg/kg)2 = 0.00926 mg/kg

Los valores observados del contenido de Fenitrothion se desvían en promedio 0.00926


mg/kg de la media aritmética.

RI = 0.025 mg/kg − 0.012 mg/kg = 0.013 mg/kg

El 50 % de las observaciones centrales caen en un rango de 0.013 mg/kg

CV = 45.2 %

La desviación estándar representa el 45.2 % de la media.

2. El objetivo de un estudio (K. Hjorth et al. / Food Control 22 (2011) 1701-706) fue investigar la
cantidad de pesticidas residuales en frutas y vegetales en diferentes países de Sudamérica. Se
observaron un total de 724 muestras de frutas y verduras provenientes de diferentes países.
Los siguientes datos corresponden al número de pesticidas encontrados por muestra:

Nº de pesticidas 0 1 2 3 4 5 6 7 8 9
Nº de muestras 139 169 143 113 82 43 21 10 2 2

Observamos que la variable x: número de pesticidas, toma pocos valores diferentes y cada valor
diferente se repite un determinado número de veces. Se trata de un conjunto de muchos datos
de una variable aleatoria discreta.
Completamos la tabla de frecuencias:

xj Nº de muestras (fj ) hj
0 139 0.19
1 169 0.23
2 143 0.20
3 113 0.16
4 82 0.11
5 43 0.06
6 21 0.03
7 10 0.014
8 2 0.003
9 2 0.003
Total 724

En lugar de un diagrama de puntos, realizaremos un gráfico de bastones (Figura 1.22). Se observa


una distribución asimétrica hacia la derecha.
1.5 Ejercicios de aplicación resueltos 27

Figura 1.22: Distribución del número de pesticidas

160

Frecuencia absoluta
120

80

40

0
0 1 2 3 4 5 6 7 8 9
Número de pesticidas

Procedemos a calcular las estadísticas:

(a) De posición:
La fórmula de la media aritmética tiene otra expresión, considerando las frecuencias de
los valores.
1 n=724 1 m=10
x̄ = ∑ xi = ∑ xj fj = 2.2 pesticidas
724 i=1 724 j=1

Cada muestra analizada, presentó en promedio 2.2 pesticidas.

Q2 = 2 pesticidas

El 50 % de las muestras presentó 2 pesticidas o menos.

Modo = 1 pesticida

El número de pesticidas observado por muestra con mayor frecuencia fue 1.


(b) De dispersión:
La fórmula de la variancia tiene también otra expresión, si consideramos la frecuencia de
cada valor:

1 n=724 2 1 m=10 2 2
Variancia = ∑ (xi − x̄) = ∑ (xj − x̄) fj = 3.2 pesticidas
723 i=1 723 j=1

Desviación estándar = s = 1.8 pesticidas


Los valores observados se desvían, en promedio, 1.8 pesticidas de la media.

CV = 82 %

La desviación estándar representa el 82 % de la media.

3. En un ensayo clínico efectuado para comparar distintos tratamientos para la artritis reumatoidea
participaron 50 pacientes con la enfermedad. Se describieron las características basales de los
participantes, siendo una de las variables el nivel plasmático de proteína C reactiva (PCR). Las
observaciones se presentan a continuación (mg/L):
28 Capítulo 1. Estadística descriptiva

Paciente PCR (mg/L) Paciente PCR (mg/L) Paciente PCR (mg/L)


1 44.5 18 47.7 35 77.5
2 51.1 19 63.1 36 54.8
3 50.2 20 49.7 37 66.2
4 67.2 21 68.0 38 29.1
5 45.3 22 39.9 39 71.7
6 43.9 23 30.6 40 98.7
7 46.5 24 30.9 41 72.0
8 86.1 25 51.9 42 38.1
9 84.1 226 53.6 43 101.4
10 70.7 27 28.7 44 54.8
11 37.6 28 62.7 45 36.7
12 52.7 29 14.3 46 64.1
13 81.2 30 74.9 47 64.9
14 54.6 31 32.3 48 37.6
15 55.3 32 79.6 49 50.6
16 65.1 33 66.0 50 52.1
17 57.4 34 54.0

La información de la tabla anterior es más fácil de visualizar cuando los datos se ordenan en
intervalos:

Frecuencia Frecuencia
Intervalos Frecuencia Frecuencia
absoluta relativa
(mg/L) absoluta (fj ) relativa (hj )
acumulada (Fj ) acumulada (Hj )
(10; 22.5] 1 0.02 1 0.02
(22.5; 35.0] 5 0.10 6 0.12
(35.0; 47.5] 9 0.18 15 0.30
(47.5; 60.0] 15 0.30 30 0.60
(60.0; 72.5] 12 0.24 42 0.84
(72.5; 85.0] 5 0.10 47 0.94
(85.0; 97.5] 1 0.02 48 0.96
(97.5; 110.0] 2 0.04 50 1.00

Procedemos a construir el histograma de frecuencias y un box-plot (Figura 1.23). Se observa


una distribución aproximadamente simétrica.

Figura 1.23: Distribución del nivel plasmático de PCR

16
110
Frecuencia absoluta

12 90
PCR (mg/L)

70
8
50

4 30

10
0
10.0 22.5 35.0 47.5 60.0 72.5 85.0 97.5 110.0
PCR (mg/L)
1.6 Ejercicios 29

A continuación calculamos las estadísticas.


De posición:
x̄ = 56.23 mg/L

El nivel plasmático de PCR medio en cada paciente resultó igual a 56.23 mg/L.

Mediana = 54.3 mg/L

El 50 % de los pacientes tuvo niveles menores o iguales a 54.3 mg/L

Q1 = 44.5 mg/L
Q3 = 67.2 mg/L

El 25 % de los pacientes tuvo niveles menores o iguales a 44.5 mg/Ly el 75 % menores o iguales
a 67.2 mg/L.
De dispersión:
Rango = 87.1 mg/L

Las observaciones caen en un rango de 87.1 mg/L.

Variancia = s2 = 337.07 (mg/L)2


Desviación estándar = s = 18.36 mg/L

Las observaciones se desvían, en promedio, 18.36 mg/L de la media aritmética.

RI = 22.7 mg/L

El 50 % de las observaciones centrales están en un rango de = 22.7 mg/L

CV = 32.7 %

La desviación estándar representa el 32.65 % de la media.

1.6 Ejercicios
4. Especifique el carácter de las siguientes variables:

Cuantitativa Cuantitativa
Cualitativa
Discreta Continua
Número de colonias de bacterias tróficas en un acuífero
Variedades de un cultivo de maíz
Contenido de aminoácidos de semillas de trigo
Número de defectos de una presentación farmacéutica
Tipo de tratamiento aplicado a pacientes con neumonía
Concentración de ión nitrato en agua
Número de cromosomas en distintas especies
30 Capítulo 1. Estadística descriptiva

5. El Laboratorio Nacional de Referencia del INEI ANLIS Malbrán presentó en la comunicación


“Situación actual de la enfermedad por virus Influenza y su relación con la vacuna antigripal”
(Noviembre de 2017) la siguiente información correspondiente a las primeras 44 semanas del
año 2017:

Tabla 1.4: Argentina. Casos y porcentajes de positividad según grupos de edad. Semana 1 44 de 2017.

Distribución de virus respiratorios


Grupos de edad Muestras Muestras
% positividad sobre total de positivos
(años cumplidos) analizadas positivas
VSR Influenza Adenovirus Parainfluenza Otros
<2 41838 19491 46.6 % 8.2 % 8.9 % 74.2 % 3.6 % 5.1 %
2 - 14 14269 4174 29.3 % 29.6 % 8.8 % 42.3 % 11.5 % 7.8 %
15 - 64 5950 2380 40.0 % 82.9 % 1.8 % 6.2 % 4.5 % 4.6 %
>64 3275 1496 45.7 % 88.2 % 2.1 % 4.7 % 1.1 % 3.9 %
Fuente: Elaboración propia del Área de Vigilancia de la Salud de la Dirección de Epidemiología en base a información
proveniente del Sistema Nacional de Vigilancia de la Salud (SNVS) SIVILA.

A continuación se presentan un gráfico de barras adyacentes y uno de barras subdivididas.


Realice un breve comentario de los mismos.

Figura 1.24: Distribución del tipo de virus según grupo etario


Edad (años cumplidos)

<2 <2
Virus
2 − 14 2 − 14 Adenovirus
Influenza
Otros
15 − 64 15 − 64 Parainfluenza
VSR

> 64 > 64

0 20 40 60 80 100 0 20 40 60 80 100
Porcentaje Porcentaje

6. El objetivo del trabajo “Errores de despacho de medicamentos en un hospital público pediátrico”


(Rev. Latino-am Enfermagem 2008 setembro-outubro; 16-5) fue evaluar la seguridad en el
despacho de medicamentos a través de la determinación de la tasa de errores de despacho
(cualquier desvío ocurrido entre lo despachado y lo prescrito en la receta médica). Dichos
errores fueron categorizados en errores de contenido, de rótulo y de documentación. De los
300 errores identificados sobre un total de 2620 dosis despachadas, la categoría de error
más frecuente fue la de “error de contenido”: 262 (87.3 %). En la siguiente tabla se muestra la
distribución del tipo de error dentro de dicha categoría:

Tipo de error de contenido Frecuencia absoluta Frecuencia relativa ( %)


Medicamento incorrecto 1 0.38
Fórmula farmacéutica incorrecta 3 1.15
Sobredosis 75 28.62
Subdosis 130 49.62
Omisión 40 15.27
Otros errores de contenido 13 4.96
Total 262 100
1.6 Ejercicios 31

Construya un diagrama de Pareto para describir la información presentada. Comente las carac-
terísticas de la distribución.

7. Un exceso en la ingestión de nitratos y nitritos puede causar metahemoglobinemia, habiéndose


estudiado además posibles efectos cancerígenos. La OMS recomienda valores no mayores a
0.5 mg/L de nitrito en agua para consumo. En una estación de tratamiento de agua potable se
midió la concentración de nitritos en 21 muestras de agua de río. Los resultados se presentan a
continuación (mg/L):

0.403 0.410 0.401 0.400 0.413 0.411 0.371


0.412 0.420 0.431 0.428 0.409 0.416 0.433
0.426 0.421 0.409 0.418 0.407 0.375 0.394

Realice un diagrama de tallo y hoja y un breve comentario de las características de la distribución.

8. Indique cuáles de las siguientes estadísticas son de posición y cuáles de dispersión:

Posición Dispersión
Media aritmética
Rango intercuartil
Variancia
Mediana
Desviación estándar
Rango
Modo
Coeficiente de variación

9. Con referencia al ejercicio 7 (página 31), realice un boxplot modificado para detectar potenciales
outliers. Luego complete la descripción del conjunto calculando las restantes estadísticas de
posición y de dispersión.

10. Como parte de un trabajo cuyo objetivo fue estudiar los factores que afectan la variabilidad en
el número de cromosomas de una especie herbácea (Claytonia virginica, L.), se midió dicha
variable en 90 plantas de la especie mencionada.

24 28 28 28 27 28 29 29 29 30
28 36 32 29 30 30 29 31 29 31
24 28 29 28 35 33 28 24 28 29
31 31 24 28 29 30 31 31 30 29
28 30 33 28 34 38 28 32 33 34
30 28 28 31 32 34 39 40 31 35
27 28 34 29 28 31 35 30 29 24
28 31 32 28 32 28 28 31 28 29
30 33 41 30 29 42 28 29 36 32

Realice la descripción más adecuada de este conjunto de datos.

11. Con el objeto de evaluar la calidad de comprimidos de paracetamol de 500 mg se llevó a cabo
un ensayo de uniformidad de unidades de dosificación. Se determinó el porcentaje de principio
activo respecto de lo rotulado en 80 comprimidos elegidos al azar de la producción diaria de
un laboratorio. Los datos se presentan a continuación.
32 Capítulo 1. Estadística descriptiva

94.1 96.4 97.8 98.3 99.3 100.1 101.0 101.9 103.4 94.2
96.7 97.8 98.3 99.4 100.1 101.1 102.1 103.5 94.3 96.8
97.9 98.5 99.4 100.1 101.1 102.2 103.6 94.8 97.1 97.9
98.6 99.5 100.1 101.1 102.6 103.9 95.0 97.1 98.0 99.0
99.5 100.3 101.2 102.9 104.3 95.6 97.2 98.0 99.0 99.6
100.4 101.4 103.0 104.7 95.7 97.3 98.1 99.1 99.8 100.5
101.4 103.1 105.5 96.1 97.7 98.1 99.2 99.9 100.5 101.4
103.2 105.8 96.2 97.8 98.2 99.2 99.9 100.9 101.8 103.2

(a) Proceda a construir el diagrama de tallo y hoja y el histograma e indique qué ventaja
posee el primero sobre el histograma.
(b) Realice el cálculo de las estadísticas de posición y de dispersión.

12. Para comparar la cantidad de pesticidas presentes en las manzanas producidas en dos regiones
geográficas diferentes (A y B) se analizaron 50 unidades provenientes de cada zona a fin de
medir el número de pesticidas presentes en ellas. Los resultados fueron:

Zona A Zona B
Nº de pesticidas Frecuencia Nº de pesticidas Frecuencia
0 0 0 4
1 5 1 12
2 6 2 14
3 12 3 10
4 14 4 6
5 10 5 4
6 3 6 0

Proceda a realizar la descripción más adecuada de ambos conjuntos de observaciones. Efectúe


luego la comparación de las distribuciones de frecuencias del número de pesticidas para ambas
regiones.

13. Las variaciones en el contenido de ácido ascórbico en naranjas pueden deberse a diversos
factores, tales como variedad, prácticas de cultivo, grado de maduración y evolución de la
temperatura ambiente durante el período de cosecha de la fruta. El Código Alimentario Argen-
tino establece especificaciones acerca del contenido mínimo de ácido ascórbico en naranjas.
Con el propósito de evaluar el cumplimiento de dicha especificación, en un establecimiento se
eligieron al azar 103 frutas y se determinó el contenido en jugo recién exprimido en cada una
de ellas (mg/mL).

0.49 0.56 0.53 0.58 0.53 0.48 0.46


0.49 0.47 0.46 0.43 0.38 0.39 0.51
0.42 0.43 0.42 0.40 0.49 0.47 0.48
0.35 0.33 0.35 0.40 0.43 0.47 0.47
0.45 0.50 0.42 0.38 0.41 0.35 0.32
0.40 0.45 0.50 0.41 0.45 0.48 0.43
0.42 0.36 0.34 0.34 0.36 0.42 0.40
0.50 0.44 0.43 0.41 0.40 0.38 0.41
0.36 0.40 0.43 0.47 0.48 0.46 0.34
0.37 0.39 0.38 0.41 0.46 0.43 0.42
0.43 0.50 0.44 0.48 0.33 0.47 0.47
0.50 0.45 0.39 0.50 0.38 0.37 0.46
0.36 0.33 0.33 0.34 0.35 0.38 0.36
0.48 0.44 0.36 0.37 0.44 0.36 0.41
0.51 0.41 0.46 0.33 0.34
1.6 Ejercicios 33

Realice un informe descriptivo de este conjunto de datos con la información que se brinda a
continuación.
Figura 1.25: Distribución del contenido de ácido ascórbico

9
8

Frecuencia absoluta
7
6
5
4
3
2
1
0
0.30 0.35 0.40 0.45 0.50 0.55 0.60
Ácido ascórbico (mg/mL)

Figura 1.26: Distribución del contenido de ácido ascórbico

0.30 0.35 0.40 0.45 0.50 0.55 0.60


Ácido ascórbico (mg/mL)

Estadísticas para los valores de ácido ascórbico


n = 103 Percentilos:
Media aritmética = 0.423 1.0 % = 0.33
Variancia = 0.003 5.0 % = 0.33
Desviación estándar = 0.058 10.0 % = 0.34
Mínimo = 0.32 25.0 % = 0.38
Máximo = 0.58 50.0 % = 0.42
Rango = 0.26 75.0 % = 0.47
90.0 % = 0.50
95.0 % = 0.51
99.0 % = 0.56

14. Realice un informe descriptivo de las observaciones del diámetro del capítulo de las plantas de
girasol con cada fertilizante. Compare luego ambas distribuciones.
34 Capítulo 1. Estadística descriptiva

15. Indique si cada una de las siguientes expresiones es verdadera (V) o falsa (F):

• La media puede ser mayor que el valor observado más grande o menor que el más
chico.
• La media puede ser igual al valor más chico o igual al valor más grande
(considerando el caso en que los valores mínimo y máximo no sean iguales).
• La media puede ser un valor no observado.
• Si la distribución es simétrica coinciden media y mediana.
• La mediana es siempre un valor observado de la variable.
• La mediana de una distribución simétrica es el punto medio entre el mínimo y el
máximo valor observado.
• La desviación estándar de -1; -10; -6; -8; -12 es un número positivo.
• Dadas las observaciones 0; -1; 1; -2; 2 la mediana es 1.
• Si se aumenta el número de observaciones el rango puede disminuir.
• La media siempre disminuye a medida que aumenta el número de observaciones.
• Dos estudiantes midieron la concentración de un analito en una solución,
obteniendo una media de 10 mg/dL, mientras que otros cuatro, obtuvieron una media
de 14 mg/dL. La media considerando los seis estudiantes resulta igual a 12 mg/dL.

16. Considere las dos situaciones siguientes e indique en cuál de ellas la variancia de las mediciones
logradas es medida de la precisión del método usado:

• En un laboratorio se realiza una medición de la concentración de calcio en cada uno


de diez frascos de reactivos de un lote.
• En un laboratorio se realizan diez mediciones de la concentración de calcio sobre
diez alícuotas del mismo frasco.

17. La Figura 1.27 muestra el histograma correspondiente a un conjunto de observaciones hipotéti-


cas:
Figura 1.27: Histograma 1

30

25
Frecuencia absoluta

20

15

10

0
5 10 15 20 25 30 35 40
x

(a) Ubique aproximadamente la media y la mediana en la Figura 1.27.


(b) En el primer panel de la Figura 1.28 grafique un histograma en el cual la media sea aproxi-
madamente la misma que en el anterior pero la mediana se encuentre desplazada hacia
la derecha.
1.7 Ejercicios propuestos 35

(c) En el segundo panel de la Figura 1.28 grafique ahora un histograma con aproximadamente
la misma media y mediana que el primero pero que refleje una mayor dispersión de los
datos.
Figura 1.28: Nuevos histogramas

Histograma 2 Histograma 3
30 30

25 25
Frecuencia absoluta

Frecuencia absoluta
20 20

15 15

10 10

5 5

0 0
5 10 15 20 25 30 35 40 5 10 15 20 25 30 35 40
x x

18. En un trabajo práctico, cada uno de los alumnos de una comisión mide la concentración de
colesterol-HDL en una misma muestra. El instructor a cargo de la clase informa que el promedio
de todas las mediciones obtenidas es de 73.5 mg/dL. Supongamos que el resultado de la
medición individual que Ud. efectuó fue de 74.60 mg/dL:

(a) ¿Podría ser su resultado el más alto de todos?


(b) ¿Podría ser su resultado igual a la mediana? Si su respuesta es NO explique por qué y si es
SI indique qué forma tendría la distribución.
(c) Supongamos que la media de todas las mediciones fuera aproximadamente igual al valor
verdadero de la concentración medida, marque con una cruz en qué caso estaría Ud. más
conforme con su resultado:
• Si la desviación estándar del método fuera de 0.52 mg/dL.
• Si la desviación estándar del método fuera de 1.1 mg/dL.

1.7 Ejercicios propuestos


19. Dé ejemplos de:

● Variables cualitativas
● Variables cuantitativas discretas
● Variables cuantitativas continuas

20. (a) ¿En qué caso conviene usar la mediana como medida de tendencia central en reemplazo
de la media?
(b) En ese caso, ¿cuál sería la medida de dispersión que acompañaría a la mediana?:

• desviación estándar
• variancia
• rango intercuartil
• coeficiente de variación
36 Capítulo 1. Estadística descriptiva

21. Considere los siguientes conjuntos de datos:

1: 101 103 105 107 109


2: 105 105 105 105 105
3: 97 101 105 109 113

(a) Sin efectuar cálculos, responda las siguientes preguntas:


● ¿Qué conjunto de datos posee la mayor media aritmética?
● ¿Qué conjunto de datos posee la menor mediana?
● ¿Qué conjunto de datos posee la menor desviación estándar?
● ¿Qué conjunto de datos tiene variancia igual a 0?
● ¿Qué conjunto de datos tiene la mayor desviación estándar?
● ¿Qué conjunto de datos posee el mayor rango intercuartil?
(b) Realice los cálculos correspondientes y verifique sus respuestas.

22. A continuación se presentan las notas de exámenes de tres comisiones de quince alumnos cada
una:

Comisión 1 : 50 70 70 70 70 70 70 70 70 70 70 70 70 70 90
Comisión 2 : 50 53 56 59 62 65 68 71 74 77 80 83 86 88 90
Comisión 3 : 50 50 50 50 50 50 50 70 90 90 90 90 90 90 90

(a) Realice el diagrama de puntos para cada una de las comisiones.


(b) En base a ellos, sin efectuar cálculos, responda las siguientes preguntas:
● Considerando la media de las tres comisiones, ¿cuál de ellas tuvo mejor rendimiento?
● Teniendo en cuenta el rango como medida de variación, ¿qué comisión tiene mayor
dispersión?
● Teniendo en cuenta la desviación estándar, ¿qué comisión presenta mayor variabili-
dad?
● Considerando la media y la desviación estándar, ¿cuál de las comisiones tuvo mejor
rendimiento?

23. Se presenta a continuación una serie de datos de la concentración de colesterol total en un


grupo de pacientes adultos mayores (mg/dL):

201 217 169 175 295 250 196 187 222 142

¿Puede considerarse que alguno de dichos datos es un potencial outlier?

24. Un total de 1470 alumnos de escolaridad primaria, de ambos sexos, fue estudiado con el fin de
efectuar un monitoreo de bocio endémico en cuatro localidades de la provincia de Santa Fe:
Reconquista (n = 404) y Villa Ocampo (n = 294) ubicadas en el norte de la provincia y Rufino
(n = 317) y Venado Tuerto (n = 455) ubicadas en el sur de la provincia. El examen palpatorio
reveló 10 niños con bocio en Reconquista, 9 en Villa Ocampo, 4 en Rufino y 16 en Venado Tuerto
(Rev Argent Endocrinol Metab 50:184-191, 2013). Realice un gráfico de barras adyacentes para
representar la información brindada.

25. En el trabajo citado en el ejercicio 24 (página 36), se tomaron 109 muestras de orina de los esco-
lares estudiados en la localidad de Reconquista midiendo el contenido de iodo. Las estadísticas
informadas fueron:
1.8 Respuestas 37

Media = 238.6 µg/L


Mediana = 213.0 µg/L
Desviación estándar = 116.0 µg/L

Interprete en palabras del problema.

26. Según el Código Alimentario Argentino la leche entera de vaca destinada a ser consumida como
tal o a la elaboración de productos lácteos debe presentar ciertas características. Con el objeto
de controlar el contenido de proteínas totales se tomaron 60 muestras a lo largo de un mes en
una planta de producción láctea. Los resultados obtenidos fueron (g/100g):

2.95 2.96 2.51 3.05 3.14 2.99


2.90 3.02 2.99 2.66 2.97 2.91
3.13 2.85 3.07 3.31 3.03 2.96
3.23 3.02 2.61 2.91 2.60 2.91
2.74 3.26 3.24 2.82 2.70 2.71
2.95 2.50 2.60 2.90 3.19 2.96
2.82 2.76 2.50 3.01 2.68 2.67
2.51 2.56 2.76 2.96 2.99 2.74
3.01 3.12 3.12 3.34 2.86 2.93
2.91 2.98 2.50 3.05 2.82 2.87

Realice la descripción más adecuada del conjunto de datos.

1.8 Respuestas
9. x̄ = 0.4099 mg/L
Mediana = 0.411 mg/L
Modo = 0.409 mg/L
Q1 = 0.402 mg/L
Q3 = 0.4205 mg/L
xmín = 0.371 mg/L
xmáx = 0.433 mg/L
S2 = 0.00026 mg/L2
S = 0.0160 mg/L
CV = 3.9 %
Rango = 0.062 mg/L
RI = 0.0185 mg/L
Q1 − 1.5RI = 0.37425
Q3 + 1.5RI = 0.44825

10. x̄ = 30.3444 cromosomas


Mediana = 29.5 cromosomas
Modo = 28 cromosomas
Q1 = 28 cromosomas
Q3 = 32 cromosomas
xmín = 24 cromosomas
xmáx = 42 cromosomas
S2 = 12.2059 cromosomas2
S = 3.49369 cromosomas
CV = 11.5 %
38 Capítulo 1. Estadística descriptiva

Rango = 18 cromosomas
RI = 4 cromosomas

11. x̄ = 99.635 %
Mediana = 99.5 %
Modo = 100.1 %
Q1 = 97.85 %
Q3 = 101.4 %
xmín = 94.1 %
xmáx = 105.8 %
S2 = 7.33319( %)2
S = 2.70799 %
CV = 2.71791 %
Rango = 11.7 %
RI = 3.55 %

12. jaaa
Zona A Zona B
x̄ = 3.54 pesticidas x̄ = 2.28 pesticidas
Mediana = 4.00 pesticidas Mediana = 2.00 pesticidas
Modo = 4.00 pesticidas Modo = 2.00 pesticidas
Q1 = 3.00 pesticidas Q1 = 1.00 pesticidas
Q3 = 5.00 pesticidas Q3 = 3.00 pesticidas
xmín = 1.00 pesticidas xmín = 0.00 pesticidas
xmáx = 6.00 pesticidas xmáx = 5.00 pesticidas
S2 = 1.886 pesticidas2 S2 = 1.92 pesticidas2
S = 1.373 pesticidas S = 1.386 pesticidas
CV = 38.8 % CV = 60.8 %
Rango = 5.00 pesticidas Rango = 5.00 pesticidas
RI = 2.00 pesticidas RI = 2.00 pesticidas

14. jaaa
Fertilizante A Fertilizante B
x̄ = 17.81 cm x̄ = 20.64 cm
Mediana = 17.95 cm Mediana = 20.15 cm
Q1 = 15.2 cm Q1 = 18.5 cm
Q3 = 19.9 cm Q3 = 23.4 cm
xmín = 10.8 cm xmín = 12.1 cm
xmáx = 26.0 cm xmáx = 26.1 cm
S2 = 11.2313 cm2 S2 = 11.7474 cm2
S = 3.5313 cm S = 3.4274 cm
CV = 18.8 % CV = 16.6 %
Rango = 11.2 cm Rango = 14.0 cm
RI = 4.7 cm RI = 4.9 cm

21. (b) jaaa


Conjunto 1 Conjunto 2 Conjunto 3
Media 105 105 105
Mediana 105 105 105
Desviación estándar 3.2 0 6.3
Variancia 10.00 0 40.00
Rango intercuartil 6 0 12
1.8 Respuestas 39

23. 295 mg/dL

26. Media aritmética = 2.895 g/100g


Mediana = 2.92 g/100 g
Q1 = 2.74 g/100g
Q3 = 3.02 g/100g
Desviación estándar = 0.215 g/100g

También podría gustarte