Estadística Descriptiva: 1.1 Introducción
Estadística Descriptiva: 1.1 Introducción
ESTADÍSTICA DESCRIPTIVA
1.1 Introducción
El objetivo de la estadística descriptiva es resumir la información contenida en un conjunto de
datos, de la manera más concisa y completa posible. Esto puede hacerse mediante la construcción
de tablas y gráficos y el cálculo de ciertas características numéricas llamadas "estadísticas".
Veamos un ejemplo. A continuación se presentan los datos obtenidos para evaluar el efecto de la
aplicación de dos fertilizantes utilizados en el cultivo de girasol, sobre diferentes características de las
plantas. En una estación experimental agropecuaria, se eligieron al azar 30 plantas de cada uno de
dos lotes sembrados con la misma variedad pero tratados con diferentes fertilizantes. En cada planta
se registraron el número de hojas, el diámetro del capítulo (flor), la altura de la planta, el diámetro
del tallo y la calidad del llenado del capítulo a los 110 días de la siembra.
Racca, Bottai, Ivancovich, Piskulic, Prunello, Allasia, Silva Quintana, Daurelio (2018). Problemas de Estadística aplicados a la Biología y la
Química. Capítulo 1. UNR Editora, Rosario.
8 Capítulo 1. Estadística descriptiva
● Una unidad es el ítem sujeto a observación (una alícuota de una solución, un extendido de
sangre periférica, un animal, etc.).
● Cada unidad puede ser observada en relación con una o varias características. Una caracte-
rística que puede variar de unidad a unidad se denomina variable (concentración, densidad,
pH en el caso de una solución, porcentaje de eosinófilos en un extendido de sangre periférica,
peso, edad, sexo, etc. en un animal).
1.2 Clasificación de variables 9
En el ejemplo se estudió una variable cualitativa, el llenado del capítulo. Las categorías posibles
son: malo, regular y bueno. Estas pueden ser codificadas como malo = 1, regular = 2 y bueno = 3. La
suma, diferencia o promedio no tiene sentido en este caso.
Variables cuantitativas son aquellas que toman valores numéricos para los cuales tienen sentido
las operaciones aritméticas. Estas variables pueden ser discretas o continuas. Si la variable puede
asumir, teóricamente, cualquier valor de un intervalo se denomina continua en dicho intervalo y
si sólo puede tomar en él valores aislados, discreta.
En nuestro ejemplo, las variables cuantitativas son el número de hojas, el diámetro del capítulo,
la altura y el diámetro del tallo. La primera de ellas es discreta y las restantes continuas.
En la Figura 1.1 se presenta un esquema que resume la clasificación de variables ya vista.
VARIABLES
CUALITATIVAS CUANTITATIVAS
DISCRETAS CONTINUAS
Gráfico de sectores
La construcción del gráfico de sectores consiste en diagramar un círculo que representa al 100 %
de las unidades. El mismo se divide en tantos sectores como categorías existan. El área de cada sector
es proporcional al porcentaje de unidades que pertenecen a la categoría que representa. En la Figura
1.2 se presenta el gráfico de sectores para calidad de llenado del capítulo.
Gráfico de barras
En el gráfico de barras se representa una barra para cada categoría. La longitud de cada una de
ellas es proporcional al porcentaje de unidades que pertenecen a la categoría y el ancho es el mismo
para todas. La Figura 1.3 muestra la utilización del gráfico de barras para representar el llenado con los
10 Capítulo 1. Estadística descriptiva
datos de cada tipo de fertilizante por separado. Esta información puede presentarse conjuntamente
en un gráfico de barras subdivididas o de barras adyacentes (Figura 1.4).
Bueno 43.3%
Malo 25%
Regular 31.7%
Figura 1.3: Distribución porcentual del llenado del capítulo según fertilizante
Fertilizante A Fertilizante B
Bueno Bueno
Regular Regular
Malo Malo
0 10 20 30 40 0 10 20 30 40 50 60
Porcentaje Porcentaje
Fertilizante A Llenado
Malo
Regular
Bueno
Fertilizante B
0 10 20 30 40 50 60
Porcentaje
Diagrama de Pareto
El diagrama de Pareto es un tipo especial de gráfico de barras. La frecuencia de cada categoría
se representa en el eje vertical y las distintas categorías se indican en el eje horizontal en orden
descendente de acuerdo con el número de observaciones de cada una de ellas. Se suele agregar
un eje vertical derecho para representar el porcentaje de veces que se observó una categoría o las
1.4 Variables cuantitativas 11
que se encuentran a su izquierda (porcentaje acumulado). Una línea sobre el diagrama conecta los
porcentajes acumulados a través de las distintas categorías. Estos diagramas son muy útiles en los
programas de mejoramiento de calidad porque permiten enfocar la atención en los defectos más
frecuentes de un producto o proceso.
Veamos un ejemplo. Los errores en las pesadas pueden ser atribuidos a distintas causas: la
adsorción de la humedad en la superficie del recipiente de pesada (a); no permitir que los recipientes
se enfríen alcanzando la misma temperatura que la balanza antes de pesar (b) y un inadecuado
mantenimiento de las pesas (c). Con el fin de lograr un mejoramiento del proceso de pesada, un
laboratorio empleó diversos procedimientos para determinar la causa del error presente en 180
mediciones. Se encontraron las siguientes frecuencias para cada causa: (a) 81 casos (45 %), (b) 54 casos
(30 %) y (c) 27 casos (15 %). El 10 % restante corresponde a la categoría “otras” (d). La representación
de la distribución de las causas de error mediante un diagrama de Pareto se presenta en la Figura 1.5.
Podemos concluir, por ejemplo, que el 30 % de los errores observados son de tipo b y el 75 % de los
errores son de tipo a o de tipo b.
180 ● 100
●
Frecuencia absoluta
144 80
●
Porcentaje
108 60
●
72 40
36 20
0 0
a b c d
Diagrama de puntos
Sea x la variable altura de la planta, cuyos valores observados son: 2.45, 2.59, . . . , 2.28, . . . , 2.15,
2.41. Los mismos se simbolizan con x1 , x2 , ..., xi , ..., xn ; indicando el subíndice el orden de observación
del dato (xi será el valor de la variable x observado en la i-ésima unidad elegida, i = 1, 2, . . . , n; siendo
n el número total de datos obtenidos). Para este ejemplo se tiene n = 60, x1 = 2.45 m y x60 = 2.41 m.
El conjunto de datos x1 , x2 , ..., xi , ..., xn puede representarse en un diagrama de puntos. Este
permite en forma rápida visualizar la distribución de los datos sobre una escala real. Los valores de la
variable se indican sobre el eje de abscisas. Cada valor observado se marca con una cruz o un punto
arriba del número que le corresponde en el eje de abscisas. Si existen dos o más unidades con el
mismo valor, las cruces o puntos correspondientes se alinean en forma vertical. En el eje de ordenadas
se representa la frecuencia absoluta o número de veces que se presentó cada valor.
El diagrama de puntos resultante para la variable altura de la planta se muestra en la Figura 1.6.
12 Capítulo 1. Estadística descriptiva
5
4
3
2
1
0
2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9
Altura (m)
● En primera instancia, cada observación debe ser separada en un tallo y una hoja. Generalmente
la hoja está constituida por el último dígito y el tallo por los restantes (uno o más dígitos). Así,
para el valor 2.45 m el tallo es 2.4 y la hoja, 5.
● Luego se ordenan los tallos de menor a mayor en forma vertical, trazando una línea a la derecha
de ellos. Finalmente, se une cada hoja al tallo correspondiente, ordenándolas en sentido
creciente al alejarse del tallo.
La Figura 1.7 muestra el diagrama de tallo y hoja para la variable altura de la planta.
20 8
21 245
22 156789
23 012379
24 001245666666779
25 01233444667788999
26 122445
27 12356
28 9
Figura 1.9: Idealización de los diagramas de tallo y hoja luego de una rotación de 90º
Situación 2 Situación 3
2.1 2.3 2.5 2.7 2.9 2.1 2.3 2.5 2.7 2.9
Altura (m)
Fertilizante A Fertilizante B
20 8
2 21 45
986 22 157
71 23 0239
977666654 24 001266
99764321 25 034467889
4422 26 15
65 27 123
9 28
A partir de la observación del diagrama de tallo y hoja y del de puntos, se puede ubicar aproxima-
damente el valor central del conjunto de datos y tener idea de la variabilidad de los mismos alrededor
de ese valor central, de la simetría, del número de picos, etc.
Otra utilidad de estos gráficos es la detección de outliers, observaciones que se encuentran “lejos”
del resto de los datos. Más adelante precisaremos mejor este concepto.
Gráfico de bastones
A menudo resulta de interés efectuar un resumen de los datos mediante una tabla de frecuencias
a través de un agrupamiento de los mismos.
Cuando el número de observaciones es grande pero hay pocos valores diferentes, como ocurre
generalmente cuando la variable es discreta, la tabla consta de los m valores diferentes observados
de la variable (simbolizados con xj , variando j de 1 a m) y del número de veces que se repite cada uno
de ellos o frecuencia absoluta (simbolizada con fj ).
También suelen utilizarse la frecuencia relativa (simbolizada con hj ) que se define como el cociente
entre la correspondiente frecuencia absoluta y el número total de datos; la frecuencia absoluta
acumulada (simbolizada con Fj ) igual al número de observaciones menores o iguales a xj y frecuencia
relativa acumulada (simbolizada con Hj ) definida como el cociente entre la correspondiente frecuencia
absoluta acumulada y el número total de datos.
A continuación se presenta dicha tabla para la variable número de hojas del ejemplo:
Frecuencia Frecuencia
Frecuencia Frecuencia
Nº de hojas (xj ) absoluta relativa
absoluta (fj ) relativa (hj )
acumulada (Fj ) acumulada (Hj )
5 1 0.0167 1 0.0167
6 2 0.0333 3 0.0500
7 5 0.0833 8 0.1333
8 7 0.1167 15 0.2500
9 9 0.1500 24 0.4000
10 9 0.1500 33 0.5500
11 11 0.1833 44 0.7333
12 8 0.1333 52 0.8667
13 6 0.1000 58 0.9667
14 2 0.0333 60 1.000
Total 60 1
Histograma de frecuencias
En el caso en que la variable toma muchos valores diferentes, como ocurre generalmente con
observaciones de una variable continua, los pasos para la construcción de la tabla de frecuencias son
los siguientes:
1.4 Variables cuantitativas 15
12
10
Frecuencia absoluta
8
0
5 6 7 8 9 10 11 12 13 14
Número de hojas
● Se determina un intervalo que incluya a todos los datos; para ello se calcula la diferencia entre
el mayor y el menor valor observados de la variable x en estudio. En nuestro caso, para la
variable altura de la planta: 2.89 – 2.08 = 0.81 m. Podemos entonces tomar un intervalo total
cuya amplitud sea 0.88, para comenzar en 2.05 y finalizar con 2.93 m.
● También pueden calcularse la frecuencia relativa (hj ) que se define como el cociente entre
la correspondiente frecuencia absoluta y el número total de datos; la frecuencia absoluta
acumulada (Fj ) igual al número de observaciones menores o iguales al límite superior del
intervalo correspondiente y frecuencia relativa acumulada (Hj ) definida como el cociente entre
la correspondiente frecuencia absoluta acumulada y el número total de datos.
La tabla 1.3 presenta la distribución de frecuencias para la variable altura de la planta. Como se
puede observar, con esta forma de agrupamiento se ha perdido parte de la información original,
porque sólo sabemos cuántos datos caen dentro de un intervalo pero no conocemos el valor de cada
uno de ellos. Por lo cual, el número de intervalos no debe ser muy pequeño para que su amplitud
no resulte muy grande y de esa manera se pierda demasiada información original. El número de
intervalos tampoco debe ser muy grande ya que no se cumpliría con el objetivo del agrupamiento.
● Se representan en el eje de las abscisas los intervalos en que se agruparon los valores de la
variable y en el eje de las ordenadas la frecuencia absoluta o la frecuencia relativa.
16 Capítulo 1. Estadística descriptiva
Frecuencia Frecuencia
Frecuencia Frecuencia
Intervalos (m) absoluta relativa
absoluta (fj ) relativa (hj )
acumulada (Fj ) acumulada (Hj )
(2.05 – 2.16] 4 0.0667 4 0.0667
(2.16 – 2.27] 4 0.0667 8 0.1333
(2.27 – 2.38] 7 0.1167 15 0.2500
(2.38 – 2.49] 16 0.2667 31 0.5167
(2.49 – 2.60] 17 0.2833 48 0.8000
(2.60 – 2.71] 7 0.1167 55 0.9167
(2.71 – 2.82] 4 0.0667 59 0.9833
(2.82 – 2.93] 1 0.0167 60 1.000
Total 60 1
● Sobre cada uno de los subintervalos se grafica un rectángulo cuya área representa la frecuencia
(absoluta o relativa) del mismo. Cuando todos los subintervalos son de igual amplitud, la base de
cada rectángulo se considera el segmento unitario y por lo tanto la altura es numéricamente igual
a la frecuencia del correspondiente subintervalo. En el caso que la amplitud de los subintervalos
(∆j ) no sea la misma, se grafica en el eje de ordenadas el cociente fj /∆j o hj /∆j de manera que el
área del rectángulo siga representando la frecuencia.
20
Frecuencia absoluta
15
10
0
2.05 2.16 2.27 2.38 2.49 2.60 2.71 2.82 2.93
Altura (m)
Diagrama de dispersión
Un diagrama de dispersión muestra la relación entre dos variables cuantitativas. Los valores de
una variable se sitúan en el eje de las abscisas y los valores de la otra en el de las ordenadas. Cada
par de observaciones viene representado en el gráfico por un punto. El grafico puede revelar la
naturaleza de la relación entre las variables, analizando las siguientes características:
● Forma: cuando los puntos del diagrama de dispersión se sitúan aproximadamente a lo largo
1.4 Variables cuantitativas 17
de una recta se dice que la relación es lineal. Otras formas que pueden presentarse son
agrupaciones, relaciones curvilíneas u otras no definidas o claras.
● Dirección: si la relación entre las dos variables tiene una dirección clara, decimos que existe
una asociación positiva cuando a valores mayores de una variable le corresponden en general
valores mayores de la otra o negativa en el caso en que a valores menores de una variable le
corresponden valores mayores de la otra.
● Intensidad: la fuerza de la relación estará dada por la proximidad de los puntos a la curva
que se supone describe el comportamiento de una en función de la otra.
Si se consideran las variables del ejemplo diámetro del capítulo y altura de la planta, el gráfico de
dispersión permite decir que la relación es directa, lineal y no muy intensa (ya que se observa gran
dispersión de los puntos alrededor del patrón lineal, Figura 1.13).
Figura 1.13: Distribución conjunta del diámetro del capítulo y la altura de la planta
30
25
Altura (m)
20
15
10
2.0 2.2 2.4 2.6 2.8 3.0
Diámetro del capítulo (cm)
CUALITATIVA CUANTITATIVA
Barras
Puntos Tallo y hoja Tallo y hoja
Sectores
Tallo y hoja Bastones Histograma
Pareto
18 Capítulo 1. Estadística descriptiva
1.4.2 Estadísticas
Para completar la descripción de los datos se calculan las principales medidas características
del conjunto llamadas estadísticas. Dentro de ellas, podemos hablar de medidas de posición (dan
una idea de la localización de los datos) y medidas de dispersión (se refieren a la variabilidad de los
mismos).
Estadísticas de posición
Las principales medidas de posición son: la media aritmética, las fractilas o cuantilos, entre ellos
la mediana o cuantil del 50 %, y el modo.
Media aritmética: es la suma de los valores observados dividida por el número total de datos. Es
la abscisa del centro de gravedad de la distribución de frecuencias. Así, si x1 , x2 , ....., xi , ....., xn
representan los n valores observados de la variable x:
1 1 n
x̄ = (x1 + x2 + ... + xn ) = ∑ xi
n n i=1
En nuestro ejemplo, si calculamos la media aritmética para las variables número de hojas y altura
de la planta concluimos que el número de hojas promedio por planta fue de 10.0 hojas y la altura
promedio fue de 2.475 m.
Fractilas o cuantilos: La fractila de orden r es aquel valor tal que el r % (0 ≤ r ≤ 100) de las
observaciones son menores o iguales que él. Distinguiremos las fractilas más importantes:
● Mediana: es aquel valor de la variable que se encuentra en el lugar central del conjunto
ordenado de datos. La mitad de las observaciones son menores o iguales que él y la otra
mitad son mayores.
● Los tres valores que dividen a los datos ordenados en cuatro partes con aproximadamente
el mismo número de datos se denominan cuartilos, a los que simbolizaremos Q1 , Q2 y Q3 . El
primer cuartil es el valor tal que el 25 % de las observaciones son menores o iguales que
él. El segundo cuartil es la mediana y el tercer cuartil es aquel valor tal que el 75 % de las
observaciones son menores o iguales que él.
Para calcular la mediana de una distribución se procede de la siguiente forma. Se ordenan las
observaciones de menor a mayor. Si el número de observaciones es impar, la mediana es el valor
central del conjunto. Si el número de observaciones es par, la mediana es el promedio de las dos
observaciones centrales.
El primer cuartil se calcula como la “mediana” del conjunto de observaciones menores a Q2 y el
tercer cuartil como la “mediana” del conjunto de observaciones por encima de Q2 . Si el número de
observaciones es impar la mediana se excluye para calcular Q1 y Q3 . Algunos programas suelen usar
reglas diferentes, por lo cual los resultados pueden no coincidir exactamente con los obtenidos con
nuestra regla.
A continuación se presentan los valores ordenados de la variable altura de la planta del ejemplo:
2.08 2.12 2.14 2.15 2.21 2.25 2.26 2.27 2.28 2.29 2.3 2.31
2.32 2.33 2.37 2.39 2.4 2.4 2.41 2.42 2.44 2.45 2.46 2.46
2.46 2.46 2.46 2.46 2.47 2.47 2.49 2.5 2.51 2.52 2.53 2.53
2.54 2.54 2.54 2.56 2.56 2.57 2.57 2.58 2.58 2.59 2.59 2.59
2.61 2.62 2.62 2.64 2.64 2.65 2.71 2.72 2.73 2.75 2.76 2.89
1.4 Variables cuantitativas 19
Ya que el número de datos es par, se procede a ubicar las dos observaciones centrales y a calcular
el promedio de ellas. La mediana, primer y tercer cuartil resultan iguales a:
Por lo tanto, se informa que el 50 % de las plantas presentó una altura menor o igual a 2.48 m, el
25 % menor o igual a 2.38 m y el 75 % menor o igual a 2.585 m.
La media aritmética depende de todas los valores observados, por lo que la presencia de un
valor anormalmente grande o pequeño influye sensiblemente en ella. En estas ocasiones, la media
aritmética no es una medida adecuada de posición central, usándose entonces la mediana como
medida de tendencia central más representativa. Aclaremos esto a través de un ejemplo. Se registra
la temperatura máxima en cinco días de un mes (en ºC):
21 22 24 26 28
21 22 24 26 40
La media aritmética y la mediana resultan, respectivamente: 26.6 y 24 ºC. En este caso la media
aritmética no es una buena medida de tendencia central, ya que el 80 % de las temperaturas son
menores que ella. Como vemos, la mediana es más “resistente” a la presencia de valores extremos.
Pensemos en tres curvas que idealizan los contornos de distintos histogramas: uno simétrico, otro
asimétrico a la derecha y el tercero asimétrico a la izquierda. Ubique la media y la mediana, en la
Figura 1.15 en la que se ejemplifican estas situaciones.
Modo: es el valor de la variable que se presenta mayor número de veces, es decir, el que tiene la
mayor frecuencia.
En nuestro ejemplo, el modo de la variable altura de la planta es igual a 2.46 m, puesto que esta
fue la altura que presentaron más plantas.
Puede ocurrir que un conjunto de datos no presente modo, si todos los valores poseen igual
frecuencia, o bien que haya más de uno.
El modo es la única medida de posición que puede usarse para datos provenientes de una variable
cualitativa. Así, en nuestro ejemplo, la calidad de llenado del capítulo más frecuente es “bueno”.
20 Capítulo 1. Estadística descriptiva
Estadísticas de dispersión
Las medidas de posición son útiles pero resumen sólo parte de la información contenida en el
conjunto de datos. Podemos tener dos conjuntos de observaciones con aproximadamente la misma
media, mediana y modo, pero que difieran en cuánto se alejan del valor “central”.
Para aclarar este último punto veamos un ejemplo: los siguientes datos corresponden a 10 medi-
ciones reiteradas de la concentración de paracetamol ( %p/p), realizadas sobre comprimidos molidos
a fino polvo homogéneo en mortero, aplicando dos métodos distintos, ensayo espectrofotométrico
(EE) y espectroscopía de reflectancia (ER) en el infrarrojo cercano.
EE 83.85 83.90 83.72 83.92 83.92 84.02 83.92 84.16 84.02 84.13
ER 83.92 83.72 83.84 84.20 83.92 84.16 84.02 83.60 84.13 84.26
Las medidas de posición calculadas para los valores de concentración de paracetamol fueron:
Las distribuciones de los valores de concentración de paracetamol para ambos métodos se repre-
sentan en la figura 1.16.
EE ER
4
Frecuencia absoluta
0
83.6 83.8 84.0 84.2 83.6 83.8 84.0 84.2
Concentración de paracetamol (%p/p)
Las medidas de posición son prácticamente las mismas para las observaciones obtenidas con
uno y otro método. Sin embargo, ellas no resumen en forma completa la información contenida en
cada conjunto de datos. Por ejemplo, en el primer caso las observaciones están más concentradas
alrededor del valor central que en el segundo. Surge entonces la necesidad de definir medidas que
den idea de la variabilidad de los valores observados.
Las medidas de dispersión que estudiaremos son el rango, la variancia, la desviación estándar, el
coeficiente de variación y el rango intercuartil.
En nuestro ejemplo, para el método EE el rango observado resultó igual a 84.16 – 83.72 = 0.44 %p/p,
mientras que para el método ER fue igual a 0.66 %p/p, evidentemente mayor.
1.4 Variables cuantitativas 21
El rango sólo tiene en cuenta la variabilidad entre los valores extremos y no nos proporciona una
medida de la concentración de los datos alrededor del valor “central”. Se utiliza cuando el número de
observaciones es pequeño, ya que, como los datos intermedios son pocos la diferencia entre el mayor
y menor valor nos da idea de la variación de los datos.
Variancia: cuando se usa la media aritmética como medida de posición, debe definirse una carac-
terística que sirva como medida de la variabilidad, en promedio, de los datos respecto de la media.
Por lo tanto, debe basarse en el siguiente desvío: (xi − x̄). Pero la suma de esos desvíos es nula,
puesto que:
n n
∑(xi − x̄) = ∑ xi − nx̄ = nx̄ − nx̄ = 0
i=1 i=1
De aquí se deduce que si se desea definir una medida de variabilidad promedio, la suma anterior
no servirá como base pues, sea cual fuere la variabilidad de los datos respecto del promedio, la
misma valdrá siempre cero.
Tomaremos como medida de dispersión a una característica que se basa en la suma de los
cuadrados de esos desvíos. La medida promedio de dispersión más lógica sería:
1 n 2
∑(xi − x̄)
n i=1
1 n
s2 = ∑(xi − x̄)
2
n − 1 i=1
Justificaremos más adelante el por qué de la corrección efectuada.
Si no existe variabilidad en el conjunto de datos, o sea que cada observación xi es igual a x̄, la
variancia resultaría igual a 0. A mayor variabilidad, mayor s2 .
Para nuestro ejemplo la variancia de la variable concentración de paracetamol aplicando el método
EE resulta igual a 0.0171 ( %p/p)2 y con el método ER, 0.0469 ( %p/p)2 .
Si el conjunto de observaciones son mediciones reiteradas de una misma magnitud, como en el
caso de este ejemplo, la variancia nos refleja la precisión de la medida. A mayor variancia, menor
precisión. Por lo cual, el método EE es aparentemente más preciso que el otro.
Si las observaciones provienen de unidades diferentes, la variancia es medida de la homogeneidad
del conjunto. Este es el caso de las mediciones de la altura de las 60 plantas de girasol. A menor
variancia, mayor homogeneidad.
Desviación estándar: se define esta medida como la raíz cuadrada positiva de la variancia:
¿
Á 1 n
s = +Á
À ∑(xi − x̄)2
n − 1 i=1
Coeficiente de variación: es la desviación estándar dividida por la media aritmética, o sea que es
la desviación estándar medida en unidades de la media aritmética.
s
CV =
∣x̄∣
Es una medida adimensional que indica qué proporción representa la desviación estándar respecto
de la media aritmética. Se utiliza con frecuencia en la comparación de la variabilidad de dos o más
conjuntos de datos que difieren en unidades y/o magnitudes.
Los coeficientes de variación (en porcentaje) de la variable concentración de paracetamol para el
método EE y ER resultaron respectivamente 0.16 % y 0.26 %. La desviación estándar representa un
0.16 % de la media aritmética en el primer caso y un 0.26 % en el segundo.
Rango intercuartil: es la diferencia entre el tercer cuartilo y el primero, es decir:
RI = Q3 − Q1
El rango intercuartil es una medida de dispersión que no está influenciada por valores extremos.
Cuando se usa la mediana (Q2 ) como medida de posición, el rango intercuartil es la medida de
dispersión adecuada para acompañarla.
Por lo tanto, el rango intercuartil para el primer método es:
El rango intercuartil mide la dispersión del 50 % de los datos centrales. Si su valor es pequeño, nos dice
que el conjunto del 50 % central de las observaciones es poco variable, nada nos dice de las restantes.
El rango intercuartil de la altura de la planta resulta igual a 2.585 m – 2.38 m = 0.205 m. El 50 %
central de los valores de altura cae en un rango de 0.205 m.
Boxplot. Outliers
Si tenemos en cuenta los cuartilos y los valores observados mínimo y máximo, obtenemos un
conjunto de cinco números que brindan un buen resumen de nuestros datos.
Con esos cinco valores, podemos construir un gráfico llamado boxplot o diagrama de caja.
Este gráfico se construye diagramando una caja (box) cuyo lateral izquierdo (o inferior) representa
a Q1 y el derecho (o superior) a Q3 , de modo que la longitud de la caja es el rango intercuartil.
La mediana se representa como una línea dentro de la caja. Dos líneas hacia la izquierda y derecha
(o hacia abajo y hacia arriba), llamadas whiskers o bigotes, se extienden hasta los valores extremos.
Para los valores observados de la concentración de paracetamol medido por EE los cinco números
a tener en cuenta para su construcción son:
Q1 = 83.9 %p/p
Q2 = 83.92 %p/p
Q3 = 84.02 %p/p
Valor mínimo = 83.72 %p/p
Valor máximo = 84.16 %p/p
Este gráfico brinda una medida central, la mediana, y una idea de la dispersión a través del rango
y del rango intercuartil. La posición de la mediana dentro de la caja y la semejanza en la longitud de
los bigotes nos dan idea de simetría de la distribución, aunque el histograma y el diagrama de tallo y
hoja son más útiles en este aspecto (Figura 1.17).
En la Figura 1.14 se presenta un diagrama con los gráficos adecuados a cada tipo de variable.
¿Dónde ubicaría el boxplot?
1.4 Variables cuantitativas 23
ER
EE
Una modificación de este gráfico permite detectar potenciales outliers (observaciones que no
son típicas del conjunto). Se considerarán potenciales outliers aquellas observaciones que caigan por
fuera de:
Q1 − 1.5 RI
Q3 + 1.5 RI
La modificación del gráfico consiste en extender los whiskers hasta las observaciones mínima y
máxima que no sean puntos atípicos. Los outliers se marcan en el gráfico como puntos separados de
los whiskers.
Para realizar el boxplot modificado (Figura 1.19) de la variable diámetro del tallo de las plantas,
calculamos:
24 Capítulo 1. Estadística descriptiva
Q1 = 2.3 cm
Q2 = 2.5 cm
Q3 = 3.6 cm
RI = 1.3 cm
Valor mínimo = 2.0 cm
Valor máximo = 8.3 cm
Q1 − 1.5RI = 0.35 cm
Q3 + 1.5RI = 5.55 cm
Por lo tanto, todo valor menor a 0.35 cm y superior a 5.55 cm se considerará potencial outlier. Al
revisar el conjunto de datos, no se observa ningún valor inferior a 0.35 cm, razón por la cual el bigote
izquierdo no se modifica. En cambio sí se detectan dos datos superiores a 5.55 cm: 7.4 y 8.3 cm. Luego,
el bigote derecho se modifica extendiéndose sólo hasta 5.4 cm y las dos observaciones consideradas
potenciales outliers se marcan como puntos separados.
2 3 4 5 6 7 8
Diámetro del tallo (cm)
MEDIDAS DESCRIPTIVAS
(Estadísticas)
ESTADÍSTICAS ESTADÍSTICAS
DE POSICIÓN DE DISPERSIÓN
Para realizar la descripción de este conjunto de pocos datos de la variable contenido de Fe-
nitrothion (cuantitativa continua) se procede en primera instancia a ordenarlos de menor a
mayor.
4
Frecuencia absoluta
0
0.010 0.015 0.020 0.025 0.030 0.035 0.040
Fenitrothion (mg/kg)
(a) De posición:
1 15
x̄ = ∑ xi = 0.0205 mg/kg
15 i=1
Cada manzana presentó en promedio 0.0205 mg/kg de Fenitrothion.
(b) De dispersión:
Rango = 0.040 mg/kg - 0.011 mg/kg = 0.029 mg/kg
Los valores observados del contenido de Fenitrothion caen en un rango de 0.029 mg/kg.
1 15 2 −5 2
Variancia = ∑(xi − 0.0205) = 8.5695 × 10 (mg/kg)
15 − 1 i=1
√
Desviación estándar = s = + 8.5695 × 10−5 (mg/kg)2 = 0.00926 mg/kg
CV = 45.2 %
2. El objetivo de un estudio (K. Hjorth et al. / Food Control 22 (2011) 1701-706) fue investigar la
cantidad de pesticidas residuales en frutas y vegetales en diferentes países de Sudamérica. Se
observaron un total de 724 muestras de frutas y verduras provenientes de diferentes países.
Los siguientes datos corresponden al número de pesticidas encontrados por muestra:
Nº de pesticidas 0 1 2 3 4 5 6 7 8 9
Nº de muestras 139 169 143 113 82 43 21 10 2 2
Observamos que la variable x: número de pesticidas, toma pocos valores diferentes y cada valor
diferente se repite un determinado número de veces. Se trata de un conjunto de muchos datos
de una variable aleatoria discreta.
Completamos la tabla de frecuencias:
xj Nº de muestras (fj ) hj
0 139 0.19
1 169 0.23
2 143 0.20
3 113 0.16
4 82 0.11
5 43 0.06
6 21 0.03
7 10 0.014
8 2 0.003
9 2 0.003
Total 724
160
Frecuencia absoluta
120
80
40
0
0 1 2 3 4 5 6 7 8 9
Número de pesticidas
(a) De posición:
La fórmula de la media aritmética tiene otra expresión, considerando las frecuencias de
los valores.
1 n=724 1 m=10
x̄ = ∑ xi = ∑ xj fj = 2.2 pesticidas
724 i=1 724 j=1
Q2 = 2 pesticidas
Modo = 1 pesticida
1 n=724 2 1 m=10 2 2
Variancia = ∑ (xi − x̄) = ∑ (xj − x̄) fj = 3.2 pesticidas
723 i=1 723 j=1
CV = 82 %
3. En un ensayo clínico efectuado para comparar distintos tratamientos para la artritis reumatoidea
participaron 50 pacientes con la enfermedad. Se describieron las características basales de los
participantes, siendo una de las variables el nivel plasmático de proteína C reactiva (PCR). Las
observaciones se presentan a continuación (mg/L):
28 Capítulo 1. Estadística descriptiva
La información de la tabla anterior es más fácil de visualizar cuando los datos se ordenan en
intervalos:
Frecuencia Frecuencia
Intervalos Frecuencia Frecuencia
absoluta relativa
(mg/L) absoluta (fj ) relativa (hj )
acumulada (Fj ) acumulada (Hj )
(10; 22.5] 1 0.02 1 0.02
(22.5; 35.0] 5 0.10 6 0.12
(35.0; 47.5] 9 0.18 15 0.30
(47.5; 60.0] 15 0.30 30 0.60
(60.0; 72.5] 12 0.24 42 0.84
(72.5; 85.0] 5 0.10 47 0.94
(85.0; 97.5] 1 0.02 48 0.96
(97.5; 110.0] 2 0.04 50 1.00
16
110
Frecuencia absoluta
12 90
PCR (mg/L)
70
8
50
4 30
10
0
10.0 22.5 35.0 47.5 60.0 72.5 85.0 97.5 110.0
PCR (mg/L)
1.6 Ejercicios 29
El nivel plasmático de PCR medio en cada paciente resultó igual a 56.23 mg/L.
Q1 = 44.5 mg/L
Q3 = 67.2 mg/L
El 25 % de los pacientes tuvo niveles menores o iguales a 44.5 mg/Ly el 75 % menores o iguales
a 67.2 mg/L.
De dispersión:
Rango = 87.1 mg/L
RI = 22.7 mg/L
CV = 32.7 %
1.6 Ejercicios
4. Especifique el carácter de las siguientes variables:
Cuantitativa Cuantitativa
Cualitativa
Discreta Continua
Número de colonias de bacterias tróficas en un acuífero
Variedades de un cultivo de maíz
Contenido de aminoácidos de semillas de trigo
Número de defectos de una presentación farmacéutica
Tipo de tratamiento aplicado a pacientes con neumonía
Concentración de ión nitrato en agua
Número de cromosomas en distintas especies
30 Capítulo 1. Estadística descriptiva
Tabla 1.4: Argentina. Casos y porcentajes de positividad según grupos de edad. Semana 1 44 de 2017.
<2 <2
Virus
2 − 14 2 − 14 Adenovirus
Influenza
Otros
15 − 64 15 − 64 Parainfluenza
VSR
> 64 > 64
0 20 40 60 80 100 0 20 40 60 80 100
Porcentaje Porcentaje
Construya un diagrama de Pareto para describir la información presentada. Comente las carac-
terísticas de la distribución.
Posición Dispersión
Media aritmética
Rango intercuartil
Variancia
Mediana
Desviación estándar
Rango
Modo
Coeficiente de variación
9. Con referencia al ejercicio 7 (página 31), realice un boxplot modificado para detectar potenciales
outliers. Luego complete la descripción del conjunto calculando las restantes estadísticas de
posición y de dispersión.
10. Como parte de un trabajo cuyo objetivo fue estudiar los factores que afectan la variabilidad en
el número de cromosomas de una especie herbácea (Claytonia virginica, L.), se midió dicha
variable en 90 plantas de la especie mencionada.
24 28 28 28 27 28 29 29 29 30
28 36 32 29 30 30 29 31 29 31
24 28 29 28 35 33 28 24 28 29
31 31 24 28 29 30 31 31 30 29
28 30 33 28 34 38 28 32 33 34
30 28 28 31 32 34 39 40 31 35
27 28 34 29 28 31 35 30 29 24
28 31 32 28 32 28 28 31 28 29
30 33 41 30 29 42 28 29 36 32
11. Con el objeto de evaluar la calidad de comprimidos de paracetamol de 500 mg se llevó a cabo
un ensayo de uniformidad de unidades de dosificación. Se determinó el porcentaje de principio
activo respecto de lo rotulado en 80 comprimidos elegidos al azar de la producción diaria de
un laboratorio. Los datos se presentan a continuación.
32 Capítulo 1. Estadística descriptiva
94.1 96.4 97.8 98.3 99.3 100.1 101.0 101.9 103.4 94.2
96.7 97.8 98.3 99.4 100.1 101.1 102.1 103.5 94.3 96.8
97.9 98.5 99.4 100.1 101.1 102.2 103.6 94.8 97.1 97.9
98.6 99.5 100.1 101.1 102.6 103.9 95.0 97.1 98.0 99.0
99.5 100.3 101.2 102.9 104.3 95.6 97.2 98.0 99.0 99.6
100.4 101.4 103.0 104.7 95.7 97.3 98.1 99.1 99.8 100.5
101.4 103.1 105.5 96.1 97.7 98.1 99.2 99.9 100.5 101.4
103.2 105.8 96.2 97.8 98.2 99.2 99.9 100.9 101.8 103.2
(a) Proceda a construir el diagrama de tallo y hoja y el histograma e indique qué ventaja
posee el primero sobre el histograma.
(b) Realice el cálculo de las estadísticas de posición y de dispersión.
12. Para comparar la cantidad de pesticidas presentes en las manzanas producidas en dos regiones
geográficas diferentes (A y B) se analizaron 50 unidades provenientes de cada zona a fin de
medir el número de pesticidas presentes en ellas. Los resultados fueron:
Zona A Zona B
Nº de pesticidas Frecuencia Nº de pesticidas Frecuencia
0 0 0 4
1 5 1 12
2 6 2 14
3 12 3 10
4 14 4 6
5 10 5 4
6 3 6 0
13. Las variaciones en el contenido de ácido ascórbico en naranjas pueden deberse a diversos
factores, tales como variedad, prácticas de cultivo, grado de maduración y evolución de la
temperatura ambiente durante el período de cosecha de la fruta. El Código Alimentario Argen-
tino establece especificaciones acerca del contenido mínimo de ácido ascórbico en naranjas.
Con el propósito de evaluar el cumplimiento de dicha especificación, en un establecimiento se
eligieron al azar 103 frutas y se determinó el contenido en jugo recién exprimido en cada una
de ellas (mg/mL).
Realice un informe descriptivo de este conjunto de datos con la información que se brinda a
continuación.
Figura 1.25: Distribución del contenido de ácido ascórbico
9
8
Frecuencia absoluta
7
6
5
4
3
2
1
0
0.30 0.35 0.40 0.45 0.50 0.55 0.60
Ácido ascórbico (mg/mL)
14. Realice un informe descriptivo de las observaciones del diámetro del capítulo de las plantas de
girasol con cada fertilizante. Compare luego ambas distribuciones.
34 Capítulo 1. Estadística descriptiva
15. Indique si cada una de las siguientes expresiones es verdadera (V) o falsa (F):
• La media puede ser mayor que el valor observado más grande o menor que el más
chico.
• La media puede ser igual al valor más chico o igual al valor más grande
(considerando el caso en que los valores mínimo y máximo no sean iguales).
• La media puede ser un valor no observado.
• Si la distribución es simétrica coinciden media y mediana.
• La mediana es siempre un valor observado de la variable.
• La mediana de una distribución simétrica es el punto medio entre el mínimo y el
máximo valor observado.
• La desviación estándar de -1; -10; -6; -8; -12 es un número positivo.
• Dadas las observaciones 0; -1; 1; -2; 2 la mediana es 1.
• Si se aumenta el número de observaciones el rango puede disminuir.
• La media siempre disminuye a medida que aumenta el número de observaciones.
• Dos estudiantes midieron la concentración de un analito en una solución,
obteniendo una media de 10 mg/dL, mientras que otros cuatro, obtuvieron una media
de 14 mg/dL. La media considerando los seis estudiantes resulta igual a 12 mg/dL.
16. Considere las dos situaciones siguientes e indique en cuál de ellas la variancia de las mediciones
logradas es medida de la precisión del método usado:
30
25
Frecuencia absoluta
20
15
10
0
5 10 15 20 25 30 35 40
x
(c) En el segundo panel de la Figura 1.28 grafique ahora un histograma con aproximadamente
la misma media y mediana que el primero pero que refleje una mayor dispersión de los
datos.
Figura 1.28: Nuevos histogramas
Histograma 2 Histograma 3
30 30
25 25
Frecuencia absoluta
Frecuencia absoluta
20 20
15 15
10 10
5 5
0 0
5 10 15 20 25 30 35 40 5 10 15 20 25 30 35 40
x x
18. En un trabajo práctico, cada uno de los alumnos de una comisión mide la concentración de
colesterol-HDL en una misma muestra. El instructor a cargo de la clase informa que el promedio
de todas las mediciones obtenidas es de 73.5 mg/dL. Supongamos que el resultado de la
medición individual que Ud. efectuó fue de 74.60 mg/dL:
● Variables cualitativas
● Variables cuantitativas discretas
● Variables cuantitativas continuas
20. (a) ¿En qué caso conviene usar la mediana como medida de tendencia central en reemplazo
de la media?
(b) En ese caso, ¿cuál sería la medida de dispersión que acompañaría a la mediana?:
• desviación estándar
• variancia
• rango intercuartil
• coeficiente de variación
36 Capítulo 1. Estadística descriptiva
22. A continuación se presentan las notas de exámenes de tres comisiones de quince alumnos cada
una:
Comisión 1 : 50 70 70 70 70 70 70 70 70 70 70 70 70 70 90
Comisión 2 : 50 53 56 59 62 65 68 71 74 77 80 83 86 88 90
Comisión 3 : 50 50 50 50 50 50 50 70 90 90 90 90 90 90 90
201 217 169 175 295 250 196 187 222 142
24. Un total de 1470 alumnos de escolaridad primaria, de ambos sexos, fue estudiado con el fin de
efectuar un monitoreo de bocio endémico en cuatro localidades de la provincia de Santa Fe:
Reconquista (n = 404) y Villa Ocampo (n = 294) ubicadas en el norte de la provincia y Rufino
(n = 317) y Venado Tuerto (n = 455) ubicadas en el sur de la provincia. El examen palpatorio
reveló 10 niños con bocio en Reconquista, 9 en Villa Ocampo, 4 en Rufino y 16 en Venado Tuerto
(Rev Argent Endocrinol Metab 50:184-191, 2013). Realice un gráfico de barras adyacentes para
representar la información brindada.
25. En el trabajo citado en el ejercicio 24 (página 36), se tomaron 109 muestras de orina de los esco-
lares estudiados en la localidad de Reconquista midiendo el contenido de iodo. Las estadísticas
informadas fueron:
1.8 Respuestas 37
26. Según el Código Alimentario Argentino la leche entera de vaca destinada a ser consumida como
tal o a la elaboración de productos lácteos debe presentar ciertas características. Con el objeto
de controlar el contenido de proteínas totales se tomaron 60 muestras a lo largo de un mes en
una planta de producción láctea. Los resultados obtenidos fueron (g/100g):
1.8 Respuestas
9. x̄ = 0.4099 mg/L
Mediana = 0.411 mg/L
Modo = 0.409 mg/L
Q1 = 0.402 mg/L
Q3 = 0.4205 mg/L
xmín = 0.371 mg/L
xmáx = 0.433 mg/L
S2 = 0.00026 mg/L2
S = 0.0160 mg/L
CV = 3.9 %
Rango = 0.062 mg/L
RI = 0.0185 mg/L
Q1 − 1.5RI = 0.37425
Q3 + 1.5RI = 0.44825
Rango = 18 cromosomas
RI = 4 cromosomas
11. x̄ = 99.635 %
Mediana = 99.5 %
Modo = 100.1 %
Q1 = 97.85 %
Q3 = 101.4 %
xmín = 94.1 %
xmáx = 105.8 %
S2 = 7.33319( %)2
S = 2.70799 %
CV = 2.71791 %
Rango = 11.7 %
RI = 3.55 %
12. jaaa
Zona A Zona B
x̄ = 3.54 pesticidas x̄ = 2.28 pesticidas
Mediana = 4.00 pesticidas Mediana = 2.00 pesticidas
Modo = 4.00 pesticidas Modo = 2.00 pesticidas
Q1 = 3.00 pesticidas Q1 = 1.00 pesticidas
Q3 = 5.00 pesticidas Q3 = 3.00 pesticidas
xmín = 1.00 pesticidas xmín = 0.00 pesticidas
xmáx = 6.00 pesticidas xmáx = 5.00 pesticidas
S2 = 1.886 pesticidas2 S2 = 1.92 pesticidas2
S = 1.373 pesticidas S = 1.386 pesticidas
CV = 38.8 % CV = 60.8 %
Rango = 5.00 pesticidas Rango = 5.00 pesticidas
RI = 2.00 pesticidas RI = 2.00 pesticidas
14. jaaa
Fertilizante A Fertilizante B
x̄ = 17.81 cm x̄ = 20.64 cm
Mediana = 17.95 cm Mediana = 20.15 cm
Q1 = 15.2 cm Q1 = 18.5 cm
Q3 = 19.9 cm Q3 = 23.4 cm
xmín = 10.8 cm xmín = 12.1 cm
xmáx = 26.0 cm xmáx = 26.1 cm
S2 = 11.2313 cm2 S2 = 11.7474 cm2
S = 3.5313 cm S = 3.4274 cm
CV = 18.8 % CV = 16.6 %
Rango = 11.2 cm Rango = 14.0 cm
RI = 4.7 cm RI = 4.9 cm