Medidas de dispersión
1. Generalidades
La dispersión es la segunda propiedad más importante para describir una serie de datos
numéricos. Representa la cantidad de “variación” o “propagación” en los datos.
Los parámetros de dispersión son las medidas que indican cómo se concentra la distribución.
Dispersión es la variación de los valores de un conjunto de datos, y se refiere a la mayor o menor
concentración de valores en torno a un valor central. Poca dispersión muestra que la media es
representativa del conjunto de datos; por el contrario, una mayor dispersión significa menor
representatividad del parámetro de posición media aritmética.
La medida de dispersión se expresa a través de un número que indica el grado de concentración
en un conjunto de datos. Es un número que nos muestra la homogeneidad o heterogeneidad de
un conjunto de datos. Si este valor es pequeño, se dice que el conjunto de datos es homogéneo;
y es extremadamente homogéneo si el valor de la dispersión es igual a cero. En este último caso
todos los datos son iguales, completamente homogéneos.
Figura 1: Variación respecto de la media. Mismo centro con diferente dispersión
Fuente: elaboración propia.
En la figura 1 se comparan gráficamente dos distribuciones que tienen la misma medida de
posición, pero que son diferentes con respecto a la dispersión. La curva más aplanada está más
dispersa, o menos concentrada, que la distribución elevada y puntiaguda. Ambas distribuciones
tienen la misma media aritmética, sin embargo, un análisis de las medidas de dispersión concluirá
que son distintas.
En esta lectura se presentan las siguientes medidas de dispersión:
recorrido;
desviación cuartílica;
varianza;
desviación estándar.
2. Recorrido
El recorrido (también llamado rango) es una medida de dispersión que permite fácilmente conocer
si la dispersión es pequeña o no. Es utilizada para comparar series de datos, esta comparación
permite observar cuál de las series de datos varía más con respecto a otra o cuál de las series es
más homogénea.
La debilidad de este parámetro radica en que no tiene en cuenta lo que ocurre con los datos
intermedios entre los extremos del recorrido, o cómo se distribuyen los datos entre los dos
valores extremos.
Esta medida se calcula de la siguiente manera.
Fórmula (1)
La tabla 1 de ingresos promedios de los trabajadores metalúrgicos de Corcho S.A. permite
observar el rango y analizar el recorrido obtenido.
Tabla 1: Ingresos promedios de los trabajadores de Corcho S.A.
Fuente: elaboración propia.
De acuerdo con el valor mayor y el valor menor de la serie, se obtiene el siguiente resultado:
El rango es de $30.438,00.
En la tabla 2 se presenta otra serie de datos: los ingresos promedios de los trabajadores de la
empresa Indusmetal S.A.
Tabla 2: Ingresos promedios de trabajadores de Indusmetal S.A.
Fuente: elaboración propia.
En este caso el resultado es el siguiente, según el valor mayor y el valor menor de la serie:
El rango es de $33.873,00.
A partir de estos ejemplos, se puede concluir que el primer conjunto de datos es más homogéneo
que el segundo. Es decir, los ingresos del primer caso son más homogéneos que los del
segundo. Esto significa que la media será más representativa en la primera serie.
Características del recorrido
Está basado únicamente en dos valores: el más bajo y el más alto de un grupo de datos.
Puede ser influido por valores extremos. En este caso pasa a ser una medida no apropiada
de dispersión.
Al estar basado únicamente en los valores de los extremos de la serie, no se ve afectado
por los valores comprendidos entre ellos.
Desviación intercuartílica
La desviación intercuartílica (también llamada rango intercuartílico) es la diferencia entre el tercer
cuartil y el primero.
Fórmula (2)
Dispersión intercuartílica= Q3 - Q1
Esta medición considera la propagación observada en el 50 % de los datos del medio de la
distribución. De esta manera no se ve influida por posibles valores extremos.
Los valores de los cuartiles se calculan con el mismo procedimiento utilizado para calcular la
mediana. En este caso, se obtienen medianas para las dos mitades de las observaciones de las
series numéricas. Entonces implica conocer (al igual que en el cálculo de los demás parámetros)
si los datos están agrupados o no.
Los cuartiles son medidas descriptivas que dividen en cuatro partes los datos ordenados. Cada
una de estas partes recibe el nombre de cuartil. El primer cuartil es superado por el 75 % de los
datos, y supera al 25 % de los datos. El segundo cuartil es igual a la mediana de la serie de
observaciones. Y el tercer cuartil es igual a la mediana de la segunda mitad de datos, lo que
significa que su valor supera al 75 % de los valores de los datos y es superado por no más del 25
%.
Datos no agrupados
En una serie ordenada de observaciones, los puntos en donde se encuentran los cuartiles son los
siguientes:
● orden Q1= n+1/4;
● orden Q2= 2(n+1) /4;
● orden Q3= 3(n+1) /4.
Si (n+1) es divisible por cuatro, el resultado será un valor entero.
Fórmula (3)
Orden Qk= (n+1) /4= j → Qk= xj
Para k=1, 2, 3.
Si, por el contrario, el valor (n+1) no es divisible por cuatro, el cálculo del orden de cada uno de
los cuartiles dará un número con decimales que puede tomar alguna de las siguientes formas:
● J,25 en donde Qk = Xj;
● J,5 en donde Qk = (xj+xj+1)/2;
● J,75 en donde Qk = xj+1;
Donde J es la parte entera del número. Tomará estos valores de acuerdo con cada una de las
posiciones de los cuartiles.
En el siguiente ejemplo se trabaja con los valores de las horas extras de una organización:
1 2 3 3 3 4 4 6 6 8
Orden Q1 = (n+1)/4 = 11/4 = 2,75 → Q1 = 3
Orden Q2 = 2(n+1)/4 = 2(10+1)/4 = 5,5 → Q2 = 4
Orden Q3= 3(n+1)/4 = 3(10+1)/4 = 8,25 → Q3 = 6
Se concluye que el 25 % de los trabajadores hacen 3 horas extras o menos, y que el 75 % de
ellos hacen 6 horas extras o menos. La mitad de los trabajadores (50 %) hace 4 horas extras o
menos.
Datos agrupados
Para determinar los cuartiles de un conjunto de datos agrupados, se deberá aplicar la siguiente
fórmula.
Fórmula (4)
Para k = 1, 2, 3; donde:
= límite inferior del cuartil k;
c = amplitud del intervalo del cuartil k;
n = tamaño de la muestra;
= frecuencia acumulada del intervalo inmediato anterior al cuartil k;
= frecuencia asociada al intervalo del cuartil k.
Para determinar el intervalo de clase donde se encuentra el cuartil k, se debe calcular k*n/4. El
intervalo de clase en donde se encuentra el cuartil k es aquel cuya frecuencia acumulada f’j sea
menor o igual que k*n/4.
En el libro “Estadística Básica en Administración”, de Mark Berenson y David Levine, se puede
consultar más información sobre el uso de los cuartiles como medidas de posición y medidas de
dispersión.
De acuerdo con los conceptos y procedimientos de cálculo de la mediana y de los cuartiles, los
déciles son valores de la variable que dividen a una clasificación ordenada en diez partes iguales.
Y los percentiles dividen una clasificación ordenada en cien partes iguales. Por ejemplo: en lugar
de buscar un valor que divida la distribución en dos partes iguales (mediana), o un valor que
tenga un cuarto de las observaciones por debajo y tres cuartos por encima (primer cuartil), se
puede dividir la distribución en diez deciles y buscar valores que tengan dos, tres, seis décimas
por debajo del valor fijado. O bien, dividir la distribución en 100 percentiles, que son menores en
orden de magnitud. Este tema se estudiará en profundidad más adelante.
Ejemplo de cálculo de desviación intercuartílica: en la tabla 3 se muestran los datos
nutricionales acerca de una muestra de 7 cereales para el desayuno, se incluye el número de
calorías por porción.
Tabla 3: Cereales y su cantidad de calorías por porción
Fuente: Mark y Levine, 1996, p. 99.
El primer paso es ordenar de menor a mayor los números de calorías de los 7 cereales.
Valores ordenados: 80 100 100 110 130 190 200
Posición: 1 2 3 4 5 6 7
Luego, se realiza el cálculo de los cuartiles.
Q1 = = = 2 valor ordenado 2° Q1 = 100 calorías.
Q3 = = = 6 valor ordenado 6° Q3 = 190 calorías.
Desviación intercuartílica = Q3 – Q1 = 190 -100 = 90 calorías.
Al intervalo de 100 a 190 usualmente recibe el nombre de cincuenta intermedio.
3. La varianza
El recorrido es una medición de la propagación total y el recorrido o desviación intercuartil es una
medición de propagación media. Sin embargo, ninguno de ellos tiene en consideración cómo se
distribuyen o agrupan las observaciones. La medida que sí tiene en cuenta este aspecto es la
varianza y su raíz cuadrada: la desviación estándar. Ambas evalúan la forma en que los valores
fluctúan alrededor de la media.
La varianza es el valor que muestra la heterogeneidad u homogeneidad en un grupo de
observaciones. Se define como la media aritmética del cuadrado de las desviaciones de cada
observación respecto a la media.
En el caso de la varianza, las fórmulas de población y muestra son diferentes entre sí. Esto se
diferencia de todos los otros valores cuyos cálculos entre parámetros y estimadores, o población
y muestra, son iguales y se presentan para datos agrupados o no agrupados.
Cálculo de la varianza para datos no agrupados
La varianza poblacional se calcula si se conocen los datos de todos los individuos de la
población. Se obtiene de la siguiente forma:
Fórmula (5)
= varianza poblacional
= sumatoria del cuadrado de las desviaciones de cada valor respecto a la media
poblacional.
N = cantidad de individuos de la población
La varianza muestral, que se utiliza cuando se disponen de los datos de una porción de la
población, se calcula de la siguiente forma:
Fórmula (6)
= varianza.
= sumatoria del cuadrado de las desviaciones de cada valor respecto a la media
muestral.
n = tamaño de la muestra.
Cálculo de la varianza para datos agrupado
En caso de disponer de datos agrupados, el cálculo de la varianza poblacional es el siguiente.
Fórmula (7)
= varianza poblacional.
mj = punto medio de la j-ésima clase.
fj = frecuencia de la j-ésima clase.
N = cantidad de individuos de la población.
La varianza muestral se obtiene de la siguiente manera.
Fórmula (8)
Respecto a mj: en el caso de datos agrupados en serie de frecuencias, representa a cada uno de
los valores que puede adoptar la variable. En el caso de datos agrupados en intervalos de clase,
mj será el valor medio del intervalo.
Características de la varianza
Considera cómo se distribuyen o agrupan las observaciones.
Muestra la homogeneidad en un grupo de observaciones.
Mide cómo las observaciones mayores fluctúan por encima de la media y cómo las
observaciones menores se distribuyen por debajo de ésta.
La suma de las desviaciones cuadradas permite estudiar la dispersión en los datos, ya que
la suma de las desviaciones alrededor de la media siempre es cero.
Debido al proceso de elevación al cuadrado, las observaciones que están más allá de la
media tienen más peso que las que están más cerca de la media.
La varianza será mayor cuanto más propagados o dispersos estén los datos.
Si las observaciones son todas iguales, la varianza es cero.
Cuanto más concentrados u homogéneos sean los datos, menor será la varianza.
Posee propiedades matemáticas muy útiles, pero no es práctica en algunas situaciones
descriptivas porque su resultado arroja unidades cuadradas.
4. Desviación estándar
Se ha observado que en la varianza las desviaciones respecto de la media se elevan al cuadrado.
En ese caso, se utilizan para comparar la concentración de los valores de la variable de dos o
más conjuntos de observaciones. Sin embargo, al calcularse como desvíos al cuadrado de la
variable respecto a la media, está elevada a una magnitud superior a la original. Por esta razón la
varianza no es útil como medida descriptiva. En su lugar se emplea la desviación estándar, que
consigue comparaciones en la misma magnitud.
La desviación estándar es igual a la raíz cuadrada de la varianza. Es la cantidad promedio en que
los valores de un conjunto de datos difieren de la media. Si el tamaño de la desviación estándar
es menor, significará que los valores se aproximan a la media y son homogéneos. Será más
disperso alrededor de la media, cuanto mayor sea la desviación estándar.
Al igual que en el caso de la varianza, la desviación estándar se calcula de manera poblacional y
muestral, con y sin agrupación de datos.
Cálculo de la desviación estándar para datos no agrupados
La desviación estándar poblacional para datos no agrupados se obtiene de la siguiente manera.
Fórmula (9)
= desviación estándar poblacional.
= sumatoria del cuadrado de las desviaciones de cada valor respecto a la media
poblacional.
N = cantidad de individuos de la población.
= raíz cuadrada.
La desviación estándar muestral para datos no agrupados se obtiene de la siguiente manera.
Fórmula (10)
S = desviación estándar.
= sumatoria del cuadrado de las desviaciones de cada valor respecto a
la media muestral.
n = tamaño de la muestra.
= raíz cuadrada.
Cálculo de la desviación estándar para datos agrupados
La desviación estándar poblacional para datos agrupados se obtiene de la siguiente manera.
Fórmula (11)
= desviación estándar poblacional.
= punto medio de la j-ésima clase.
= frecuencia de la j-ésima clase.
N = cantidad de individuos de la población.
= raíz cuadrada.
La desviación estándar muestral para datos agrupados se obtiene de la siguiente manera.
Fórmula (12)
Regla práctica de las desviaciones
Esta regla es una herramienta sencilla para comprender la desviación estándar. Se basa en el
principio de que, para muchos conjuntos de datos, casi el 95 % de los valores muestrales se
acomodan dentro de dos desviaciones estándar a partir de la media. Se puede mejorar la
exactitud de esta regla si se tiene en cuenta el tamaño de la muestra, la naturaleza de la
distribución, el uso de tres o cuatro desviaciones estándar en vez de dos. El objetivo es tener una
herramienta sencilla que ayude a interpretar los valores de las desviaciones estándar.
Para el uso de esta regla práctica, se definen los valores comunes de un conjunto de datos:
aquellos que son típicos y no demasiado extremos. Se pueden emplear de dos formas, que se
describen a continuación.
Para interpretar un valor conocido de la desviación estándar: si se tiene el valor de la
desviación estándar de un conjunto de datos, se la puede usar para estimar los valores
muestrales mínimos y máximos comunes:
valor mínimo “común” = (media) – 2 x (desviación estándar);
valor máximo “común” = (media) + 2 x (desviación estándar);
Ejemplo:
Una prueba de CI para adultos está diseñada con una media de 100 y una desviación estándar
de 15. Se calculan las puntuaciones de CI máxima y mínima “comunes”. Luego, se determina si
una puntuación del CI de 135 se consideraría “poco común”.
Valor mínimo “común” = (media) – 2 x (desviación estándar).
= 100 – 2 (15) = 70
Valor máximo “común” = (media) + 2 x (desviación estándar).
= 100 + 2(15) = 130
Con base en estos resultados se espera que una puntuación de CI típica se encuentre entre 70 y
130. Entonces, la puntuación de 135 es considerada poco común.
Para estimar el valor de la desviación estándar s: para tener una estimación de la desviación
estándar a partir de un conjunto de datos muestrales conocidos se puede usar el siguiente
cálculo:
s ≈
donde el recorrido = (valor máximo) – (valor mínimo).
Ejemplo:
Se estima la desviación estándar de una muestra de 100 calificaciones de crédito otorgadas por
la empresa FICO, que incluyen un mínimo de 444 y un máximo de 850.
s ≈ ≈ ≈ 101,5
El valor real de la desviación estándar es s = 92,2. Por ello la estimación de 101,5 se aleja
considerablemente. La regla práctica de las desviaciones brinda una estimación excesiva que
puede alejarse mucho del resultado real.
Regla empírica para datos con distribución normal
Esta regla es útil para interpretar el valor de una desviación estándar. Se aplica a conjuntos de
datos con una distribución aproximadamente normal (se puede observar en la figura 2).
Establece las siguientes propiedades:
Aproximadamente el 68 % de todos los valores están dentro de una desviación
estándar de la media.
Aproximadamente el 95 % de todos los valores están dentro de 2 desviaciones
estándar de la media.
Aproximadamente el 99,7 % de todos los valores están dentro de 3 desviaciones
estándar de la media. (Triola, 2013, p.106)
Ejemplo:
Las puntuaciones de CI tienen una distribución normal, con una media de 100 y una
desviación estándar de 15. ¿Qué porcentaje de las puntuaciones de CI se ubican entre 70
y 130?
La clave para resolver este problema consiste en reconocer que 70 y 130 están a 2
desviaciones de la media de 100, como se indica a continuación.
2 desviaciones estándar = 2s = 2(15) =30
Por lo tanto, 2 desviaciones estándar de la media equivalen a
100 – 30 = 70
100 + 30 = 130
La regla empírica nos indica que aproximadamente el 95% de todos los valores
están dentro de dos desviaciones estándar de la media, de manera que el 95% de
todas las puntuaciones de CI se encuentran entre 70 y 130. (Triola, 2013, p.106)
Figura 2: La regla empírica
Fuente: Triola, M. (2013). La regla empírica.
5. Teorema de Chebyshev
Este teorema es el tercer concepto útil para comprender o interpretar el valor de una desviación
estándar. El teorema de Chebyshev se aplica a cualquier conjunto de datos. Pero sus resultados
son solo aproximados, tiene una utilidad limitada porque los resultados son límites inferiores (“al
menos”) (Triola, 2013).
La proporción (o fracción) de cualquier conjunto de datos que está dentro de k desviaciones
estándar a partir de la media es al menos
100 %
Donde k es cualquier número positivo mayor que 1. Así para k = 2, k = 3 y k = 4 tenemos:
*al menos (3/4) 100 % o el 75 % de todos los valores están dentro de 2 desviaciones estándar
de la media;
*al menos (8/9) 100 % o el 89 % de todos los valores están dentro de 3 desviaciones estándar
de la media (Triola, 2013);
*al menos (15/16) 100 % o el 93,75 % de todos los valores están dentro de 4 desviaciones
estándar de la media.
Ejemplo:
“Las puntuaciones de CI tienen una media de 100 y una desviación estándar de 15. ¿Qué
podemos concluir de acuerdo con el teorema de Chebyshev?” (Triola, 2013, p.107)
2s = 2(15) = 30 entonces, 100 – 30 = 70 y 100 + 30 = 130
Al menos (3/4) 100 % o el 75 % de las puntuaciones de CI están dentro de 2 desviaciones
estándar de la media (entre 70 y 130) (Triola, 2013).
3s = 3(15) = 45, entonces 100 – 45 = 55 y 100 + 45 = 145
Al menos (8/9) 100 % o el 89 % de todas las puntuaciones de CI están dentro de 3 desviaciones
estándar de la media (entre 55 y 145) (Triola, 2013).
4s = 4(15) = 60 entonces, 100 – 60 = 40 y 100 + 60 = 160
Al menos (15/16) 100 % o el 93,75 % de todas las puntuaciones de CI están dentro de 4
desviaciones estándar de la media (entre 40 y 160).
El coeficiente de variación
Cuando se necesita comparar dos muestras cuyas medias son muy diferentes, o se
expresan en escalas o unidades de medición muy diferentes, se puede emplear el
coeficiente de variación. Es una medición relativa y se expresa en términos de porcentaje.
El coeficiente de variación (o CV) de un conjunto de datos muestrales o poblacionales sin
valores negativos, expresado como porcentaje, describe la desviación estándar en
relación con la media. El coeficiente de variación está dado de la siguiente forma:
Muestra
CV = * 100%
Población
CV = * 100%. (Triola, 2013, p. 108)
Ejemplo:
Compare la variación de las estaturas de hombres con la variación de sus pesos utilizando los
siguientes resultados obtenidos de una muestra del conjunto de datos de los cuales se tiene que
las estaturas de los hombres producen una = 68,34 pulgadas y s = 3,02 pulgadas; los pesos
producen = 172,55 lb y s = 26,33 lb (Triola, 2013).
No se pueden comparar las medias porque son muy distintas, tampoco las desviaciones
estándar. Están en distintas escalas y diferentes unidades, entonces se utiliza el coeficiente de
variación.
Estaturas: CV = * 100% = * 100% = 4,42 %
Pesos: CV = * 100% = * 100% = 15,26 %
Se observa que las estaturas con un CV = 4,42 % varían mucho menos que los pesos (con CV =
15,26 %). Esto tiene sentido porque normalmente los pesos de los hombres varían mucho más
que las estaturas. No es común encontrar un hombre adulto que mida el doble que otro, pero es
más normal encontrar un hombre que pese el doble que otro (Triola, 2013).
Referencias
Mark, L. B. y Levine, D. M. (1996). Estadística Básica en Administración, Concepto y
Aplicaciones. México: Pearson Educación.
Triola, M. F. (2013). Estadística. México: Pearson educación.