HISTOGRAMA DE FRECUENCIAS
– LA GUÍA COMPLETA
Un histograma es una forma rápida de visualizar los datos,
son habituales en estadística, pero también aparecen en
otros campos de las matemáticas y las ciencias, como la
física. Es una herramienta valiosa para entender la
distribución de los datos y para identificar los valores
atípicos. Esta guía le explicará ¿qué es un histograma? ¿Para
qué sirve?, además de su importancia y cómo hacer un
histograma de frecuencias.
¿Qué es un histograma de
frecuencias?
Un histograma de frecuencias es una representación
gráfica de un conjunto de datos que muestra la frecuencia
con la que se presenta cada valor.
Este gráfico está formada por barras verticales construidas
sobre una línea recta base (normalmente horizontal)
delimitada por los intervalos de la variable evaluada. Los
intervalos o clases corresponden a los de una tabla de
distribución de frecuencias. La altura de cada barra es
proporcional al número de observaciones que hay en ese
intervalo.
Partes del Histograma:
A continuación describimos las partes del histograma
mostradas en el gráfico:
Eje de Intervalos: Aquí se muestran los intervalos
definidos para nuestra variable de estudio.
Normalmente, los intervalos son del mismo tamaño.
Eje de Frecuencias: En este eje se presentarán la
frecuencia de los datos. Puede representar
frecuencias absolutas y relativas.
Barras: La altura de las barras representa la
frecuencia de ocurrencias de cada intervalo.
¿Para qué sirve el histograma?
Un histograma de frecuencias sirve para resumir
gráficamente la distribución de un conjunto de datos con el
fin de encontrar patrones, características inusuales y
tendencias fácilmente.
El histograma es una de las herramientas más utilizadas por
los estadísticos, los analistas de datos y los investigadores
para representar datos de diversas fuentes, como encuestas,
experimentos y estudios de observación.
Dada la importancia del histograma en la visualización de
datos, es considerada una de las 7 herramientas de la
calidad.
Tipos de Histograma
A continuación mostraremos cómo se clasifican los
histogramas basados en las siguientes características:
1. Forma.
2. Frecuencia que representa.
1. Tipos de histograma de acuerdo a su
forma:
La forma de un histograma nos muestra si los datos están
repartidos de una manera uniforme a un lado y al otro del
punto medio del gráfico. Es decir, en algunos gráficos
veremos que la mitad o el punto medio del histograma los
divide en dos “imágenes gemelas”, de manera que la parte
de uno de los lados es casi idéntica a la del otro. Los
histogramas que tienen esta forma son simétricos; los que no
la tienen son asimétricos o sesgados.
1.1 Histograma Simétrico
Se dice que un histograma es simétrico si las observaciones
están equilibradas, es decir, distribuidas de una manera
uniforme a un lado y al otro del centro del histograma. Por
ejemplo:
1.2 Histograma Asimétrico o Sesgado
Un histograma está sesgado o es asimétrico si los datos no
están distribuidos uniformemente en ninguno de los lados de
la mitad.
Una distribución con sesgo positivo tiene una cola que se
extiende hacia la derecha. Una distribución sesgada
negativamente tiene una cola que se extiende hacia la
izquierda.
2. Tipos de histograma de acuerdo a la
frecuencia que representan:
Dada que la frecuencia de una distribución de datos puede
ser absoluta o relativa, así como acumulada o no; podemos
generar diversos tipos de histogramas:
2.1 Histograma de Frecuencia Absoluta:
Este tipo de histograma, es al que nos referimos
normalmente cuando hablamos de un histograma
estadístico. El histograma de frecuencias absolutas,
representa la frecuencia absoluta de una distribución en la
altura de cada barra.
2.2 Histograma de Frecuencia Relativa:
Representa las frecuencias relativas de una distribución en
las alturas de cada barra. Para un mismo conjunto de datos,
el histograma de frecuencias absolutas y relativas tiene la
misma forma.
2.3 Histograma de Frecuencias
Acumuladas:
Ya sea para frecuencias relativas o absolutas acumuladas, el
histograma puede utilizarse para representarlas
gráficamente. Para el caso de las frecuencias relativas la
gráfica parte desde 0 % hasta llegar al 100 %.
Es preciso indicar que para graficar las frecuencias
acumuladas es más común emplear la ojiva.
¿Cómo hacer un histograma de
frecuencias?
Ya sea que quieras realizar un histograma a mano o
utilizando alguna herramienta informática, es importante
conocer los pasos que debes seguir para elaborarlos:
Determinar el número de intervalos o clases.
Calcular la amplitud del intervalo.
Calcular el número total de ocurrencias para
intervalo / rango.
Dibujar los ejes de intervalos y de frecuencias.
Trazar las barras.
Paso 1: Determinar el número de intervalos
o clases
En primer lugar, tendrá que decidir cuántos intervalos usará
para agrupar los datos; asimismo, debe determinar la
amplitud de los intervalos.
Existen diversas formas para determinar el número de
intervalos o clases a considerar, entre los 3 principales
métodos tenemos:
Utilizar una tabla guía:
Para determinar la cantidad de intervalos para tu conjunto de
datos, puedes utilizar una tabla guía como la siguiente:
Tamaño de la muestra Número de Intervalo
Menos de 50 5-7
De 50 a 100 7-8
De 101 a 500 8-10
De 501 a 1000 10-11
De 1001 a 5000 11-14
Más de 5000 14-20
La presente tabla ha sido tomada del libro “Estadística para
Administración y Economía” de Paul Newbold, William
Carlson y Betty Thorne.
Raíz cuadrada del tamaño de los datos:
Otro método común para determinar la cantidad de
intervalos (k), es utilizando la raíz cuadrada del total de datos
(N) a utilizar:
Método de Sturges:
El método de Sturges nos propone que dada N
observaciones, el número k de intervalos viene dado por:
Recuerda que estos métodos son opcionales, por lo que
puedes utilizar una cantidad diferente de intervalos según se
requiera para cada caso de uso.
Paso 2: Calcular la amplitud del intervalo.
Una vez determinada la cantidad de intervalos, calculamos la
amplitud del intervalo (w) con la siguiente expresión:
El primer intervalo del conjunto de datos se forma con el
valor mínimo del conjunto y la suma de este valor con la
amplitud calculada:
[Valor mínimo;Valor mínimo+w>
Se recomienda redondear la amplitud a números enteros
cuando el conjunto de datos presenta solamente valores
enteros y para facilitar la lectura de datos.
Los intervalos no den superponerse:
Los intervalos deben ser inclusivos y no solaparse. Cada
observación debe pertenecer a un único intervalo. Por
ejemplo, consideremos una distribución de frecuencias de las
edades de un grupo de personas. Si la distribución de
frecuencias contiene las clases “20-30 años” y “30-40 años”,
¿a cuál de estos dos intervalos pertenecería una persona de
30 años?
Es por ello que es importante definir los límites o extremos
de cada intervalo claramente. Para evitar la superposición,
los intervalos del ejemplo podrían definirse de la forma
siguiente: «20 años pero menos de 30», seguido de «30 años
pero menos de 40», y así sucesivamente. Otra opción es
definir los intervalos de edad del modo siguiente: «20-29»,
«30-39», etc. Dado que la edad es un número entero, no hay
ningún solapamiento. La selección de los límites es subjetiva.
Hay que asegurarse simplemente de definir unos límites que
permitan comprender e interpretar claramente los datos.
Para los ejemplos que mostraremos, utilizaremos la notación
[a-b> que indica que el intervalo está formado por los
valores desde a hasta menor que b.
Paso 3: Calcular el número total de
ocurrencias para intervalo / rango
Este paso consiste realizar el conteo de las observaciones
que pertenecen a cada rango. Este conteo representa la
frecuencia absoluta de los datos.
En caso se requiera hacer el histograma de frecuencias
relativas o acumuladas, en este paso debes ejecutar los
cálculos correspondientes de dichas frecuencias.
Paso 4: Dibujar los ejes de intervalos y de
frecuencias
Para crear los histogramas, debes tener en cuenta que
ambos ejes del gráfico son numéricos; de esta forma, de
acuerdo a la orientación del gráfico, debes tener un eje de
intervalos y un eje de frecuencias.
Para los histogramas de orientación vertical, el eje de
intervalos se ubica de manera horizontal y el eje de
frecuencias de manera vertical; para los histogramas
horizontales, se invierte las posiciones.
Paso 5: Trazar las barras
Trazamos las barras teniendo en cuenta que su ancho estará
definido por la amplitud de la clase y su altura por la
frecuencia de las observaciones.
Entre las barras del gráfico no debe existir ninguna
separación.
Ejemplo de cómo crear un
histograma:
Elaborar un histograma de frecuencias para el siguiente
conjunto de datos:
271 236 294 252 254 263 266 220 262 278 288
262 237 247 282 224 263 267 254 271 278 263
262 288 247 252 264 263 247 225 281 279 238
252 242 248 263 255 294 268 255 272 271 291
263 242 288 252 226 263 269 227 273 281 267
263 244 249 252 256 263 252 261 245 252 294
288 245 251 269 256 264 252 232 275 284 252
263 274 252 252 256 254 269 234 285 275 263
246 263 294 252 231 265 269 235 275 288 294
263 247 252 269 261 266 269 236 276 248 298
Solución:
A continuación mostraremos cada uno de los pasos para
elaborar nuestro histograma:
Paso 1: Determinar el número de intervalos
o clases
Podemos emplear cualquiera de los métodos mostrados en la
explicación anterior; sin embargo, para nuestro ejemplo
usaremos el método de la raíz cuadrada. De esta forma, para
el conjunto de 110 datos, nuestro número de intervalos o
clases es:
Paso 2: Calcular la amplitud del intervalo
En nuestro conjunto de datos, el valor mínimo de nuestro
conjunto de datos es 220 y el valor máximo es 298; por lo
tanto, la amplitud de la clase es:
Paso 3: Calcular el número total de
ocurrencias para intervalo / rango
Realizamos el conteo de las ocurrencias de cada observación
en su respectivo intervalo. Este conteo se conoce como
frecuencias absolutas.
Nuestra tabla de frecuencias quedaría de la siguiente forma:
El punto medio del intervalo también es conocido como
marca de clase.
Paso 4: Dibujar los ejes de intervalos y de
frecuencia
A continuación trazamos los ejes para la construcción de
nuestro histograma:
Paso 5: Trazar las barras
Finalmente, graficamos las barras según las observaciones
de cada intervalo.
¿Cómo interpretar un
histograma de frecuencias?
Los histogramas son particularmente útiles para comprender
la forma de la distribución de los datos. La forma de un
conjunto de datos es una manera de describir el patrón que
se genera cuando los datos se grafican, por ejemplo:
Conocer la forma de su conjunto de datos es importante
porque le ayuda a comprender cómo analizar más a fondo
sus datos. Por ejemplo, si un conjunto de datos es simétrico,
entonces la media, la mediana y la moda son
aproximadamente iguales.
Recomendaciones para crear tu
gráfico de histograma
correctamente
Establecer la línea base en cero:
Cada barra del histograma representa la frecuencia de los
datos en cada intervalo, por lo tanto, cambiar la línea base
puede distorsionar la percepción de la distribución de los
datos.
Elegir correctamente el número de
intervalos
Como vimos anteriormente, existen diferentes métodos para
calcular la cantidad de clases a utilizar para elaborar nuestro
gráfico; sin embargo, es importante conocer muy bien las
características de nuestros datos y probar varias
configuraciones para establecer la cantidad que mejor se
ajusta a nuestro propósito.
Debes recordar que la amplitud del intervalo, es
inversamente proporcional a la cantidad de clases.
Demasiadas clases harán que el histograma se vea irregular
y llevará más tiempo leer los datos. Muy pocos intervalos no
proporcionarán suficientes detalles para identificar cualquier
patrón interesante en los datos. Es por ello que debes
experimentar con diferentes valores hasta que obtenga un
histograma que represente adecuadamente sus valores.
Definir límites de intervalos sencillos de
leer
En la medida de los posible, es preferible utilizar números
enteros para definir la amplitud de nuestros intervalos, ya
que facilitan la lectura de los datos.
Si utilizamos valores fraccionarios cuando nuestro conjunto
de datos es entero, pueden presentarse anomalías en la
representación de los datos como se visualiza en la siguiente
gráfica:
La gráfica anterior muestra la distribución de resultados al
sumar el resultado de cinco tiradas de dados, repetidas 20
000 veces. La forma de campana (distribución normal) que
se espera parece puntiaguda o torcida cuando se eligen
amplitudes decimales en nuestro conjunto de datos enteros.
Histogramas con amplitudes de intervalos
diferentes
Si bien en todos los ejemplos que hemos visto hasta el
momento se han utilizado intervalos de la misma amplitud,
este no es un requisito estricto; por el contrario pueden
utilizarse cuando se tienen pocos datos o cuando existe una
larga cola de valores.
Sin embargo, para crear un histograma con contenedores
espaciados de manera desigual requiere cambios
importantes en la forma en que se crean las gráficas y puede
causar muchas interpretaciones erróneas.
El principal cambio en este tipo de histograma es que el área
total de las barras del gráfico representa el total y el área de
cada barra representa la proporción del total que le
corresponde al intervalo. Cuando las barras tienen el mismo
ancho, la diferencia en la frecuencia de las observaciones,
solamente la define la altura de las mismas; sin embargo,
con amplitudes diferentes, la altura no puede representar la
frecuencia de las ocurrencias, ya que distorsionaría la
percepción de cuantos puntos hay en cada intervalo. Para
elaborarlo se requerirá determinar la densidad de frecuencia
por unidad de tamaño del intervalo.
Dado que estos cálculos complican la elaboración de nuestro
histograma, en la medida de lo posible, se recomienda
trabajar con amplitudes iguales para nuestros intervalos.
Preguntas frecuentes sobre
Histogramas
A continuación respondemos las dudas más frecuentes en
relación a los histogramas:
¿Qué representan las barras de un
histograma?
Cada barra representa la frecuencia de una clase (intervalo)
del conjunto de datos.
¿Cuántas barras puede tener un
histograma?
La cantidad de barras que debe tener un histograma
depende del tamaño de su conjunto de datos. Lo que debes
tener en cuenta es que entre más cantidad de intervalos
consideres, menor será su amplitud.
¿Cuál es la diferencia entre un histograma y
un diagrama de barras?
La principal diferencia entre un histograma y un diagrama de
barras corresponde al tipo de datos que representan. Los
diagramas de barras se utilizan para datos categóricos o
nomilaes y los histogramas se utilizan para datos continuos
(datos numéricos).