HISTOGRAMA Y
TABLA DE
FRECUENCIA
Objetivos del tema
Elaborar tablas de
frecuencia e histogramas
Obtener las MTC y MDV e
interpretarlas
Interpretar histogramas de
una manera sistemática
Introducción
La estadística es vital en el control y monitoreo de
procesos, y en la mejora e innovación de la calidad, ya
que está conformada de un conjunto de técnicas y
conceptos orientados a la recolección y el análisis de
datos tomando en cuenta la variación en los mismos.
Las técnicas estadísticas son de gran importancia en
todo tipo de empresas y en una gran diversidad de
situaciones.
En estos casos, para saber el comportamiento
(distribución) de un conjunto de datos es necesario
estudiar tres de sus aspectos: tendencia central,
variabilidad y forma de su distribución.
Por tal motivo, para interpretar de manera correcta la
distribución de los datos, se obtendrán las medidas de
tendencia central (MTC), medidas de variación o
dispersión y el histograma analizando en éste la forma
de su distribución.
Conceptos
Medidas de tendencia central (MTC): valor en torno al
cual los datos tienden a aglomerarse o concentrarse.
Esto permitirá saber si el proceso está centrado; es
decir, saber si la tendencia central de la variable de
salida es igual o está muy próxima a un valor nominal
deseado
En seguida veremos tres medidas de la tendencia
central: la media, mediana y moda.
La media (o promedio) muestral: que es igual a la
media aritmética de todos los datos, es decir, la media
muestral se obtiene sumando todos los datos, y el
resultado se divide entre el número de datos
La mediana: que es igual al valor que divide a la mitad
los datos cuando éstos están ordenados de menor a
mayor.
Para calcular la mediana cuando el número de datos
es impar, los datos se ordenan de manera creciente y el
que quede en medio de dicho ordenamiento será la
mediana; y si el número de datos es par, entonces la
mediana se calcula dividiendo entre dos la suma de los
números que están en el centro del ordenamiento.
La moda: que es igual al dato que se repite con más
frecuencia.
Cuando en un grupo de datos hay algunos valores
bastante diferentes del resto, ya sean muy pequeños, o
bien, muy grandes, entonces la media no es una buena
medida de tendencia central, ya que a ésta la “jalan”
los datos atípicos o raros.
De lo anterior se desprende que, para describir la
tendencia central de los datos, es importante apoyarse
tanto en la media como en la mediana. Y en caso de
que la media sea mucho más grande que la mediana,
es señal de que existen datos más grandes que el resto,
los que hacen que la media esté “inflada”. Por el
contrario, si la media es significativamente menor que la
mediana, entonces eso indica la presencia de datos
mucho más pequeños que el resto, los cuales hacen
que la media esté “subestimada”.
Tomar en cuenta lo anterior es de importancia
primordial en la toma de decisiones, ya que no siempre
la media refleja la verdadera tendencia central.
Medidas de variabilidad o dispersión (MDV): se refiere a
las diferencias que se hallan entre el conjunto de datos,
es decir, qué tan diferentes son entre sí.
Entre estos están: la desviación estándar, el rango y el
coeficiente de variación
La desviación estándar: es la medida más usual de
variabilidad e indica qué tan esparcidos están los datos
respecto a la media
La rango: es igual a la diferencia entre el dato mayor y
el dato menor de un conjunto de datos, por lo que R
mide la amplitud de la variación de un grupo de datos
y también es independiente de la magnitud de los
datos.
El coeficiente de variación (CV): es una medida de
variación relativa a la magnitud de los datos, que es
igual a la desviación estándar entre la media de los
datos:
El CV es útil para comparar la variación de dos o más
variables que están medidas en diferentes escalas o
unidades de medición (por ejemplo, metro contra
centímetro o metro contra kilogramo).
Este coeficiente suele interpretarse como una medición
en términos porcentuales de la variación de una
variable
Por ejemplo, en el caso de los conjuntos de datos A y B
que se presentaron en la definición del rango, se tiene
que sus correspondientes CV son:
respectivamente. Por lo que la variabilidad en los
términos relativos del CV para el conjunto A es de
16.66%, mientras que para el conjunto B es sólo de
1.242%.
El histograma es una representación gráfica, en forma
de barras, de la distribución de un conjunto de datos o
una variable, cuyos datos se clasifican por su magnitud
en cierto número de grupos o clases, y cada clase se
representa por una barra, cuya longitud es proporcional
a la cantidad de datos que pertenecen a dicha clase.
Usualmente, el eje horizontal está formado por una
escala numérica para mostrar la magnitud de los datos
y en el eje vertical se representan las frecuencias
Tipos de histogramas
Tipos de histogramas
Tipos de histogramas
La tabla de frecuencia es una representación en forma
de tabla de distribución de unos datos, a los que se
clasifica por su magnitud en cierto numero de clases
que cubren todo el intervalo de variación de los datos.
Para interpretar de manera sistemática y completa se
realizará todo el análisis con el siguiente ejemplo:
Ejemplo
En un restaurante se tiene una fórmula específica para
elaborar una cantidad determinada de “fresco
natural”, la cual contempla agregar 500 gramos de
azúcar. Es claro que resulta de suma importancia añadir
exactamente esa cantidad de azúcar para la calidad
del agua, ya que, de lo contrario, ésta queda muy
dulce o desabrida. Aunque a los cocineros se les ha
insistido sobre lo anterior, es frecuente que no pesen el
azúcar y la agreguen al tanteo.
Al considerar la calidad del agua como un aspecto
clave, se decide diseñar un procedimiento a prueba de
olvidos: comprar bolsas que contengan 500 gramos de
azúcar. Suponga dos marcas de azúcar que cuentan
con la presentación de 500 gramos; ahora es necesario
decidir qué marca comprar. Con este propósito se
pesan 40 bolsas de ambas marcas queriendo tener
unas especificaciones de +/- 10 g. Eso da una
especificación superior de 510 g. y una inferior de 490 g.
Al pesarse arrojan los resultados de la tabla siguiente:
Pasos:
PASO 1: Obtener las MTC y MDV de ambos proveedores
BASE DE DATOS PROVEEDOR A BASE DE DATOS PROVEEDOR B
MTC MTC
MEDIA 502.35 MEDIA 498.08
MEDIANA 502.00 MEDIANA 498.00
MODA 502.00 MODA 496.00
MDV MDV
DESVEST 7.2308 DESVEST 3.6752
CV 1.4394 CV 0.7379
Rango 31 Rango 16
Datos obtenidos en una hoja de Excel calculándolas
con fórmulas
PASO 2: determinar el rango de los datos. El rango es
igual a la diferencia entre el dato máximo y el mínimo
Rango ProvA: 515-484=31
Rango ProvB: 507-491=16
PASO 3: obtener el número de clases (NC). En general
se recomienda que el número de intervalos o clases sea
de 5 a 15. Para decidir un valor entre este rango hay
varios criterios.
Uno de ellos dice que el número de clases debe ser
aproximadamente igual a la raíz cuadrada del número
de datos. Otro criterio, conocido como la regla de
Sturgess, señala que el número de clases es igual a:
1 + 3.3 Log10(número de datos).
En el ejemplo, la raíz cuadrada de 40 (número de bolsas
pesadas de la marca A) es mayor que seis, por lo que
se eligen siete clases, NC = 6.32 equivalente a 7 clases.
Aplicando la regla de Sturgess, también se obtiene un
resultado similar, ya que 1 + 3.3 Log10(40) = 6.3.
En ocasiones, al modificar el número de clases se
pueden apreciar aspectos que no se habían
observado, por lo que, si se dispone de un programa
computacional, es recomendable experimentar con
diferentes números de clases que estén cercanos al
valor propuesto inicialmente.
PASO 4: establecer la longitud de clase (LC). La longitud
de clase se establece de tal manera que el rango
pueda cubrirse en su totalidad por el número de clases
determinado.
Así, una forma directa de obtener la LC es dividiendo el
rango entre el número de clases: LC = R/NC.
LC = (515 - 484)/7 = 4.42
En este punto, se debe primero visualizar si la longitud
de clases abarca todos los datos.
Y para este efecto se pueden seguir las siguientes
estrategias y así garantizar todos los datos dentro del
análisis:
1.- Agrandar el rango: esto es ampliar el rango para así
tener la cobertura de todos los datos. En este ejemplo
se puede ampliar el rango y determinar un peso
superior de 520 en lugar de 515 y 380 3n lugar de 484
dando un nuevo rango de: 520-480= 40 y la nueva
longitud de clase sería: LC=40/7= 5.71
2.- Trabajar con intervalos abierto: esto significa que al
momento de hacer la agrupación en los intervalos se
puede finalizar en un número y el siguiente intervalo
continuar en el próximo
3.- Disminuir el numero de clases: por ejemplo en este
ejemplo en lugar de hacer 7 clases se podría bajar a 6
ya que la raíz cuadrada de 40 datos
Sin embargo, en ocasiones resulta más conveniente
ampliar un poco el rango para que el histograma tenga
una cobertura ligeramente mayor que la observada en
la muestra. En el ejemplo, el mínimo es 484 y el máximo
es 515; de esta manera, al ampliar un poco, el
histograma podría ir de 480 a 520. Así se ejemplificará
con este ejercicio.
PASO 5: construir los intervalos de clase. Para obtener la
primera clase se le suma al punto inicial la longitud de
clase y así se obtiene el intervalo de la primera clase.
Para obtener el intervalo de la segunda clase, se toma
el final de la primera clase como punto inicial y se le
suma la longitud de clase, y así se sigue hasta
completar todos los intervalos como se muestra en la
tabla de frecuencias. Esta esta elaborada con un
intervalo cerrado.
Se le va sumando
al primer dato la
LC por ejemplo:
480+5.7=485.7
Y donde termina el intervalo
anterior inicia el segundo
sumándole nuevamente la LC:
485.7+5.7=491.4 y así se
continua hasta formar las 7
clases.
PASO 6: obtener la frecuencia de cada clase: esto no es
más que el conteo de la cantidad de datos (de los 40
sacos de muestra) que caen en cada intervalo. Cuando
un dato coincide con el final de una clase y principio de
la siguiente, entonces tal dato suele incluirse en la
primera.
PASO 7: graficar el histograma
EI=490 ES=510
PASO 8: interpretar: para la interpretación se deben
tomar todos los datos en consideración:
- MTC
- MDV
- Forma del histograma y cantidad de datos en la
mayor frecuencia.
En este ejercicio la interpretación sería así:
Interpretación proveedor A: tomando como base las MTC
se puede decir que tanto la media, mediana y moda
rondan los 502 g. siendo cercano al valor nominal de 500
g. Se tiene una desviación estándar de 7.23 lo que indica
que los datos si están dispersos con respecto a la media.
El rango es de 31 g. y un coeficiente de variación de
1.43%. La forma del histograma muestra normalidad (ya
que se forma la campana de Gauss) y los datos están
descentrados ya que no todos los datos están dentro de
las especificaciones (7.5% de los datos están fuera de
especificación)
Siguiente paso es hacer lo mismo con el proveedor B y
decidir cual es mejor opción, si el proveedor A o el B…
Tareas, hacer el análisis completo del proveedor B…