0% encontró este documento útil (0 votos)
26 vistas38 páginas

04 Histogramas

El documento aborda la elaboración de tablas de frecuencia e histogramas, así como la obtención e interpretación de medidas de tendencia central (MTC) y medidas de variabilidad (MDV) en el análisis de datos. Se explican conceptos clave como media, mediana, moda, desviación estándar y coeficiente de variación, y se presenta un ejemplo práctico sobre la calidad del azúcar en un restaurante. Finalmente, se describen los pasos para construir histogramas y realizar un análisis sistemático de los datos obtenidos.

Cargado por

Alann Argueta
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
26 vistas38 páginas

04 Histogramas

El documento aborda la elaboración de tablas de frecuencia e histogramas, así como la obtención e interpretación de medidas de tendencia central (MTC) y medidas de variabilidad (MDV) en el análisis de datos. Se explican conceptos clave como media, mediana, moda, desviación estándar y coeficiente de variación, y se presenta un ejemplo práctico sobre la calidad del azúcar en un restaurante. Finalmente, se describen los pasos para construir histogramas y realizar un análisis sistemático de los datos obtenidos.

Cargado por

Alann Argueta
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

HISTOGRAMA Y

TABLA DE
FRECUENCIA
Objetivos del tema
 Elaborar tablas de
frecuencia e histogramas
 Obtener las MTC y MDV e
interpretarlas
 Interpretar histogramas de
una manera sistemática
Introducción
La estadística es vital en el control y monitoreo de
procesos, y en la mejora e innovación de la calidad, ya
que está conformada de un conjunto de técnicas y
conceptos orientados a la recolección y el análisis de
datos tomando en cuenta la variación en los mismos.
Las técnicas estadísticas son de gran importancia en
todo tipo de empresas y en una gran diversidad de
situaciones.

En estos casos, para saber el comportamiento


(distribución) de un conjunto de datos es necesario
estudiar tres de sus aspectos: tendencia central,
variabilidad y forma de su distribución.

Por tal motivo, para interpretar de manera correcta la


distribución de los datos, se obtendrán las medidas de
tendencia central (MTC), medidas de variación o
dispersión y el histograma analizando en éste la forma
de su distribución.
Conceptos
Medidas de tendencia central (MTC): valor en torno al
cual los datos tienden a aglomerarse o concentrarse.
Esto permitirá saber si el proceso está centrado; es
decir, saber si la tendencia central de la variable de
salida es igual o está muy próxima a un valor nominal
deseado

En seguida veremos tres medidas de la tendencia


central: la media, mediana y moda.
La media (o promedio) muestral: que es igual a la
media aritmética de todos los datos, es decir, la media
muestral se obtiene sumando todos los datos, y el
resultado se divide entre el número de datos
La mediana: que es igual al valor que divide a la mitad
los datos cuando éstos están ordenados de menor a
mayor.

Para calcular la mediana cuando el número de datos


es impar, los datos se ordenan de manera creciente y el
que quede en medio de dicho ordenamiento será la
mediana; y si el número de datos es par, entonces la
mediana se calcula dividiendo entre dos la suma de los
números que están en el centro del ordenamiento.
La moda: que es igual al dato que se repite con más
frecuencia.

Cuando en un grupo de datos hay algunos valores


bastante diferentes del resto, ya sean muy pequeños, o
bien, muy grandes, entonces la media no es una buena
medida de tendencia central, ya que a ésta la “jalan”
los datos atípicos o raros.
De lo anterior se desprende que, para describir la
tendencia central de los datos, es importante apoyarse
tanto en la media como en la mediana. Y en caso de
que la media sea mucho más grande que la mediana,
es señal de que existen datos más grandes que el resto,
los que hacen que la media esté “inflada”. Por el
contrario, si la media es significativamente menor que la
mediana, entonces eso indica la presencia de datos
mucho más pequeños que el resto, los cuales hacen
que la media esté “subestimada”.
Tomar en cuenta lo anterior es de importancia
primordial en la toma de decisiones, ya que no siempre
la media refleja la verdadera tendencia central.
Medidas de variabilidad o dispersión (MDV): se refiere a
las diferencias que se hallan entre el conjunto de datos,
es decir, qué tan diferentes son entre sí.

Entre estos están: la desviación estándar, el rango y el


coeficiente de variación
La desviación estándar: es la medida más usual de
variabilidad e indica qué tan esparcidos están los datos
respecto a la media
La rango: es igual a la diferencia entre el dato mayor y
el dato menor de un conjunto de datos, por lo que R
mide la amplitud de la variación de un grupo de datos
y también es independiente de la magnitud de los
datos.
El coeficiente de variación (CV): es una medida de
variación relativa a la magnitud de los datos, que es
igual a la desviación estándar entre la media de los
datos:
El CV es útil para comparar la variación de dos o más
variables que están medidas en diferentes escalas o
unidades de medición (por ejemplo, metro contra
centímetro o metro contra kilogramo).

Este coeficiente suele interpretarse como una medición


en términos porcentuales de la variación de una
variable
Por ejemplo, en el caso de los conjuntos de datos A y B
que se presentaron en la definición del rango, se tiene
que sus correspondientes CV son:

respectivamente. Por lo que la variabilidad en los


términos relativos del CV para el conjunto A es de
16.66%, mientras que para el conjunto B es sólo de
1.242%.
El histograma es una representación gráfica, en forma
de barras, de la distribución de un conjunto de datos o
una variable, cuyos datos se clasifican por su magnitud
en cierto número de grupos o clases, y cada clase se
representa por una barra, cuya longitud es proporcional
a la cantidad de datos que pertenecen a dicha clase.

Usualmente, el eje horizontal está formado por una


escala numérica para mostrar la magnitud de los datos
y en el eje vertical se representan las frecuencias
Tipos de histogramas
Tipos de histogramas
Tipos de histogramas
La tabla de frecuencia es una representación en forma
de tabla de distribución de unos datos, a los que se
clasifica por su magnitud en cierto numero de clases
que cubren todo el intervalo de variación de los datos.

Para interpretar de manera sistemática y completa se


realizará todo el análisis con el siguiente ejemplo:
Ejemplo
En un restaurante se tiene una fórmula específica para
elaborar una cantidad determinada de “fresco
natural”, la cual contempla agregar 500 gramos de
azúcar. Es claro que resulta de suma importancia añadir
exactamente esa cantidad de azúcar para la calidad
del agua, ya que, de lo contrario, ésta queda muy
dulce o desabrida. Aunque a los cocineros se les ha
insistido sobre lo anterior, es frecuente que no pesen el
azúcar y la agreguen al tanteo.
Al considerar la calidad del agua como un aspecto
clave, se decide diseñar un procedimiento a prueba de
olvidos: comprar bolsas que contengan 500 gramos de
azúcar. Suponga dos marcas de azúcar que cuentan
con la presentación de 500 gramos; ahora es necesario
decidir qué marca comprar. Con este propósito se
pesan 40 bolsas de ambas marcas queriendo tener
unas especificaciones de +/- 10 g. Eso da una
especificación superior de 510 g. y una inferior de 490 g.
Al pesarse arrojan los resultados de la tabla siguiente:
Pasos:
PASO 1: Obtener las MTC y MDV de ambos proveedores

BASE DE DATOS PROVEEDOR A BASE DE DATOS PROVEEDOR B


MTC MTC
MEDIA 502.35 MEDIA 498.08
MEDIANA 502.00 MEDIANA 498.00
MODA 502.00 MODA 496.00
MDV MDV
DESVEST 7.2308 DESVEST 3.6752
CV 1.4394 CV 0.7379
Rango 31 Rango 16

Datos obtenidos en una hoja de Excel calculándolas


con fórmulas
PASO 2: determinar el rango de los datos. El rango es
igual a la diferencia entre el dato máximo y el mínimo

Rango ProvA: 515-484=31


Rango ProvB: 507-491=16

PASO 3: obtener el número de clases (NC). En general


se recomienda que el número de intervalos o clases sea
de 5 a 15. Para decidir un valor entre este rango hay
varios criterios.
Uno de ellos dice que el número de clases debe ser
aproximadamente igual a la raíz cuadrada del número
de datos. Otro criterio, conocido como la regla de
Sturgess, señala que el número de clases es igual a:

1 + 3.3 Log10(número de datos).

En el ejemplo, la raíz cuadrada de 40 (número de bolsas


pesadas de la marca A) es mayor que seis, por lo que
se eligen siete clases, NC = 6.32 equivalente a 7 clases.
Aplicando la regla de Sturgess, también se obtiene un
resultado similar, ya que 1 + 3.3 Log10(40) = 6.3.
En ocasiones, al modificar el número de clases se
pueden apreciar aspectos que no se habían
observado, por lo que, si se dispone de un programa
computacional, es recomendable experimentar con
diferentes números de clases que estén cercanos al
valor propuesto inicialmente.

PASO 4: establecer la longitud de clase (LC). La longitud


de clase se establece de tal manera que el rango
pueda cubrirse en su totalidad por el número de clases
determinado.
Así, una forma directa de obtener la LC es dividiendo el
rango entre el número de clases: LC = R/NC.

LC = (515 - 484)/7 = 4.42


En este punto, se debe primero visualizar si la longitud
de clases abarca todos los datos.

Y para este efecto se pueden seguir las siguientes


estrategias y así garantizar todos los datos dentro del
análisis:
1.- Agrandar el rango: esto es ampliar el rango para así
tener la cobertura de todos los datos. En este ejemplo
se puede ampliar el rango y determinar un peso
superior de 520 en lugar de 515 y 380 3n lugar de 484
dando un nuevo rango de: 520-480= 40 y la nueva
longitud de clase sería: LC=40/7= 5.71

2.- Trabajar con intervalos abierto: esto significa que al


momento de hacer la agrupación en los intervalos se
puede finalizar en un número y el siguiente intervalo
continuar en el próximo
3.- Disminuir el numero de clases: por ejemplo en este
ejemplo en lugar de hacer 7 clases se podría bajar a 6
ya que la raíz cuadrada de 40 datos

Sin embargo, en ocasiones resulta más conveniente


ampliar un poco el rango para que el histograma tenga
una cobertura ligeramente mayor que la observada en
la muestra. En el ejemplo, el mínimo es 484 y el máximo
es 515; de esta manera, al ampliar un poco, el
histograma podría ir de 480 a 520. Así se ejemplificará
con este ejercicio.
PASO 5: construir los intervalos de clase. Para obtener la
primera clase se le suma al punto inicial la longitud de
clase y así se obtiene el intervalo de la primera clase.
Para obtener el intervalo de la segunda clase, se toma
el final de la primera clase como punto inicial y se le
suma la longitud de clase, y así se sigue hasta
completar todos los intervalos como se muestra en la
tabla de frecuencias. Esta esta elaborada con un
intervalo cerrado.
Se le va sumando
al primer dato la
LC por ejemplo:
480+5.7=485.7

Y donde termina el intervalo


anterior inicia el segundo
sumándole nuevamente la LC:
485.7+5.7=491.4 y así se
continua hasta formar las 7
clases.
PASO 6: obtener la frecuencia de cada clase: esto no es
más que el conteo de la cantidad de datos (de los 40
sacos de muestra) que caen en cada intervalo. Cuando
un dato coincide con el final de una clase y principio de
la siguiente, entonces tal dato suele incluirse en la
primera.
PASO 7: graficar el histograma

EI=490 ES=510
PASO 8: interpretar: para la interpretación se deben
tomar todos los datos en consideración:

- MTC

- MDV

- Forma del histograma y cantidad de datos en la


mayor frecuencia.

En este ejercicio la interpretación sería así:


Interpretación proveedor A: tomando como base las MTC
se puede decir que tanto la media, mediana y moda
rondan los 502 g. siendo cercano al valor nominal de 500
g. Se tiene una desviación estándar de 7.23 lo que indica
que los datos si están dispersos con respecto a la media.
El rango es de 31 g. y un coeficiente de variación de
1.43%. La forma del histograma muestra normalidad (ya
que se forma la campana de Gauss) y los datos están
descentrados ya que no todos los datos están dentro de
las especificaciones (7.5% de los datos están fuera de
especificación)
Siguiente paso es hacer lo mismo con el proveedor B y
decidir cual es mejor opción, si el proveedor A o el B…

Tareas, hacer el análisis completo del proveedor B…

También podría gustarte