Universidad Metropolitana de Monterrey
División Ingeniería y Tecnologías de la Información
Diagrama de Caja
Equipo # 7
Integrantes:
Barrientos Hernández Roberto Ramiro
Guzmán Ávila Claudio Enrique
Ortega Armendáriz Guadalupe
Catedrático:
Lic. Yenny Valenzuela Murillo
Monterrey, N.L. a 24 de Octubre de 2017
Índice:
Introducción………………………………………….……….………………………….1
¿Qué es el diagrama de caja?.............................................................................................2
Propósito…………………………………………….………………...………….…...…2
Elementos………………………………………………………….…………………….2
Pasos para hacerlo……………………………………………………………………….3
Importancia………………………………………………………………………………3
¿Cómo se interpreta el diagrama de caja?.........................................................................3
Ejemplo 1………………………………………………………………………………..4
Ejemplo 2………………………………………………………………………………..5
Ejemplo 3………………………………………………………………………………..8
Actividad………………………………………………………………………………...9
División del trabajo…………………………………………………………………….11
Conclusiones……………………………………………………………………………12
Bibliografía……………………………………………………………………………..14
Introducción:
Una de las herramientas utilizadas en el Control de Calidad y Estadística es el Diagrama
de Caja y Bigotes. Este tipo de grafica fue desarrollado por John Tukey de la
Universidad de Princeton Estados Unidos en 1977.
Esta herramienta de análisis exploratorio de datos permite estudiar la simetría de los
datos, detectar los valores atípicos además de que proporciona una representación
gráfica de los datos mediante el resumen de cinco números que se emplean para resumir
los datos: valor mínimo, primer cuartil (Q1), mediana (Q2), tercer cuartil (Q3) y el valor
máximo.
En este reporte se explicara en que consiste este diagrama, cuales son los elementos que
lo integran además de los pasos para hacerlo así como algunos ejemplos para su más
fácil comprensión.
1
¿Qué es el diagrama de caja?
El diagrama de caja es una representación gráfica de la distribución de un conjunto de
datos que se basa en cuartiles y es de gran utilidad para hacer análisis comparativos.
Propósito.
El diagrama de caja es otra herramienta parta describir el comportamiento de los datos y
es de suma utilidad para comparar procesos, tratamientos y en general para hacer
análisis por estratos (lotes, turnos, proveedores, etc.)
Ya que este diagrama se basa en los cuartiles y divide los datos ordenados en cuatro
grupos, que contienen cada uno 25% de las mediciones es posible visualizar donde
termina de acumularse 25% de los datos menores y a partir de donde se localiza el 25%
de los datos mayores. Entre estos dos cuartiles se ubica el 50% de los datos que están al
centro.
Elementos.
Los elementos que constituyen un diagrama de caja son:
La Caja: es un rectángulo que abarca el recorrido (o rango, o intervalo) intercuartilico
(RIC) de la distribución; o sea, el tramo de la escala que va desde el primer cuartil (Q 1)
al tercer cuartil (Q3). Esto incluye el 50% de las observaciones centrales.
Mediana: se dibuja mediante una línea (algunos lo marcan con un asterisco, otros con
una cruz) dentro de la caja y a la altura de la escala que corresponde al valor de esa
medida.
Bigotes: son líneas que salen a los costados de la caja y que sirven como referencia para
ubicar las observaciones que están por fuera del 50% central de la distribución.
Cercados superiores: indica la finalización de los bigotes. A veces no se dibujan.
Cercados exteriores: ubicados más periféricamente en la distribución. Casi no se
dibujan.
Periféricos (o periféricos próximos): señalamiento de las observaciones que se
encuentran entre el cercado interior y el cercado exterior. Se marcan con un asterisco
(*).
Periféricos lejanos (o periféricos extremos): señalamiento de las observaciones que se
encuentra fuera del cercado exterior. Se marcan con un punto grande (●).
2
Valores atípicos: son aquellos valores que se alejan demasiado de los valores centrales
de la distribución, es decir son valores que difieren bastante con respecto a la gran
mayoría de ellos
Pasos para hacerlo.
Un diagrama de caja se construye como sigue:
1.- Se ordenan los datos de la muestra y de obtienen el valor mínimo, el máximo y los
tres cuartiles Q1, Q2 y Q3.
2.- Se dibuja un rectángulo (de anchura arbitraria) cuyos extremos son Q1 y Q3 y se
indica en su interior la posición de la mediana Q2 mediante una línea vertical.
3.- Se calcula el rango intercuartilico del conjunto de datos: Q = Q3 - Q1
4.- Se determinan los límites admisibles superior e inferior. Donde el limite interior es
igual al máximo entre el valor mínimo de los datos y el primer cuartil menos una vez y
media en rango intercuartilico. Y el límite superior es el mínimo entre el valor mayor de
los datos y la suma del tercer cuartil con una vez y medio el rango intercuartilico.
Li máx.: (Q1 – 1.5 Q)
Ls min.: (Q3 + 1.5Q)
Estos límites nos permitirán identificar los valores atípicos, que serán aquellos datos que
quedan fuera del intervalo (Li, Ls).
5.- Se dibuja una línea horizontal desde cada extremo del rectángulo central hasta el
valor más alejado no atípico, es decir, que está dentro del intervalo (Li, Ls).
6.- Identificar todos los datos que están fuera del intervalo (L i, Ls), marcándolos como
atípicos.
Importancia.
La preferencia por este diagrama se debe a que es, simultáneamente una herramienta
sencilla y rigurosa de exploración – análisis de una distribución cuantitativa y porque
además permite establecer en el mismo grafico comparaciones entre subgrupos.
¿Cómo se interpreta el diagrama de caja?
De acuerdo con la manera en que se construyó el diagrama, en su interpretación se debe
hacer énfasis en:
3
1.- El largo del diagrama (que incluye el rectángulo más ambos brazos o bigotes), ya
que esto indica una media de la variación de los datos y resulta de gran utilidad sobre
todo para comparar la variación entre procesos, tratamientos o turnos de trabajo.
En general entre más largo sea un diagrama indicara una mayor variación de los datos
correspondientes.
2.- La parte central del diagrama indica la tendencia central de los datos, por lo que
también ayudara a comparar dos o más procesos, maquinas, lotes o turnos en cuanto a
su tendencia central.
3.- Comparar la longitud de ambos brazos de manera visual. Si uno es notablemente
más largo que otro, entonces la distribución de los datos quizá esta sesgada en la
dirección del brazo más largo. También es preciso observar la ubicación de la línea
mediana que parte de la caja, ya que si está más cerca de uno de los extremos, será señal
de un probable sesgo en los datos.
4.- En caso de que el diagrama este basado en una cantidad suficiente de datos (10 como
mínimo), es necesario ver si hay datos fuera de las barreras interiores, marcados con un
punto, ya que entre más alejado este un dato del final del brazo, será señal de que
probablemente sea un dato atípico. Si los datos caen más allá de las barreras exteriores,
prácticamente es un hecho que tales datos son atípicos o aberrantes; esto bajo el
supuesto de distribución normal de los datos.
Ejemplo 1
Se utilizó ultrasonido para reunir los datos de corrosión adjuntos de la placa de piso de
un tanque elevado utilizado para almacenar petróleo crudo (“Statistical Analysis of UT
Corrosion Data from Floor Plates of a Crude Oil Aboveground Storage Tank”,
Materials Eval., 1994: 846-849); cada observación es la profundidad de picadura más
grande en la placa, ex- presada en milésimas de pulgada.
40 52 55 60 70 75 85 85 90 90 92 94 94 95 98 100 115 125 125
El resumen de cinco números es como sigue:
Xi más pequeña = 40
Cuarto inferior = 72.5
Xi más grande = 125
x = 90 cuarto superior = 96.5
La figura 1 muestra la gráfica de caja resultante. El lado derecho de la caja está mucho
más cerca a la mediana que el izquierdo, lo que indica una asimetría sustancial en la
4
mitad derecha de los datos. El ancho de la caja (fs) también es razonablemente grande
con respecto al rango de datos (distancia entre las puntas de los bigotes).
40 50 60 70 80 90 100 110 120 130
Figura 1 Gráfica de caja de los datos de corrosión.
Ejemplo 2
En un bosque plantaron veinte (N=20) árboles y, al cabo de unos años, se mide la altura
para ver su evolución. Un muy buen método para ver cómo han crecido y comprobar si
existen valores extremos es el diagrama de caja. Mediante esta representación gráfica
podemos ver si hay árboles que han crecido más o menos de lo habitual.
1. Se ordenan los datos
2. Se calculan los tres cuartiles.
5
A partir del conjunto ordenado calculamos los cuartiles:
Los tres cuartiles son Q1=4,20, Q2=5,50 y Q3=6,42.
1. Se calculan los límites admisibles inferior y superior (LI y LS) para determinar los
valores extremos.
El rango intercuartílico es:
A partir del rango calculamos los límites:
Los valores extremos serán todos los árboles que midan menos de 0,96m o más de
9,59m. Tenemos dos árboles, uno de 0,94m y otro de 10,14m que serán valores
extremos. Estos valores los representamos con puntos en el diagrama de caja.
6
2. El mínimo es el menor elemento del conjunto que sea mayor o igual al límite inferior.
El máximo es el mayor elemento que sea menor o igual al límite superior. En este caso,
el mínimo es 2,98 y el máximo 7,13.
3. Se dibujan los brazos del diagrama de caja. El brazo inferior irá desde el primer
cuartil hasta el mínimo (desde el 4,20 a 2,98). El brazo superior abarcará desde el tercer
cuartil hasta el máximo (desde el 6,42 hasta el 7,13).
4. Los dos puntos extremos se representan mediante un punto o círculo.
El diagrama de caja del conjunto de la altura de estos veinte árboles es:
Esta representación proporciona una visión rápida de la distribución, apreciándose una
asimetría al no estar Q2 en el centro, en este caso porque hay árboles más altos que la
mediana cuya altura está más separada de la mediana que los que tienen una altura
inferior a ella, que están más agrupados. También se puede apreciar la existencia de
valores extremos.
7
Ejemplo 3
Utilizamos la ya usada distribución de frecuencias (en tallos y hojas), que representan la
edad de un colectivo de 20 personas.
36 25 37 24 39 20 36 45 31 31
39 24 29 23 41 40 33 24 34 40
Ordenar datos:
Para calcular los parámetros estadístico, lo primero es ordenar la distribución
20 23 24 24 24 25 29 31 31 33 34 36 36 37 39 39 40 40 41 45
Calculo de cuartiles:
Q1, el cuartil Primero es el valor mayor que el 25% de los valores de la distribución.
Como N = 20 resulta que N/4 = 5; el primer cuartil es la media aritmética de dicho valor
y el siguiente:
Q1 = (24 + 25) / 2 = 24,5
Q2, el Segundo Cuartil es, evidentemente, la mediana de la distribución, es el valor de
la variable que ocupa el lugar central en un conjunto de datos ordenados. Como N/2
=10; la mediana es la media aritmética de dicho valor y el siguiente:
Me= Q2 = (33 + 34)/ 2 =33,5
Q3, el Tercer Cuartil, es el valor que sobrepasa al 75% de los valores de la distribución.
En nuestro caso, como 3N / 4 = 15, resulta
Q2= (39 + 39) / 2 = 39
Dibujar la caja y los bigotes:
El bigote de la izquierda representa al colectivo de edades (Xmín, Q1)
La primera parte de la caja a (Q1, Q2), La segunda parte de la caja a (Q2, Q3)
8
El bigote de la derecha viene dado por (Q3, Xmáx).
Información del diagrama:
Podemos obtener abundante información de una distribución a partir de estas
representaciones. Veamos alguna:
La parte izquierda de la caja es mayor que la de la derecha; ello quiere decir que las
edades comprendidas entre el 25% y el 50% de la población están más dispersa que
entre el 50% y el 75%.
El bigote de la izquierda (Xmím, Q1) es más corto que el de la derecha; por ello el 25%
de los más jóvenes están más concentrados que el 25% de los mayores.
El rango intercuartílico = Q3 - Q1 = 14,5; es decir, el 50% de la población está
comprendido en 14,5 años.
Actividad expuesta en clase:
En un bosque plantaron veinte (N=20) árboles y, al cabo de unos años, se mide la altura
para ver su evolución. Elabore un diagrama de caja con los datos a continuación.
1- Se ordenan los datos
2- Se calculan los 3 cuartiles.
A partir del conjunto de datos ordenados calculamos:
9
Se calculan los límites admisibles inferior y superior (LI y LS) para determinar los
valores extremos.
El rango intercuartílico es:
A partir del rango calculamos los límites:
1. Los valores extremos serán todos los árboles que midan menos de 0,96m o más
de 9,59m. Tenemos dos árboles, uno de 0,94m y otro de 10,14m que serán
valores extremos. Estos valores los representamos con puntos en el diagrama de
caja.
2. El mínimo es el menor elemento del conjunto que sea mayor o igual al límite
inferior. El máximo es el mayor elemento que sea menor o igual al límite
superior. En este caso, el mínimo es 2,98 y el máximo 7,13.
3. Se dibujan los brazos del diagrama de caja. El brazo inferior irá desde el primer
cuartil hasta el mínimo (desde el 4,20 a 2,98). El brazo superior abarcará desde
el tercer cuartil hasta el máximo (desde el 6,42 hasta el 7,13).
4. Los dos puntos extremos se representan mediante un punto o círculo.
El diagrama de caja del conjunto de la altura de estos veinte árboles es:
10
Esta representación proporciona una visión rápida de la distribución, apreciándose
una asimetría al no estar Q2 en el centro, en este caso porque hay árboles más altos que
la mediana cuya altura está más separada de la mediana que los que tienen una altura
inferior a ella, que están más agrupados. También se puede apreciar la existencia de
valores extremos.
División del trabajo:
Para dar una buena exposición nos dimos a la tarea de investigar sobre el tema
(diagrama de caja). Cuando todos estuvimos de acuerdo en la información obtenida y
resuelto nuestras dudas dividimos en 3 partes toda la información para cada un
integrante del equipo. Claudio estuvo de acuerdo en empezar con la introducción y la
importancia ya que lo entendía muy bien, Roberto decidió exponer los elementos y
pasos para elaborar el diagrama y Guadalupe quiso dar el ejemplo del diagrama.
11
Para la actividad entre los tres trabajamos para que fuera fácil de comprender y realizar.
El objetivo era que los alumnos supieran identificar los elementos y valores atípicos de
un diagrama de caja. Se resolvieron dudas y salió todo muy bien.
Conclusiones.
Guzmán Ávila Claudio Enrique:
Durante esta clase se expuso el tema de diagrama de caja y bigotes el cual es una
herramienta más que se puede utilizar en la industria para describir el comportamiento
de datos obtenidos de un proceso del cual se quiere realizar un estudio para detectar los
valores atípicos y así poder realizar los ajustes necesarios. A los compañeros de clase se
les hablo de quien fue el que propuso este diagrama, su definición, los elementos que
conforman el diagrama de caja, como es su interpretación, se les dio la definición de lo
que son los valores atípicos, y la importancia de este diagrama para el análisis de datos.
En cuanto a mi exposición trate de explicar lo mejor posible la parte teórica y trate de
apoyar a mis compañeros con su explicación aunque batalle un poco ya que lo que
habíamos leído sobre cómo resolver un problema no estaba bien y tuvimos errores que
nos corrigió la maestra. En el momento de aplicar la dinámica ya entendía un poco más
cómo resolver el problema como calcular los cuartiles, la media y hacer la gráfica lo que
me facilito apoyar a mis compañeros a resolver la actividad y aclarar sus dudas.
Guadalupe Ortega Armendáriz.
Para exponer este diagrama nos preparamos durante más de dos semanas y aun así nos
faltó un poco más. A mi parecer nos salió bien, pero nos faltó para un excelente.
El diagrama no es difícil de construir, lo que me pareció complicado es entenderlo e
interpretarlo, aunque tuvimos un error con el ejemplo expuesto, eso mismo nos ayudó a
comprender mejor sobre la obtención de los cuartiles y la mediana. Me parece un
excelente diagrama, junto con los anteriores que hemos estado viendo ya que al
aplicarse a la industria o empresa tienes amplias posibilidades de encontrar problemas,
encontrar probabilidades o mejorar algún proceso en sí. Creo que el objetivo de la
exposición se cumplió ya que nuestros compañeros nos compartieron sus dudas y con
mucho gusto les resolvimos lo mejor que pudimos.
En lo personal me siento contento con el final obtenido y porque aprendimos una nueva
herramienta de calidad.
12
Roberto Barrientos Hernández
Para mí en general lo que nos sirvió el diagrama de caja fue para entender la dispersión
de los datos, como se debe de entender al momento de graficarla y al igual forma sacar
cada parte que nos piden para saber cómo haremos la caja, también fue muy importante
conocer cada elemento que la conforma y como obtenerlo esto para plantear bien el
ejemplo al momento que lo hicimos, de igual forma nos fue de gran utilidad saber los
pasos para crearlo porque sin ellos no sería posible hacer el diagrama de caja sin más
que agregar me quedo muy entendible este tema ya que no lo conocía .
13
Bibliografías:
Gutiérrez Pulido Humberto & de la Vara Salazar (2013), Control estadístico de la
calidad y Seis Sigma, México D.F. Mc Graw-Hill.
Diagrama_cajas.pdf (09 de Septiembre de 2007) Descripción de la elaboración de un
diagrama de cajas Recuperado el 24 de Octubre de 2017 www.geocities.ws
http://www.geocities.ws/e_gomez_lara/diagrama_cajas.pdf
GRAFICO DE CAJA.pdf. (Año 2011) Recuperado el 24 de Octubre de 2017,
https://med.unne.edu.ar
https://med.unne.edu.ar/sitio/multimedia/imagenes/ckfinder/files/files/aps/GR
%C3%81FICO%20DE%20CAJA.pdf
Estadística descriptiva univariante mediante el grafico de caja y bigotes pdf. (05 de
Febrero de 2016), Recuperado el 24 de Octubre de 2017,
http://eprints.ucm.es/
http://eprints.ucm.es/35985/19/EL%20%20GR%C3%81FICO%20%20DE
%20%20CAJA.pdf
Diagrama_de_Caja_y_Bigotes-2 Pdf. (22 de Noviembre de 2011) Recuperado 24 de
Octubre de 2017 http://inst-mat.utalca.cl
http://inst-mat.utalca.cl/tem/sitiolmde/primero/guias-
liceo/recuperacion/Diagrama_de_Caja_y_Bigotes-2.pdf
http://www.universoformulas.com/estadistica/descriptiva/diagrama-caja/
14