Tesis
Tesis
FACULTAD DE INGENIERÍA
TESIS
Que para obtener el título de
Ingeniero Industrial
PRESENTA
Karen Evely Mejía Cervantes
DIRECTORA DE TESIS
M.I. Ann Godelieve Wellens Purnal
A mis padres Eugenia Cervantes Sánchez y Moises Mejía Reyes que me han guiado por la
vida con amor y paciencia, gracias al apoyo brindado he logrado terminar mis estudios
profesionales por lo cual viviré eternamente agradecida, solo quiero hacer mencion que
cualquier logro mío, es un logro suyo, gracias por confiar siempre en mí, los amo con todo
mi corazón.
A mis hermanos Moises Mejía Cervantes y Marlene Mejía Cervantes por ser mis
compañeros de vida y superación incansable por su comprensión y confianza, les dedico
este logro de todo corazón.
Índice de tablas
Tabla 1.1 Comparación de características entre softwares .......................................................... 10
Tabla 1.2 Historia de la calidad ..................................................................................................... 13
Tabla 1.3 Hoja de verificación ....................................................................................................... 15
Tabla 1.4 Quejas registradas ......................................................................................................... 18
Tabla 1.5 Reglas de decisión de una hipótesis estadística ............................................................ 22
Tabla 1.6 Clasificación de los procesos de acuerdo con su capacidad.......................................... 24
Tabla 1.7 Fórmulas para el cálculo de límites de control para variables ...................................... 29
Tabla 1.8 Fórmulas para el cálculo de límites de control para atributos ...................................... 30
Tabla 2.1 Operadores en R ............................................................................................................ 37
Tabla 2.2 Tipos de distribuciones en R .......................................................................................... 39
Tabla 2.3 Descripción de los prefijos de la distribución normal en R ........................................... 39
Tabla 2.4 Funciones graficas en R ................................................................................................. 43
Tabla 3.1 Muestreo de la línea 1,2 y 3 .......................................................................................... 46
Tabla 3.2 Defectos de calidad ....................................................................................................... 55
Tabla 3.3 Número de defectos ...................................................................................................... 57
Tabla 3.4 Factores para la construcción de los diagramas de control. ......................................... 65
Tabla 3.5 Muestreo de defectos y unidades defectuosas............................................................. 68
Tabla 4.1 Resumen de estadísticas generadas por Rstudio .......................................................... 80
Tabla 4.2 Valores de prueba de hipótesis ..................................................................................... 81
Tabla 4.3 Resumen de índices de capacidad por Rstudio. ............................................................ 82
Tabla 4.4 Relación Cp y Cpk........................................................................................................... 83
Tabla 4.5 Probabilidad de paquetes defectuoso........................................................................... 83
I. Introducción
En la actualidad, una empresa de manufactura o de servicios difícilmente puede subsistir
sin realizar un esfuerzo deliberado por mejorar la calidad de sus productos o servicios.
Para lo anterior, las empresas tienen a su alcance distintos paquetes disponibles para un
correcto análisis de los procesos de calidad involucrados en su sistema, varios de ellos
basados en la estadística, tales como excel, minitab, SPSS, entre otros. Estos paquetes
han sido desarrollados dentro de empresas lucrativas por lo que tienen un costo asociado
a su uso. Sin embargo, debido al desarrollo rápido de las tecnologías de información y el
creciente interés de la comunidad académica de compartir los conocimientos generados
en forma libre, varios grupos académicos han buscado desarrollar herramientas gratuitas
de uso libre. Un ejemplo es el paquete R; la ventaja de usar R es que es un software libre
y gratuito en el cual se pueden manipular los datos para encontrar el análisis más
adecuado que refleje el estado actual de una empresa con base en números.
III. Objetivo
Ejemplificar el análisis estadístico del control de la calidad en un proceso industrial o de
servicios por medio de la programación en R tomando en cuenta paquetes existentes,
así como la elaboración de códigos programáticos propios como apoyo al aprendizaje de
los estudiantes de la carrera de ingeniería industrial.
8
1 Marco teórico
1.1 Antecedentes
Actualmente, el uso de R ha presentado una tendencia positiva debido a que es flexible
y potente; está diseñado para operar de la manera en la cual se está pensando con base
en un lenguaje de programación, dicho lenguaje se puede diseñar de acuerdo con las
necesidades del usuario.
9
En México, universidades e instituciones como el Instituto Tecnológico Autónomo de
México (ITAM), Centro de Investigación y de Estudios Avanzados (CINVESTAV),
Universidad de Quintana Roo, Centro de Investigación en Matemáticas (CIMAT), así
como la Universidad Nacional Autónoma de México (UNAM), por mencionar algunas, se
está usando este software como herramienta para el análisis de datos estadístico en
distintas disciplinas. En la UNAM, en algunas facultades como la Facultad de Psicología,
Facultad de Ciencias, Facultad de Economía y en la Facultad de Ingeniería, algunos
investigadores y profesores emplean este software para realizar pruebas de hipótesis,
ajustes de modelos y análisis de diseños experimentales complejos entre otros tipos de
análisis por lo flexible y potente que resulta ser R. Sin embargo, en la Facultad de
Ingeniería su uso todavía no es muy generalizado.
Tomando en cuenta que este trabajo está centrado en el control estadístico de calidad,
durante el desarrollo de este se realizará una comparación de aspectos generales entre
los programas estadísticos que más comúnmente son usados para realizar el análisis
como son excel y minitab, así como el software que se está proponiendo usar, que es R.
En la tabla 1.1. se comparan los tres softwares en aspectos como manipulación de datos,
costo, amigabilidad con el usuario, sistema operativo, entre otros.
De acuerdo con la tabla 1.1, R comparte su código fuente con la comunidad que tiene
interés en desarrollar códigos de programación, la cual aporta otras formas de resolver
problemas. Cabe mencionar que cada vez más usuarios se están involucrando dentro de
la comunidad que usa R, por lo que cada uno de esos usuarios recibe conocimiento que
se encuentra disponible y al mismo tiempo aporta otro conocimiento.
10
1.2 R en la calidad y análisis estadístico
Aunque R se usa en un campo más amplio que solo la estadística, es en esta rama del
conocimiento que ha tenido más auge, debido a que fue en esta rama en donde nace
este lenguaje, cuya característica principal es que forma un entorno de análisis
estadístico para la manipulación de datos, su cálculo y creación de gráficos.
11
De acuerdo con Gutierrez (2009), los productos son resultado de un proceso, el cual es
un conjunto de actividades entrelazadas o interrelacionadas que reciben determinados
insumos (entradas) que son transformados en un resultado (salidas) o en un producto.
En la figura 1.2, recuperada de Gutierrez (2009), se muestra cómo se compone un
proceso tomando en cuenta la voz del cliente, así como el diseño y la planeación para
después pasar por varias etapas dentro del proceso para que se pueda obtener un
producto o servicio.
Cuando se tiene mala calidad en las diferentes actividades hay equivocaciones y fallas
de todo tipo, por ejemplo:
Con base en todas estas equivocaciones de la calidad, Juran (1990) menciona que: “Las
necesidades humanas de calidad han existido desde el alba de la historia; sin embargo,
los medios para satisfacer esas necesidades – los procesos de gestión para la calidad –
han sufrido unos cambios amplios y continuos”.
En la tabla 1.2 se muestra cómo han ido evolucionando los procesos de gestión para la
calidad con el paso del tiempo dentro de un mundo tan competitivo en donde se busca
12
incrementar cada día la calidad de los productos o servicios y una vez que el cliente
consume y aprueba se busca mejorar la calidad para evitar perder clientes.
División del trabajo: proveedores de Inspección por los consumidores en los mercados
alimentos de los pueblos
Expansión del comercio más allá de los Especificaciones: materiales, procesos, productos;
límites del pueblo controles de la exportación; auditorías
Teniendo en cuenta los conceptos anteriores, cabe mencionar que un proceso no puede
ser mejorado o controlado sin conocer su estado actual y sin haber medido antes sus
características, para lo cual existen varias herramientas que se utilizan para el
aseguramiento de la calidad; estas sirven para medir el desempeño del proceso industrial
o del servicio. Estas herramientas serán detalladas en los siguientes subtemas.
13
1.3 Herramientas básicas para el mejoramiento de la calidad
Las herramientas más utilizadas por las organizaciones en su camino hacia la calidad
son siete y fueron propuestas por Kaoru Ishikawa en 1968; estas herramientas tienen su
fundamento en métodos estadísticos tradicionales que se enfocan a la solución de
problemas comunes, como pueden ser los defectos en los productos. Estos defectos son
creados a veces por la enorme variabilidad encontrada en los procesos, teniendo su raíz
en la variación de los materiales, maquinaria, métodos de trabajo, mano de obra e
inclusive el medio ambiente. La siguiente información se obtuvo de Gutierrez (2009),
(Montgomery, 2016).
1. Hoja de verificación
2. Tormenta de ideas
3. Diagrama causa – efecto
4. Histograma
5. Diagrama de Pareto
6. Diagrama de dispersión
7. Gráfica de control
Ahora bien, el recolectar estos datos requiere establecer monitoreo constante del proceso
de producción, y se usan para llevar un análisis de lo que no se ajusta a las
14
especificaciones e inspeccionar con el fin de prevenir y mejorar la calidad del producto.
Un método eficiente para recolectar datos puede ser el realizar una hoja de verificación,
concepto que representa la primera de las siete herramientas de mejora y que se
presenta a continuación.
15
desarrollar el pensamiento creativo de grupo que genera y posteriormente clarifica una
lista de ideas relacionadas con la solución de un problema.
Un diagrama causa – efecto tiene su fundamento en el análisis causal, el cual analiza las
causas de los posibles efectos, con el fin de establecer posibles soluciones a dichas
causas; además muestra la relación entre una característica determinada y los factores
relacionados a esta, ayudando así a encontrar las causas posibles que la afectan, con lo
cual es viable en una fase posterior determinar posibles soluciones a dichas causas.
En la figura 1.3 se muestra cómo se organiza el diagrama a partir de las posibles causas
potenciales, que son organizadas en categorías mayores y sub–categorías formado de
esta manera el despliegue de la problemática, similar a un esqueleto de pescado. De
aquí que la herramienta también sea conocida como diagrama de espina de pescado.
16
1.3.4 Histograma
El histograma es una representación gráfica, en forma de barras, de la distribución de un
conjunto de datos o una variable, donde los datos se clasifican por su magnitud en cierto
número de grupos o clases, y cada clase es representada por una barra, cuya altura es
proporcional a la frecuencia de los valores representados. Por lo general, el eje horizontal
está formado por una escala numérica para mostrar la magnitud de los datos, mientras
que en el eje vertical se representan las frecuencias.
La idea es que cuando se quiere mejorar un proceso o atender sus problemas, no se den
“palos de ciego” y se trabaje en todos los problemas al mismo tiempo atacando todas sus
causas a la vez, sino que, con base en los datos e información aportados por un análisis
estadístico, se establezcan prioridades y se enfoquen los esfuerzos donde éstos tengan
mayor impacto. La utilidad general del diagrama está respaldada por el llamado principio
de Pareto, conocido como “ley 80-20” o “pocos vitales, muchos triviales”, en el cual se
reconoce que pocos elementos (20%) generan la mayor parte del efecto (80%), y el resto
17
de los elementos propician muy poco del efecto total. El nombre del principio se determinó
en honor al economista italiano Wilfredo Pareto (1843-1923).
98 %
400 80
Numero de reportes
88 %
300 72 % 60
200 48 % 40
100 20
El objetivo de esta gráfica es analizar la forma en que estas dos variables están
relacionadas; por ejemplo, estudiar en un grupo de estudiantes la relación entre su
estatura (X) y su peso (Y). O podría ser de interés investigar la relación entre una variable
de entrada (X) de un proceso con el valor de alguna característica de calidad (Y) del
producto final. Al graficar todos los puntos, es decir, todas las parejas de valores (𝑥𝑖 , 𝑦𝑖 ),
si se observa que los puntos siguen algún patrón definido, esto será un indicio de una
posible relación entre las dos variables.
18
El coeficiente de correlación es de utilidad para asegurarse de que la relación entre dos
variables que se observa en un diagrama no se debe a una construcción errónea del
diagrama de dispersión (por ejemplo, el tamaño y las escalas), así como para cuantificar
la magnitud de la correlación lineal en términos numéricos. Para un conjunto de n valores
del tipo (𝑥𝑖 , 𝑦𝑖 ), obtenidos a partir de n unidades o productos, este coeficiente se calcula
con:
𝑆𝑥𝑦
𝑟=
√𝑆𝑥𝑥 ∗ 𝑆𝑥𝑦
donde
𝑛
(∑𝑛𝑖=1 𝑥𝑖 )(∑𝑛𝑖=1 𝑦𝑖 )
𝑆𝑥𝑦 = ∑(𝑥𝑖 𝑦𝑖 −
𝑛
𝑖=1
𝑛 2
(∑𝑛𝑖=1 𝑥𝑖 )
𝑆𝑥𝑥 = ∑ 𝑥𝑖2 −
𝑛
𝑖=1
𝑛 2
(∑𝑛𝑖=1 𝑦𝑖 )
𝑆𝑦𝑦 = ∑ 𝑦𝑖2 −
𝑛
𝑖=1
Los valores que toma el coeficiente de correlación, r, están entre −1 y 1, incluyendo (−1
≤ r ≤ 1). Los valores de r cercanos o iguales a cero implican poca o nula relación lineal
entre X y Y. En contraste, los valores de r cercanos a 1 indican una relación lineal muy
fuerte, y los valores de r próximos a −1 muestran una fuerte correlación negativa. Los
valores de r menores a −0.85 o mayores a 0.85 indican una correlación fuerte; mientras
que los valores de r entre −0.50 y 0.50 se refieren a una correlación de moderada a débil.
Por último, los valores de r iguales o menores que −0.30 o 0.30 indican una correlación
lineal prácticamente inexistente. Cabe mencionar que, aun cuando existe una fuerte
relación lineal entre dos variables, esta relación no necesariamente es causal.
20
Por ejemplo, para estudiar la satisfacción de un servicio, se puede elegir
sistemáticamente encuestar a 1 de cada n clientes que visitan la sucursal. En
estas circunstancias, en las que puede existir diferente varianza entre individuos
en diferentes periodos de tiempo, el muestreo sistemático puede ser incluso más
preciso que el muestreo aleatorio simple.
3. Muestreo aleatorio estratificado. Se divide la población en grupos en función
de un carácter determinado y después se muestrea cada grupo aleatoriamente,
para obtener la parte proporcional de la muestra. Este método se aplica para
evitar que por azar algún grupo de datos este menos representado que los otros.
Además de tener resultados para el conjunto completo, se tiene información
también de los subgrupos (estratos).
4. Muestreo aleatorio por conglomerados. Se divide la población en varios grupos
de características parecidas entre ellos y luego se analizan completamente
algunos de los grupos, descartando los demás. Dentro de cada conglomerado
existe una variación importante, pero los distintos conglomerados son parecidos.
Requiere una muestra más grande, pero suele simplificar la recogida de muestras
y por tanto generalmente es más barato. Frecuentemente los conglomerados se
aplican a zonas geográficas.
Dentro del control estadístico de la calidad existen muchas razones para considerar las
pruebas de hipótesis como un instrumento indispensable; entre algunas de las que se
pueden mencionar están las siguientes:
a) Son las herramientas de trabajo para un buen análisis, esto es, de la información
de los procesos se pueden deducir hipótesis.
b) De estas hipótesis se puede establecer que son probablemente ciertas o
probablemente falsas.
c) Son un instrumento poderoso, porque ayudan a confirmar o negar una suposición
en forma independiente de la opinión del especialista que esté desarrollando el
análisis.
Debe hacerse hincapié en que la verdad o falsedad de una hipótesis en particular nunca
puede conocerse con certidumbre, a menos de que pueda examinarse a toda la
población. Esto es imposible en muchas situaciones prácticas. Por lo tanto, es necesario
21
desarrollar un procedimiento de prueba de hipótesis teniendo en cuenta la probabilidad
de llegar a una conclusión equivocada.
Con base en lo anterior, la hipótesis nula se caracterizó como la afirmación hecha sobre
la población; tal afirmación puede tener dos resultados posibles y complementarios al
probar su validez, estos son:
La hipótesis H0 es cierta.
La hipótesis H0 es falsa.
Si los datos sugieren que la hipótesis nula es falsa, entonces se debe rechazar y concluir:
la hipótesis 𝐻0 no está ampliamente respaldada por los datos de la muestra; en caso
contrario se concluirá que la hipótesis 𝐻0 está ampliamente respaldada por los datos de
la muestra.
En una prueba de hipótesis, la toma de decisiones se ha sujeta a los datos recolectados
a través de un experimento o de una muestra aleatoria, por lo que es posible cometer
dos tipos de errores que pueden llevar a una pérdida sustancialmente diferente, estos
errores son:
• Error tipo I: Rechazar una hipótesis verdadera
• Error tipo II: No rechazar una hipótesis falsa
En la tabla 1.5 se muestra esquemáticamente este tipo de errores que se pueden cometer
relacionando las decisiones que se pueden tomar de acuerdo con la situación real del
problema.
Situación real de 𝐇𝟎
Cierta Falsa
Rechazar H0 Error de tipo I α Decisión
Decisión correcta
No rechazar H0 Decisión correcta Error de tipo II β
El tamaño de estos dos tipos de error se define como la probabilidad de que cada uno de
ellos ocurra; al término α (alfa) se le llama nivel de significancia de la prueba,
generalmente se le asignan los valores 0.10, 0.05 ó 0.01 y se determina al inicio de la
investigación; a β (beta) se le denomina potencia de la prueba. Nótese que, debido a la
relación existente entre las hipótesis, los dos tipos de error se hallan relacionados, y al
22
controlar el error tipo I automáticamente se controla el otro para un tamaño de muestra
dado.
𝑯𝟎 : 𝜽 = 𝜽𝟎 𝐻0 : 𝜃 = 𝜃0 𝐻0 : 𝜃 = 𝜃0
𝑯𝒂 : 𝜽 > 𝜽𝟎 𝐻𝑎 : 𝜃 < 𝜃0 𝐻𝑎 : 𝜃 ≠ 𝜃0
Esta variación es denominada por causas comunes (o por azar) es aquella que
permanece día a día, lote a lote; y es aportada de forma natural por las condiciones de
las 6 M (materiales, maquinaria, medición, mano de obra, métodos y medio ambiente).
Esta variación es resultado de la acumulación y combinación de diferentes causas que
son difíciles de identificar y eliminar, ya que son inherentes al sistema y la contribución
individual de cada causa es pequeña; no obstante, a largo plazo representan la mayor
oportunidad de mejora.
Para relacionar la variabilidad del proceso con los límites especificados, se definen los
siguientes índices de capacidad sus definiciones y formulas fueron consultados en
(Gutierrez, 2009).
𝐿𝑆𝐸 − 𝐿𝐼𝐸
𝐶𝑝 =
6𝜎𝑥
23
En donde:
− LSE: límite superior de especificación
− LIE: límite inferior de especificación
− 6σx corresponde al rango de tolerancia natural del proceso y contiene el 99.73%
de los productos.
𝑪𝒑 ≥ 𝟏. 𝟑𝟑 1 Adecuado.
𝟏 < 𝑪𝒑 < 𝟏. 𝟑𝟑 2 Parcialmente adecuado. Requiere de un control
estricto
𝟎. 𝟔𝟕 < 𝑪𝒑 < 𝟏 3 No adecuado. Se requiere análisis y adaptación del
proceso para alcanzar una calidad satisfactoria.
𝑪𝒑 < 𝟎. 𝟔𝟕 4 No adecuado. Requiere de modificaciones serias.
Tabla 1.6 Clasificación de los procesos de acuerdo con su capacidad. Recuperado de Gutierrez (2009)
• Índice Cr. Un índice menos conocido que el 𝐶𝑝 , es el que se conoce como razón
de capacidad potencial, 𝐶𝑟 , y está definido por:
6σx
𝐶𝑟 =
𝐿𝑆𝐸 − 𝐿𝐼𝐸
• Índices laterales 𝑪𝒑𝒊 , 𝑪𝒑𝒔 y la capacidad real 𝑪𝒑𝒌. La desventaja de los índices
𝐶𝑝 y 𝐶𝑟 es que no toman en cuenta el centrado del proceso, debido a que en las
fórmulas para calcularlos no se incluye de ninguna manera la media del proceso,
24
μx Una forma de corregir esto consiste en evaluar por separado el cumplimiento
de la especificación inferior y superior, a través del índice de capacidad para la
especificación inferior, 𝐶𝑝𝑖 , y índice de capacidad para la especificación superior,
𝐶𝑝𝑠 , respectivamente, los cuales se calculan de la siguiente manera:
μ𝑥 − 𝐿𝐼𝐸
𝐶𝑝𝑖 =
3σ𝑥
𝐿𝑆𝐸 − μ𝑥
𝐶𝑝𝑠 =
3σ𝑥
Por su parte, el índice 𝐶𝑝𝑘 , que se conoce como índice de capacidad real del proceso, es
considerado una versión corregida del 𝐶𝑝 que sí toma en cuenta el centrado del proceso.
Si 𝐶𝑝𝑘 < 1, entonces el proceso no cumple con por lo menos una de las especificaciones.
Algunos elementos adicionales para la interpretación del índice 𝐶𝑝𝑘 son los siguientes:
− El índice 𝐶𝑝𝑘 siempre va a ser menor o igual que el índice 𝐶𝑝 cuando son muy
próximos, eso indica que la media del proceso está muy cerca del punto medio
de las especificaciones, por lo que la capacidad potencial y real son similares.
− Si el valor del índice 𝐶𝑝𝑘 es mucho más pequeño que el 𝐶𝑝 , significa que la media
del proceso está alejada del centro de las especificaciones. De esa manera, el
índice 𝐶𝑝𝑘 estará indicando la capacidad real del proceso, y si se corrige el
problema de descentrado se alcanzará la capacidad potencial indicada por el
índice 𝐶𝑝 .
− Cuando el valor del índice 𝐶𝑝𝑘 sea mayor a 1.25 en un proceso ya existente, se
considerará que se tiene un proceso con capacidad satisfactoria. Mientras que
para procesos nuevos se pide que 𝐶𝑝𝑘 > 1.45 .
− Es posible tener valores del índice 𝐶𝑝𝑘 iguales a cero o negativos, e indican que
la media del proceso está fuera de las especificaciones.
μ𝑥 − 𝑁
𝐾= ∗ 100%
1
(𝐿𝑆𝐸 − 𝐿𝐼𝐸)
2
25
El valor nominal, N, corresponde a la calidad objetiva y óptima. Cualquier desviación de
este valor significa una disminución en la calidad, ya que el descentrado del proceso
provoca la producción de unidades fuera de especificación.
− Si el signo del valor de K es positivo significa que la media del proceso es mayor
al valor nominal y será negativo cuando μ < N.
• Índice 𝑪𝒑𝒎 (índice de Taguchi) Los índices 𝐶𝑝 y 𝐶𝑝𝑘 están pensados a partir de lo
importante que es reducir la variabilidad de un proceso para cumplir con las
especificaciones. Sin embargo, desde el punto de vista de G. Taguchi, cumplir
con especificaciones no es sinónimo de buena calidad y la reducción de la
variabilidad debe darse en torno al valor nominal (calidad óptima), en
consecuencia, Taguchi (1986) propone que la capacidad del proceso se mida con
el índice 𝐶𝑝𝑚 que está definido por:
𝐿𝑆𝐸 − 𝐿𝐼𝐸
𝐶𝑝𝑚 =
6τ
μx − LIE
zi =
σx
LSE − μx
zs =
σx
26
1.7 Diagramas de control
Varios autores presentan explicaciones claras sobre lo que es un diagrama de control.
La información presentada en este inciso está basada en los libros de Gutiérrez (2009) y
Breyfogle (2003).
Esta teoría general de los gráficos de control fue propuesta por primera vez por Shewhart
en 1924. La publicación en 1931 del libro de Shewhart, Economic control of quality of
manufactured products, marcó el inicio de control estadístico de procesos.
Las gráficas de control son gráficas poligonales que muestran el estado del proceso en
el tiempo; son elementos indispensables en manos de quienes deben resolver problemas
de cambios en el proceso por causas específicas, porque proporcionan información
sobre:
− verificar que los datos obtenidos vienen de procesos con condiciones semejantes.
− observar el proceso productivo, a fin de poder investigar las causas de un
comportamiento anormal.
27
Los gráficos de control son la herramienta más poderosa del control estadístico de
procesos. Su finalidad es conseguir y mantener un proceso bajo control estadístico
mediante la reducción sistemática de la variabilidad atribuible a causas específicas.
Cuando un proceso trabaja sólo con causas comunes de variación se dice que está bajo
control estadístico o es estable, porque su variación a través del tiempo es predecible.
Además, independientemente de que su variabilidad sea mucha o poca, el desempeño
del proceso es predecible en el futuro inmediato, en el sentido de que su tendencia central
y la amplitud de su variación se mantienen sin cambios, al menos en el corto plazo. En
contraste, se dice que un proceso en el que están presentes causas especiales de
variación está fuera de control estadístico (o simplemente que es inestable); este tipo de
procesos son impredecibles en el futuro inmediato pues en cualquier momento pueden
aparecer de nuevo las situaciones que tienen un efecto especial sobre la tendencia
central o sobre la variabilidad. No distinguir entre estos dos tipos de variabilidad conduce
a cometer dos errores en la actuación de los procesos.
Una de las tantas preguntas es saber qué gráfico de control seleccionar con base en el
tipo y número de datos, por lo cual en la figura 1.7 se presenta un diagrama de flujo que
sirve de ayuda para saber qué tipo de gráfico emplear.
Figura 1.7 Diagrama de flujo para selección de gráficos de control. Elaboración propia
28
De acuerdo con el diagrama de flujo anterior se selecciona el tipo apropiado de gráfico
de control y se calculan los estadísticos, así como los límites de control basado en los
estadísticos del muestreo de los elementos muestreados en cada momento en el tiempo.
Cabe mencionar que también existen graficas de control para detectar cambios pequeños
en el proceso como son CUSUM y EWMA, que se detallaran más adelante.
𝑅̅⁄ 𝑅̅⁄
̅−𝑹
𝑿 𝑋̿ − 3(
𝑑2
) 𝑋̿ 𝑋̿ + 3(
𝑑2
)
√𝑛 √𝑛
𝑆̅ 𝑆̅
̅ −𝑺
𝑿 𝑋̿ − 3( ) 𝑋̿ 𝑋̿ + 3( )
𝑐4 √𝑛 𝑐4 √𝑛
𝑿−𝑹 𝑅̅ 𝑅̅
𝑋̅ − 3 𝑋̅ 𝑋̅ + 3
(Medidas individuales) 1.128 1.128
R 𝑅̅ 𝑅̅
𝑅̅ − 3𝑑3 ( ) 𝑅̅ 𝑅̅ − 3𝑑3 ( )
(Rangos)
𝑑2 𝑑2
S 𝑆̅ 𝑆̅
𝑆̿ − 3 √1 − 𝑐42 𝑆̅ 𝑆̿ + 3 √1 − 𝑐42
(Desviación estándar)
𝑐4 𝑐4
Tabla 1.7 Fórmulas para el cálculo de límites de control para variables. Elaboración propia
En la tabla 1.8 se muestra de igual manera información de cómo calcular los límites de
control dependiendo de qué tipo de gráfico se quiera construir; en este caso es para
diagramas de control para atributos.
29
Tipo de gráfico LIC Línea central LSC
𝒑
𝑝 ̅
̅ (1 − 𝑝) 𝑝̅ ̅
̅ (1 − 𝑝)
𝑝
(Proporción de defectuosos)
𝑝̅ − 3√ 𝑝̅ + 3√
𝑛 𝑛
𝒏𝒑
𝑛𝑝̅ − 3√𝑛𝑝̅ (1 − 𝑝̅ ) 𝑛𝑝̅ 𝑛𝑝̅ + 3√𝑛𝑝̅ (1 − 𝑝̅)
(Número de defectuosos)
𝒄
𝑐̅ − 3√𝑐̅ 𝑐̅ 𝑐̅ + 3√𝑐̅
(Número de defectos)
u
𝑢̅ 𝑢̅ 𝑢̅
𝑢̅ − 3√ 𝑢̅ + 3√
(Número de defectos por unidad) 𝑛 𝑛
Tabla 1.8 Fórmulas para el cálculo de límites de control para atributos. Elaboración propia
Una desventaja de los gráficos de control tradicionales (tipo Shewhart), es que no son
rápidas para detectar “cambios pequeños” en el proceso. Para solucionar este problema
existen las gráficas tipo CUSUM y EWMA.
• CUSUM. Este gráfico fue propuesto por Page (1954), y el nombre de CUSUM se
debe a que es un gráfico que construye a través de la suma acumulada de las
desviaciones con respecto a la media global (si el proceso está centrado, se
podrían considerar las desviaciones con respecto al valor nominal de la
característica de interés). Entonces, en los primeros m puntos de inspección sobre
el diagrama CUSUM se grafican las sumas acumuladas:
̅̅̅1 − 𝑢̂)
𝑆1 = (𝑋
̅̅̅1 − 𝑢̂) + (𝑋
𝑆2 = (𝑋 ̅̅̅2 − 𝑢̂)
̅̅̅1 − 𝑢̂) + (𝑋
𝑆3 = (𝑋 ̅̅̅2 − 𝑢̂) + (𝑋
̅̅̅3 − 𝑢̂)
.
.
.
̅̅̅1 − 𝑢̂) + (𝑋
𝑆𝑚 = (𝑋 ̅̅̅2 − 𝑢̂) + (𝑋
̅̅̅3 − 𝑢̂) + ⋯ + (𝑋
̅̅̅̅
𝑚−𝑢̂) = ∑(𝑋̅𝑖 − 𝑢̂)
𝑖=1
30
𝑍𝑡 = 𝜆𝑋𝑡 + (1 − 𝜆)𝑍𝑡−1
donde Z0 = X̿ que coincide con el valor nominal si el proceso está centrado, y 0 < λ ≤ 1.
Por ejemplo, hasta 𝑍3 , las tres primeras sumas estarían dadas por:
𝑍1 = 𝜆𝑥
̅̅̅1 + (1 − 𝜆)𝑍0
𝑍2 = 𝜆𝑥
̅̅̅2 + (1 − 𝜆)𝑍1
𝑍3 = 𝜆𝑥
̅̅̅3 + (1 − 𝜆)𝑍2
𝜎2 𝜆
𝑉𝑎𝑟(𝑍𝑡 ) = [ ] [1 − (1 − 𝜆)2𝑡 ]
𝑛 2−𝜆
donde n es el tamaño del subgrupo. De aquí que los límites en el punto o subgrupo t
están dados por:
𝜎̂ 𝜆
𝐿𝐶𝑆 = 𝑍0 + 3 √[ ] [1 − (1 − 𝜆)2𝑡 ]
√𝑛 2−𝜆
3𝜎̂ 𝜆
𝐿𝐶𝐼 = 𝑍0 − √[ ] [1 − (1 − 𝜆)2𝑡 ]
√𝑛 (2 − 𝜆)
3𝜎̂ 𝜆
𝐿𝐶𝑆 = 𝑍0 + √[ ]
√𝑛 (2 − 𝜆)
3𝜎̂ 𝜆
𝐿𝐶𝐼 = 𝑍0 − √[ ]
√𝑛 (2 − 𝜆)
31
1.8 Muestro de aceptación
En las actividades de control de calidad, en ocasiones es necesario inspeccionar lotes
de materia prima, así como partes o productos terminados para asegurar que se cumplen
ciertos niveles de calidad con un buen grado de confianza. El muestreo de aceptación es
el proceso de inspección de una muestra de unidades extraídas de un lote que se realiza
con el propósito de aceptar o rechazar todo el lote. Se puede aplicar en cualquier relación
cliente-proveedor.
Se debe tener claro que el muestreo de aceptación es una forma particular de inspección,
en la que simplemente se aceptan y rechazan lotes, pero no mejora la calidad. Es decir,
este muestreo no es una estrategia de mejora de la calidad, sino más bien una estrategia
para proporcionar cierto nivel de seguridad de que los niveles de calidad declarados para
cierto producto se están alcanzando. Por lo tanto, es una estrategia defensiva ante el
posible deterioro de la calidad.
De acuerdo con Montgomery (2016), hay tres enfoques para la dictaminación de lotes y
son los siguientes:
− Suele tener costos más bajos, debido a que hay menos inspección
− Hay menos manejo del producto y, en consecuencia, se reducen los daños
− Puede aplicarse en pruebas destructivas
− En las actividades de inspección participa menos personal
− La cantidad de errores de inspección generalmente se reduce en gran medida
− El rechazo de lotes completos, por oposición a la simple devolución de las
unidades defectuosas, con frecuencia proporciona una motivación mayor para
que el proveedor atienda el mejoramiento de calidad
1.9 ¿Qué es R?
R es un lenguaje de programación para la manipulación de datos, cálculo y
representación gráfica. Este software ofrece una amplia variedad de técnicas
estadísticas, por mencionar algunas: modelos de regresión lineal, pruebas estadísticas,
análisis de series temporales, clasificación y agrupación de datos, etc.
En 1993, R fue desarrollado como lenguaje de programación por Ross Ihaka y Robert
Gentleman, profesores de estadística de la Universidad de Auckland en Nueva Zelanda
como un dialecto del lenguaje S, que había sido creado a principios de los años 90 del
Siglo XX por los Laboratorios AT&T Bell (Jose Miguel Contreras Garcia, 2010).
En junio de 1995 ya se disponía de una versión publica de R para el cual el código fuente
estuvo disponible en los términos de la licencia general GNU de la Free Software
Foundation. Con este lanzamiento surgió una amplia comunidad de usuarios, como
estadísticos y expertos en computación que, de manera desinteresada, comenzaron a
desarrollar y publicar cambios en el código de R, los cuales eran comunicados a los
fundadores a través de correo. De vez en cuando se liberaban versiones actualizadas; R
se convirtió en un software libre debido a que los usuarios tienen la libertad de ejecutar,
copiar, distribuir, estudiar, modificar y mejorar el software. El software libre es una
cuestión de libertad, no de precio (GNU, 2016).
Como se menciona en la página de GNU, un software es libre sí cumple con las cuatro
libertades
Para el año 2000 aparece la primera versión oficial para el público en general (la versión
1.0.0), desde entonces con el paso de los años se ha tenido un progreso en su desarrollo
y actualmente está disponible la versión 3.5.1.
1.9.1 Características
R se ha convertido en un software muy potente a nivel internacional, al grado que, a
estadísticos, ingenieros, científicos e investigadores, aún sin conocimientos previos de
programación, les resulta fácil de usar. R permite hacer análisis desde muy básicos a
complejos, dependiendo del propósito que cada usurario quiera lograr.
Como resultado del trabajo comunitario que se ha realizado a través de los años,
actualmente en R se puede realizar infinidad de tareas con base en sus características
tales como:
México
4. Para descargar el paquete básico, dar click en el hipervínculo llamado base Resulta una
página con el título R-3.5.1 for Windows. En ella, elegir el hipervínculo Download R-3.5.1,
con lo que saldrá la siguiente ventana de diálogo
5. Se elige Ejecutar, es el programa ejecutable (.exe) instalador del sistema R básico. En la
ventana de diálogo que resulta se elige Ejecutar. Posteriormente se solicita el idioma de
instalación se selecciona el que sea de su preferencia y seguir los pasos que se inidican
en cada ventana hasta concluir con la instalación.
1.9.3 Rstudio
Rstudio es un entorno de desarrollo integrado (Integrated Development Enviroment, IDE,
por sus siglas en inglés) para el lenguaje de programación R. De acuerdo con Venzani
(2011). Un IDE es una aplicación de software que proporciona un entorno de
programación para agilizar el desarrollo y la depuración de software.
Generalmente, un IDE proporciona una interfaz fácil de usar, automatiza los pasos de
desarrollo y permite a los desarrolladores ejecutar y depurar programas desde una sola
pantalla. También puede proporcionar el enlace desde un sistema operativo de desarrollo
a una plataforma de destino de aplicaciones, como un entorno de escritorio, un teléfono
inteligente o un microprocesador. En este sentido, Rstudio es un IDE de R.
35
Rstudio se inicia como la mayoría de las demás aplicaciones. En la figura 1.8 se puede
ver la aplicación ejecutándose bajo una versión de Windows. Se muestran los 3 paneles
principales, los cuales se muestran amigables para cualquier usuario.
36
2 Funcionamiento general de R y manejo
de funciones
2.1 Uso de R
Este trabajo está orientado para lectores que ya tengan cierta experiencia en el manejo
de R, por lo cual se abordaran sólo algunos conceptos del funcionamiento de este en un
breve repaso.
Operadores
Aritméticos Comparativos
+ adición menor que
− substracción mayor que
multiplicación = menor o igual que
división = mayor o igual que
^ potencia == igual
% % división de enteros ! = diferente de
Tabla 2.1 Operadores en R. Elaboración propia con base en Paradise, (2003)
2.1.1 Ayuda
En R se puede buscar ayuda en línea, sólo se debe ingresar el siguiente signo “?” seguido
de la función que se está buscando y automáticamente se despliega información
detallada de la misma. Como ejemplo, ejecutando la siguiente línea de código, se
mostrará información de cómo utilizar la función plot, a través de una ventana con
información específica de la función, así como ejemplos de cómo se debe utilizar.
?plot
También se puede utilizar el comando help el cual tiene la misma función de brindar
ayuda, como se muestra en la siguiente línea de código.
help(plot)
37
2.2 Tipos de variables y su asignación
Un objeto en R puede ser un vector, una lista, una función, arreglo, matriz, etc., que
pueden ser de tipo numérico, carácter, complejo o lógico. Este puede ser creado con el
operador “asignar” que es representado con los siguiente símbolos y operadores “−“,
“−” o “=”. A continuación, se darán 3 ejemplos de la forma en la cual se puede asignar.
Ejemplo 1
x <- c (10.4,5.6,3.1,6.4,21.7)
Ejemplo 2
c (10.4,5.6,3.1,6.4,21.7)-> x
Ejemplo 3
x = c (10.4,5.6,3.1,6.4,21.7)
En los ejemplos mostrados anteriormente se puede ver como un objeto en este caso
llamado x guarda los siguientes valores (10.4, 5.6, 3.1, 6.4, 21.7). Posteriormente se
puede realizar operaciones de adición, sustracción, división, etc., con dicho objeto, que
a su vez puede ser mezclado con otros objetos para poder realizar la programación de
un código que busca obtener información a través de datos reales.
Distribución/función función
Gausse (normal) rnorm (n, mean=0, sd=1)
exponencial rexp (n, rate=1)
gamma rgamma (n, shape, scale=1)
Poisson rpois (n, lambda)
Weibull rweibull (n, shape, scale=1)
Cauchy rcauchy (n, location=0, scale=1)
beta rbeta (n, shape1, shape2)
38
Student' (t) rt (n, df)
Fisher-Snedecor (F) rf (n, df1, df2)
2
Pearson (𝜒 ) rchisq (n, df)
binomial rbinom (n, size, prob)
geométrica rgeom (n, prob)
Hypergeométrica rhyper (nn, m, n, k)
logística rlogis (n, location=0, scale=1)
lognormal rlnorm (n, meanlog=0, sdlog=1)
binomial negativa rnbinom (n, size, prob)
uniforme runif (n, min=0, max=1)
Estadístico de Wilcoxon's rwilcox (nn, m, n), rsignrank (nn, n)
Tabla 2.2 Tipos de distribuciones en R. Recuperado de Paradise, (2003)
Para cada una de las distribuciones mostradas en la tabla anterior, se puede cambiar el
prefijo de la función para obtener distinta información de los datos; los prefijos son los
siguientes:
Este trabajo está enfocado al control de la calidad de algún producto o servicio por lo cual
se hará más énfasis en la distribución normal que es la que se ocupa usualmente para el
análisis de control de calidad. En la tabla 2.3 se observan los prefijos anteriores para
diferentes aplicaciones de la distribución normal.
• p: Vector de probabilidades.
39
• n: Números de observaciones.
La función de dnorm se utiliza para encontrar los valores de densidad en el eje x, que
por medio de una expresión en R llamada “curve” que sirve para graficar una curva
correspondiente a una función, en este caso dnorm que es una función de densidad y
se utilizará en un intervalo de -3 a 3, como se muestra en la siguiente línea de código. El
resultado al momento de ejecutar dicha línea de código se muestra en la figura 2.1.
40
Para realizar una explicación del funcionamiento de las funciones pnorm y qnorm se
tomará en cuenta que z es una variable aleatoria normal con una media de 0 y una
desviación estándar igual a 1 (ejemplos 1 a 4).
Ejemplo 1. Con el código mostrado se realiza el cálculo de P (Z > 2); se usa la función acumulada
de distribución, indicando que la probabilidad de cola es hacia la derecha.
## [1] 0.02275013
## [1] 0.9544997
## [1] 0.4581849
qnorm(0.5793, mean = 0, sd = 1)
## [1] 0.20010
Aunque hay otras formas de lectura para diferentes formatos, para el uso de este trabajo,
se utilizará [Link], que sirve para leer archivos en excel, pero este archivo debe estar
guardado con la extensión .csv para que puedan generar los datos en R.
A la instrucción [Link] se le puede dar el nombre del archivo para que lo busque en el
ordenador sustituyendo la palabra file por el nombre exacto.
[Link] (file, header = TRUE, sep = ",", quote="\"", dec=".", fill = TRUE, ...)
Al ejecutar la instrucción:
2.3.1 Graficar
La manera en la cual se presentan los datos estadísticos después de un análisis es
importante para tener una buena comunicación de los resultados correspondientes
dentro de una organización. Los gráficos sirven para comprender mejor el
comportamiento de los datos; en el control de la calidad visualizar los datos en forma
gráfica es importante para detectar variabilidad, patrones y tendencia de los datos en el
proceso, por los cual es de utilidad saber cómo realizar los gráficos con ayuda de R.
R es un software con una gran variedad de gráficos para proporcionar al usuario una
herramienta para la presentación de los datos; también cuenta con una gran flexibilidad
para realizar los mismos, desde gráficos muy simples hasta gráficos personalizados que
pueden ser modificados en cualquier momento.
En este trabajo no es posible detallar todos los tipos de gráficos que se pueden realizar
en R, debido a que son muy extensos y al mismo tiempo cada uno de ellos cuenta con
un número de parámetros que se pueden personalizar dependiendo de qué tan detallado
se requiera el gráfico, por lo cual en este capítulo solo se dará un resumen de los gráficos
que se pueden generar y cuál es su función en R así como sus parámetros que se pueden
modificar; en el siguiente capítulo generaran gráficos enfocados al control de la calidad y
se realizarán desde el más básico hasta uno más complejo.
La tabla 2.4 muestran solo algunos tipos de gráficos que se pueden realizar en R que
para fines de este trabajo solo se muestra 7, para información más detallada de cómo
utilizar otros tipos de gráficos se puede consultar el documento de (Paradis, 2003).
42
barplot (x) gráfica de barras para los valores de x
qqnorm (x) cuartiles de x con respecto a lo esperado bajo una distribución normal
Tabla 2.4 Funciones graficas en R. Elaboración propia con base en Paradise, (2003)
Los gráficos se pueden clasificar en gráficos de alto nivel y gráficos de bajo nivel. Los
gráficos de alto nivel son funciones que generan un gráfico principal mientras que los
gráficos de bajo nivel son funciones que afectan al gráfico principal ya existente. En la
tabla 2.5 se muestran comandos que se clasifican como de bajo nivel.
rect ((x1, y1, x2, y2) dibuja un rectángulo donde las esquinas izquierdas, derecha,
superior e inferior están dadas por (x1, x2, y1, y2) respectivamente
polygon (x, y) dibuja un polígono uniendo los puntos dados por x y y
agrega la leyenda en el punto (x, y) con símbolos dados por
legend (x, y, legend)
legend
title () agrega un título y opcionalmente un subtitulo
agrega un eje en la parte inferior, izquierda, superior o derecha
axis (side, vect) (side = 1, 2, 3, 4); vect (opcional) da la abscisa u ordenada donde
se deben dibujar los marcadores ('tick marks') del eje
rug (x) dibuja los datos X en el eje x como pequeñas líneas verticales
Figura 2.5 Comandos de graficación de bajo nivel. Recuperado de Paradise, (2003)
43
2.3.2 Paquetes y complementos
Los paquetes en R son un conjunto de códigos en un formato estandarizado sobre algún
tema en específico que sirven para ejecutar ciertas tareas de una manera más fácil y
rápida. Estos paquetes son elaborados por la comunidad de usuarios y actualmente
existen miles de paquetes que fueron realizados por usuarios de varias partes del mundo.
Los paquetes se almacenan en un lugar llamado biblioteca dentro de R; para poder usar
un paquete en R se debe tener conexión a internet.
R viene con un conjunto estándar de paquetes. Otros están disponibles para su descarga
e instalación. Una vez instalado dicho paquete tiene que ser cargado en la sesión a
utilizar.
A continuación, se mostrará como instalar paquetes en Rstudio, los cuales son de utilidad
para el usuario. El paquete por instalar lleva el nombre de SixSigma, el cual sirve para
llevar a cabo análisis estadísticos en la forma de Seis Sigma. A través del ciclo DMAIC
(Definir, Medir, Analizar, Mejorar y Controlar), también puede gestionar varios estudios
de gestión de calidad tales como R & R, Análisis de capacidad, gráficos de control entre
otros.
1. El usuario debe contar con el nombre del paquete a instalar, en este caso se instalará un
uno llamado “SixSigma”. Se debe tener cuidado en respetar las letras mayúsculas y
minúsculas que aparecen en el nombre de este, en caso contrario no se encontrará y por
consecuencia no se instalará. Se debe ingresar la siguiente línea de código; es necesario
que el nombre vaya entre comillas.
44
[Link]("SixSigma")
3. Para poder utilizar las funciones y datos de la librería, se carga en el espacio de trabajo
de R; esto se hace con la siguiente línea de código.
library("SixSigma")
5. Por último, en dado caso que se requiera ser desinstalado, se utiliza la siguiente línea de
código.
[Link]("SixSigma")
45
3 Generación de los códigos aplicables
3.1. Descripción del proceso hipotético analizado
Como ya se mencionó en el marco teórico, al planear los aspectos de calidad en la
manufactura y/o en servicios, es importante asegurarse que el proceso cumple con las
especificaciones y técnicas deseadas. Para iniciar el análisis se utilizará un caso de
estudio como referencia, el cual se describe a continuación.
El código se desarrolla con una empresa hipotética que lleva por nombre Fideos &
Pastas, SA de CV, que quisiera certificar su proceso de producción de pasta. La empresa
estableció que los paquetes de pasta de 200 g ya sean letras, balas, plumas o lo que
sea, deben contener entre 192 y 208 gramos del producto. La empresa cuenta con 3
líneas de producción; cada línea produce una forma diferente de pasta.
46
Con base en los datos mostrados en las tablas 3.1, se realizará un análisis del proceso
con códigos de programación diseñados y elaborados en R.
El objeto que tendrá guardados los datos sobre los pesos de los empaques de la línea 1
llevará el nombre de línea1, de acuerdo con los datos mostrados en la tabla 3.1.
linea1 <-[Link]([Link]())
linea1$X1
[1] 194 197 204 201 188 190 192 195 168 200 189 185 201 204 189 207
207 199 212 204 201 205 202 207
Con la función attach el manejo de datos es más practico ya que como se muestra en el
siguiente código vincula todos los datos con su respectiva columna y además la función
names(línea1) te dice el número de columnas existentes y el nombre de cada una de
ellas. Así mismo la siguiente vez que se desee utilizar los datos de la columna X1, X2,
X3, X4, X5 solo bastara con colocar su nombre y la operación que se necesita realizar.
linea1 <-[Link]([Link]())
attach(linea1)
names(linea1)
> X1*X2
47
[1] 37830 38021 41820 39195 35532 38380 39552 37245 32592 40800 38934
38110 41607 42636 39879 44091 42435 40397 41764
Los datos se tienen en 5 columnas que representan las muestras que se tomaron cada
hora, por lo cual se tiene que obtener un vector con el total de los datos llamado vlinea1.
[1] 194 197 204 201 188 190 192 195 168 200 189 185 201 204 189 207
207 199 212 204 201 205 202 207 195 193 205 195 189
[30] 202 206 191 194 204 206 206 207 209 211 213 205 203 197 188 198
189 199 213 198 200 203 195 194 193 188 196 195 202
[59] 204 195 204 199 192 210 204 204 207 187 202 194 202 191 196 205
209 190 193 207 185 194 210 204 208 211 207 205 189
[88] 211 194 202 196 210 203 197 214 206 205 191 200 205 187 201 210
195 214 208 204 208 198 195 207 208 210 210 210 211
[117] 211 212 213 213
Para saber cuántos datos tiene el vector vlinea1 se obtiene de la siguiente forma:
length(vlinea1)
## [1] 120
## [1] 200.8
La mediana muestral es el percentil de orden 0.50; esto quiere decir que tiene por debajo
al menos la mitad de los datos y por encima la otra mitad. Se puede obtener de la
siguiente manera:
median(vlinea1)
## [1] 202.0
## [1] 214.0
min(vlinea1)
## [1] 168.0
48
O bien
range(vlinea1)
## [1] 46
O bien
diff(range(vlinea1))
## [1] 46
Una medida más robusta que el rango es el rango intercuartílico. Se define como la
diferencia entre los percentiles de orden 0,75 y 0,25, es decir, el cuartil superior menos
el cuartil inferior. Se puede obtener con:
IQR(vlinea1)
## [1] 12
La función summary que es una función que proporciona una descripción básica de los
datos. En concreto, da el mínimo, el primer cuartil, la media, la mediana, el tercer cuartil
y el máximo.
summary(vlinea1)
También se puede plantear cómo conseguir un percentil de orden p (con 0 < p < 1)
arbitrario. En este caso se utilizará p = 0.27 para saber el valor bajo el cual se encuentran
el 27% de los pesos obtenidos.
quantile(vlinea1,0.27)
## 27%
## 195.0
O bien p = 0.80 lo cual significa que el 80% de los pesos están por debajo de 208 gramos
mientras que el 20% está fuera de especificación de acuerdo con el límite superior.
quantile(vlinea1,0.80) ## 80% ## 208
49
Cuando p = 0.25 al percentil se le denomina cuartil inferior. Si p = 0.75 se denomina
cuartil superior y también se pueden obtener de la siguiente forma:
quantile(vlinea1,probs = c(0.25,0.75))
## 25% 75%
## 195 207
## [1] 67.31513
sd(vlinea1)
## [1] 8.20458
Para más información sobre cómo usar los argumentos de la función se puede consultar
(Correa & Nelfi, 2002).
Para poder generar un histograma se necesita tener un vector de valores; en este caso
de utilizará el vector que tiene por nombre vlinea1 el cual tiene 120 valores que son el
peso de los paquetes de pasta. El código para generar un histograma es el que se
muestra a continuación y se muestra en la figura 3.1.
hist(vlinea1)
50
Figura 3.1 Histograma de peso de paquetes de pasta de la línea 1. Elaboración propia
Figura 3.2 Histograma de peso de paquetes de pasta de la línea 1 personalizado. Elaboración propia
51
• Planteamiento de hipótesis:
𝐻0 : µ = 200
𝐻𝑎 : µ ≠ 200
El código se debe iniciar con los datos generales como es el valor de alpha que
representa el nivel de significancia, el valor hipotético (mu0) y el valor de la media
muestral (mu) que es un estimador de la media de la población, así como el tamaño de
la muestra (n) y la desviación estándar (sdTest) de la muestra; estos valores se tienen
que guardar en un objeto de la siguiente manera:
mu <- mean(vlinea1)
n <- length(vlinea1)
𝑋̅ − µ
𝑍= 𝜎
√𝑛
También se calcula 𝑍𝛼⁄2 y −𝑍𝛼⁄2 que forman parte de los límites de la región critica o de
rechazo, por medio de la función qnorm que es una función que sirve para encontrar el
valor de Z con una probabilidad de 𝛼⁄2 que en este caso es igual a 0.025.
52
Para realizar el grafico de la distribución normal se usa la función pretty que sirve para
calcular una secuencia de números (n+1) a partir de los valores fijados, por ejemplo, en
el eje X se necesitan valores de entre -3 y 3 con espacios de 0.1 que son 50 valores en
total. Para el eje Y se busca una función de densidad en este caso dnorm con base en
los valores de x.
Por último, para generar el gráfico de la distribución normal es por medio de la función
plot con los valores de x y y, como se muestra en la figura 3.3.
Las siguientes líneas de código sirven para sombrear la región critica en donde se
rechaza la hipótesis nula, así como la región o zona de aceptación de la misma. Los
valores que componen el objeto que lleva por nombre [Link] son valores que van desde -
3 hasta el valor de zalphaiz que es igual a -1.95996.
Dentro de este objeto se utiliza la función seq que sirve para generar números
secuenciales dentro de un rango. Por ejemplo, en este caso se buscan números que
vayan desde -3 hasta zalphaiz con una secuencia de 0.001, esto es con el fin de que
cuando se generen los valores de densidad de [Link] se pueda dibujar un polígono por
medio de la función polygon cuyos vértices se dan en los valores de [Link] y [Link]. El
gráfico sombreado con la primera región de rechazo de la hipótesis nula se muestra en
la figura 3.4.
53
Figura 3.4 Gráfico con la zona de rechazo de la hipótesis nula. Elaboración propia
Figura 3.5 Gráfico con la zona de rechazo y aceptación de la hipótesis nula. Elaboración propia
Para concluir con el código se busca sombrear la segunda región critica de rechazo de
la hipótesis nula a través de la estructura de las mismas líneas de códigos anteriores a
diferencia de que los valores sobre el eje X van desde zalphader que es igual 1.95996
hasta 3.
La función text sirve para colocar texto al interior del gráfico, por medio de una ubicación
sobre el eje X y Y, es importante mencionar que el texto a colocar debe ir entre comillas.
Por último, la función abline sirve para colocar una línea al interior del grafico desde una
54
posición sobre el eje X. En la figura 3.6 se muestra el gráfico completo con el código
ejecutado en su totalidad.
Figura 3.6 Gráfico con la zona de rechazo y aceptación de la hipótesis nula. Elaboración propia
Con ayuda del siguiente código se puede ver gráficamente sí la hipótesis nula es rechaza
o no es rechazada, en la figura 3.6 se puede ver que la hipótesis nula no es rechazada,
lo cual refleja que la hipótesis 𝐻0 está ampliamente respaldada por los datos de la
muestra.
Los datos mostrados en la tabla 3.2 son los defectos de calidad encontrados en la
empresa Fideos &Pastas SA de CV cuando se realizó una inspección del producto final.
Defectos Calidad
Paquetes con producto de mas 80
Paquetes con producto de menos 59
Empaque roto 16
Cajas mal selladas 12
Cajas con faltante de producto 6
Tabla 3.2 Defectos de calidad. Elaboración propia
55
El archivo en Excel debe estar guardado con la extensión csv con los datos mostrados
en la tabla 3.2.
Para este ejercicio el objeto lleva el nombre de “defectos” y se ejecuta el siguiente código:
Los datos obtenidos con el código se muestran a continuación en la figura 3.7 para poder
construir el diagrama de Pareto mostrado en la figura 3.8.
plot(x, y, ...) para revisar los argumentos que contiene dicha función se puede
consultar (Correa & Nelfi, 2002).
Paquetes Defectos
20 8
22 9
24 11
26 10
28 13
30 14
32 13
34 14
36 16
38 16
40 18
42 18
Tabla 3.3 Número de defectos. Elaboración propia
Por medio del siguiente código se puede crear un diagrama de dispersión para validar si
existe tendencia entre el número de paquetes auditados contra el número de defectos
encontrados en la muestra. Como primer punto se carga el archivo que como ya
mencionamos tiene que estar guardado con la extensión csv en un objeto llamado
dispersión, se utiliza la función attach para utilizar los nombres de las columnas con sus
respectivos datos y asignarlos a un objeto llamado x para paquetes y y para defectos
attach(dispersion)
names(dispersion)
x <- Paquetes
y <- Defectos
57
Figura 3.9 Diagrama de dispersión. Elaboración propia
El análisis se iniciará trabajando con dos objetos que ya están cargados en R uno tiene
por nombre linea1, este objeto tiene guardados los valores de los pesos de los paquetes
muestreados en la línea 1 de forma matricial como se muestran en la tabla 3.1., y el otro
lleva por nombre vlinea1 que es un vector con el total de los datos de la línea 1.
Cabe mencionar que para iniciar este estudio de capacidad del proceso se tiene que
validar que las variables de los pesos de los paquetes de pasta siguen una distribución
normal. La función qqnorm es una función cuyo método predeterminado produce una
gráfica Q-Q normal que significa un gráfico Cuantil-Cuantil que permite observar que tan
cerca está la distribución de un conjunto de datos a alguna distribución ideal en este caso
se quiere comparar con el gráfico de probabilidad normal. Por otro lado, la función qqline
agrega una línea teórica sobre el grafico Q-Q normal que ayuda visualmente a saber si
los datos siguen una distribución normal.
Por último, la función [Link] se usa para contrastar si un conjunto de datos sigue
una distribución normal o no, por medio de una prueba de hipótesis.
58
Para determinar si los datos siguen una distribución normal se utiliza p-value, ya que sí
p-value ≤ 0.05 se rechaza la hipótesis nula y si p-value ≥ 0.05 no se rechaza la hipótesis
nula.
qqnorm(vlinea1)
[Link](vlinea1)
3.3.1 Estimación de µx y σx
Durante este análisis de estudio de la capacidad del proceso se utilizarán los valores
estimados de µx y σx debido a que no se tienen datos históricos confiables sobre la
población.
59
Para poder tener la estimación de la media se utilizará la función apply que sirve para
trabajar datos en matrices y opera sobre renglones, columnas o ambos, por ejemplo, en
las siguientes líneas de código se busca obtener el promedio, valor mínimo y máximo por
cada renglón que representan los pesos de los paquetes muestreados por hora y en cada
hora contiene 5 valores muestreados. La función apply trabaja sobre 3 argumentos de la
siguiente manera:
Donde:
X es un arreglo o matriz
Para poder realizar el cálculo de los índices de capacidad se necesita tener datos como
son el límite inferior y superior de especificación, el valor nominal (N) del proceso que es
el valor que se busca que cada paquete de pasta pese, así como también el valor
estimado de la media que es el promedio de los promedios de cada hora del muestreo el
cual esta guardado en un objeto llamado mu.
mu <- mean([Link])
N <- 200
d2 <- 2.316
Los índices de capacidad se calculan de acuerdo con las fórmulas que se explicaron en
el punto 1.5 de este trabajo y las líneas de código que los calculan se muestran a
continuación.
Cp <- (LES-LEI)/(6*rdesvest)
Cr <- (6*rdesvest)/(LES-LEI)
#Índice de Taguchi
El nivel z es la métrica que sirve para calcular la distancia entre las especificaciones y la
media del proceso. Cabe mencionar que entre mayor es z el proceso tiene menos
productos fuera de especificación. Se utiliza 𝑧𝑖 y 𝑧𝑠 para encontrar la probabilidad de
productos fuera de especificación por el lado izquierdo y el lado derecho respectivamente.
Así como también encontrar el número de defectuosos por millón de oportunidad.
zi <- 3*Cpi
zs <- 3*Cps
DPMOs <-Pzs*1000000
61
Por otro lado, el valor de zbench es el resultado cuando todos los defectos se concentran
en una cola de la distribución y como resultado se puede encontrar la probabilidad total
de encontrar defectuosos en los paquetes de pastas.
Por último, para generar un resumen de todos los índices de capacidad se utiliza la
función [Link] que sirve para almacenar tablas de datos y al momento de guardar
esa tabla de datos en un objeto llamado Resumen se genera una tabla con todos los
índices de capacidad.
Resumen<-
[Link](Cp,Cpi,Cps,Cpk,zi,Pzi,DPMOi,zs,Pzs,DPMOs,zbench,Pzbench,DPMO
,Cpm)
View(Resumen)
Se tienen que fijar los límites de especificación de los paquetes de pasta de 200 g que
son 192 g y 208 g, por lo cual a través del siguiente código se fija dentro del histograma
el límite inferior y superior de especificación, así como también el objetivo.
62
text(LES, 30, "LES", cex= NULL, pos=4, col="black")
abline(v = N , col = "red",lty=3)
text(N, 30, "Objetivo", cex= NULL, pos=2, col="black")
La figura 3.11 muestra gráficamente los límites de especificación para la línea 1; la figura
indica que una gran proporción de los paquetes se encuentran fuera de especificación.
Para iniciar con el análisis se debe verificar que se tienen cargados los datos de los pesos
de los paquetes de pasta en el objeto llamado linea1. Como segundo paso se utilizará la
63
función apply que sirve para trabajar datos en matrices y opera sobre renglones,
columnas o ambos como se mencionó en el punto 3.3.1. Se obtiene la media, la mediana,
la varianza, el valor mínimo y el máximo de cada hora y se almacena la información en
los objetos llamados [Link], mediana, varianza, mini y maxi, respectivamente; así
como también la desviación estándar y el rango.
Para continuar con el análisis se debe calcular el número de columnas y renglones que
contiene la matriz de los datos de la línea 1 y eso se puede hacer por medio de las
funciones ncol y nrow, como se muestra en el siguiente código. Cabe mencionar que el
objeto nc es el tamaño de la muestra y nr es el número de veces que se muestreo.
nc <- ncol(linea1)
nr <- nrow(linea1)
Para estimar la media y la desviación estándar cabe mencionar que los dos son
estimadores sesgados y se deben corregir por medio de una constante, esta constante
varía dependiendo del tamaño de la muestra en este caso nc, por lo cual en un objeto
llamado factores se guardara la información mostrada en la tabla 3.4 que son los valores
de las constantes que se van a utilizar para realizar la estimación y poder construir los
diagramas de control.
64
Tamaño de d2 d3 c4
1
muestra
2 1.128 0.853 0.7979
3 1.693 0.888 0.8862
4 2.059 0.88 0.9213
5 2.316 0.864 0.94
6 2.534 0.848 0.9515
7 2.704 0.833 0.9594
8 2.847 0.82 0.965
9 2.97 0.808 0.9693
10 3.078 0.797 0.9727
11 3.173 0.787 0.9754
12 3.258 0.778 0.9776
13 3.336 0.77 0.9794
14 3.407 0.763 0.981
15 3.472 0.756 0.9823
16 3.532 0.75 0.9835
17 3.588 0.744 0.9845
18 3.64 0.739 0.9854
19 3.689 0.734 0.9862
20 3.735 0.729 0.9869
21 3.778 0.724 0.9876
22 3.819 0.72 0.9882
23 3.858 0.716 0.9887
24 3.895 0.712 0.9892
25 3.931 0.708 0.9896
Tabla 3.4 Factores para la construcción de los diagramas de control. Elaboración propia
d2 <- factores[nc,"d2"]
d3 <- factores[nc,"d3"]
c4 <- factores[nc,"c4"]
65
Tomando en cuenta la figura 1.7 de selección de diagramas de control y haciendo énfasis
en los datos por variables, de acuerdo con el tamaño de la muestra que es igual a 4 se
tiene que realizar un gráfico de control de tipo X(media)-R. Para diseñar el gráfico de
control se inicia con la estimación de la media y la desviación estándar.
𝑅̅⁄ 𝑅̅⁄
𝑑2 ̿ + 3( 𝑑2
𝐿𝑖𝑚𝑖𝑡𝑒 𝑖𝑛𝑓𝑒𝑟𝑖𝑜𝑟 = 𝑋̿ − 3( ) y 𝐿𝑖𝑚𝑖𝑡𝑒 𝑠𝑢𝑝𝑒𝑟𝑖𝑜𝑟 = 𝑋 )
√𝑛 √𝑛
El siguiente código por medio del objeto llamado limitesxr se encuentran los valores
mínimos y máximos de los límites de control y de los promedios de cada hora del
muestreo, esto con el fin de fijar las escalas del eje y en el gráfico de control.
Para realizar el gráfico de control se utiliza la función plot, tomando en cuenta algunos de
los argumentos con los cuales cuenta dicha función.
Para finalizar el código es importante colocar las líneas punteadas para identificar los
límites de control, así como los nombres de cada línea como se muestra en la figura 3.12.
66
text(nr - 1, LICxs, paste('LIC =',round(LICxs,2)), col = "green", pos =
3)
abline(h = LSCxs, col = "blue", lty = 3)
text(nr - 1, LSCxs, paste('LSC =',round(LSCxs,2)), col = "blue", pos =
1)
abline(h = mean([Link]), col = "red", lty = 3)
text(nr - 1, muxr, paste('mu =',round(muxr,2)), col = "red", pos = 3)
67
La información de los muestreos se muestra a continuación en la tabla 3.5.
68
n<-[Link](atributos1[,2])
[Link]<-[Link](atributos1[,3])
[Link]<-[Link](atributos1[,4])
Defectuosos<-[Link](atributos1[,5])
[Link] <- [Link]+[Link]
Para iniciar con la creación del gráfico de control p se debe calcular la proporción de
defectuosos y se guarda en un objeto llamado p; así como también la media y desviación
estándar.
p <- Defectuosos/n
mup <- mean(p)
sigmap <- sqrt(p*(1-p)/n)
Siguiendo la misma estructura del código para la creación del diagrama de control X-R
se inicia con el cálculo de los límites de control y el cálculo de los valores máximos y
mínimos de los límites de control y de la proporción disconforme.
Por medio de la función plot se crea el grafico de control tomando en cuenta la escala del
eje y para que el gráfico tenga una mejor visibilidad sobre los datos que muestra.
Por último, se agregan al gráfico los límites de control, así como el nombre de cada uno
de ellos, se utiliza la función point debido a que los límites de control no son un valor fijo
sino variable por los tamaños de muestra y el número de defectuosos encontrados en
cada una de ellas.
69
points(LICp, type = "p", pch = 20, bg = par("bg"), col = "green", cex =
1)
text(nr - 1, min(LICp), paste("LIC"),col = "green")
points(LSCp, type = "p", pch = 20, bg = par("bg"), col = "blue", cex =
1)
text(nr - 1, max(LSCp), paste("LIC"),col = "blue")
abline(h = mean(p), col = "red", lty = 3)
text(nr - 1, mup, paste('mu =',round(mup,2)), col = "red", pos = 3)
Como parte del análisis es importante mencionar que los límites de control variables
como se muestra en la figura 3.13 pueden dificultar la aplicación de los patrones
especiales para la interpretación. Para evitar esa situación se puede usar un diagrama
estandarizado en el cual, en lugar de graficar la proporción muestral, se grafica la
proporción estandarizada. A continuación, el código para este diagrama de control.
p <- Defectuosos/n
mup <- mean(p)
z <- ((p-mup)*sqrt(n))/(sqrt((1-mup)*mup))
LICz <- -3
70
LSCz <- +3
limLCz <- c(-3,3)
limz <- c(min(z),max(z))
limitesz <- c(limLCz,limz)
plot(z, ylim = c(min(limitesz),max(limitesz)), type = "b",
col = ifelse((z >= LSCz | z <= LICz), "red","black"),
pch = ifelse((z >= LSCz | z <= LICz), 17, 19), cex = 1,
main = "Carta de control estandarizada para la fraccion
disconforme",
xlab = "Subgrupo o muestra", ylab = "Zi")
abline(h = LICz, col = "green", lty = 3)
text(nr - 1, LICz, paste('LIC =',round(LICz,2)), col = "green", pos =
3)
abline(h = LSCz, col = "blue", lty = 3)
text(nr - 1, LSCz, paste('LSC =',round(LSCz,2)), col = "blue", pos = 1)
abline(h = 0, col = "red", lty = 3)
71
Teniendo en cuenta que se va a trabajar con atributos, defectos no defectivos y que el
tamaño de muestra no es constante, siguiendo el diagrama de flujo de la figura 1.7 se
tiene que realizar un diagrama de control u (número de defectos por unidad). Para realizar
el diagrama de control de defectos por unidad primero se inicia estimando la media y
desviación estándar en donde n es el tamaño del subgrupo muestreado.
u <-[Link]/n
Como siguiente paso es calcular los límites de control, así como mínimos y máximo para
definir la escala del eje y en el respectivo gráfico.
Por último, se crea el gráfico de control con sus límites de control como se muestra en
la figura 3.15.
72
Figura 3.15 diagrama de control para disconformidades por unidad (u). Elaboración propia
En este caso los tamaños de los subgrupos no son muy distantes entre sí, pero en caso
de encontrar una variabilidad más grande, se puede construir un diagrama
estandarizado. La variable z sigue aproximadamente una distribución normal estándar
(µ=0, σ=1). Por lo tanto, la línea central en esta carta es igual a cero y los límites de
control inferior y superior son -3 y 3, respectivamente.
u <-[Link]/n
z <- ((u-muu)*sqrt(n))/(sqrt((1-muu)*muu))
LICz <- -3
LSCz <- +3
Figura 3.16 Diagrama de control estandarizado para las disconformidades por unidad. Elaboración
propia
El diagrama de control CUSUM sirve para monitorear la media del proceso no se basa
en las observaciones individuales, o promedios de una muestra de ellas, sino en la
acumulación de las desviaciones de cada observación respecto a media global.
El siguiente código sirve para obtener el diagrama de CUSUM tabular que funciona
acumulando las desviaciones de µ0 que están arriba del objetivo con un estadístico 𝐶 + y
acumulando las desviaciones de µ0 que están abajo del objetivo con otro estadístico 𝐶 −
a estos estadísticos se les llama las cusums unilaterales superior e inferior,
respectivamente. Se calculan de la siguiente forma:
74
De acuerdo con (Montgomery, 2016) la cusum tabular se diseña eligiendo valores para
el valor de referencia K y para el intervalo de decisión H, se han realizado diversos
estudios analíticos del desempeño de la ARL (longitud promedio de corrida) para
seleccionar mejor los valores de H y K.
Para este caso utilizaremos ℎ = 4.77 , debido a que se obtendrá una cusum con 𝐴𝑅𝐿0 =
370 muestras el cual conicide con los limites 3𝜎 usuales con una probabilidad de
0.0027 de que este fuera de control.
Por otro lado, en este caso se esta trabajando con subgrupos racionales simplemente
de sustituye 𝑥𝑖 con 𝑥̅𝑖 (promedio muestral o de los subgrupos) en las fórmulas
anteriores, y σ se sustituye con 𝜎𝑋̅ = 𝜎⁄ .
√𝑛
En el siguiente código se inicia teniendo el valor objetivo µ𝟎 así como también el valor
𝑅̅⁄
𝑑2
de σ que para este caso vamos a estimar 𝜎𝑥̅ = .
√𝑛
K <- sigmax*0.5
Cs <- c()
Cs <- max(0,[Link][1]-(N+K)+Cs[1])
for (i in 1:nr+1) {
Cs [i] <- max(0,[Link][i-1]-(N+K)+Cs [i-1])
}
75
Ci <- c()
Ci <- max(0,(N-K)-[Link][1]+Ci[1])
for (i in 1:nr+1) {
Ci[i] <- min(0,[Link][i-1]-(N-K)+Ci[i-1])
}
Como en los diagramas de control anteriores se calculan los límites de control inferior y
superior que en este caso están dados por el intervalo de decisión, 𝐿𝐼𝐶𝑐 = −𝐻 y 𝐿𝑆𝐶𝑐 =
𝐻.
Para fijar las escalas del eje en el diagrama de control se calculan los valores mínimos y
máximos de los límites de control y de los estadísticos 𝐶 + y 𝐶 − , y se guardan en un objeto
llama limitesc.
Para realizar el gráfico de control se utiliza la función plot, tomando en cuenta algunos de
los argumentos con los cuales cuenta dicha función. Primero se grafica el estadístico 𝐶 + .
76
Para concluir con el grafico que se muestra en la figura 3.17 se agregan las líneas de los
límites de control con su nombre y el valor de cada uno de ellos.
Por otro lado, el diagrama de control EWMA se crea a través del promedio móvil
ponderado exponencialmente y también sirve para monitorear la media del proceso.
El código se iniciará guardando el valor de λ equivalente a 0.2 y muy similar a lo que hizo
en el diagrama de cusum se crea un objeto con el nombre de Zt y sigmaZt para guardar
los valores que se vayan generando a través de la función for. La fórmula es la siguiente:
𝑍𝑡 = 𝜆𝑋𝑡 + (1 − 𝜆)𝑍𝑡−1
donde Z0 = ̿X que coincide con el valor nominal si el proceso está centrado, y 0 < λ ≤ 1.
Por ejemplo, hasta 𝑍3 , las tres primeras sumas estarían dadas por:
𝑍1 = 𝜆𝑥
̅̅̅1 + (1 − 𝜆)𝑍0
𝑍2 = 𝜆𝑥
̅̅̅2 + (1 − 𝜆)𝑍1
𝑍3 = 𝜆𝑥
̅̅̅3 + (1 − 𝜆)𝑍2
77
Por lo tanto, el código se muestra de la siguiente manera:
𝜎̂ 𝜆
𝐿𝐶𝑆 = 𝑍0 + 3 √[ ] [1 − (1 − 𝜆)2𝑡 ]
√𝑛 2 − 𝜆
3𝜎̂ 𝜆
𝐿𝐶𝐼 = 𝑍0 − √[ ] [1 − (1 − 𝜆)2𝑡 ]
√𝑛 (2 − 𝜆)
Así como también se calculan los valores mínimos y máximos de los límites de control y
el estadístico EWMA, que grafica al tiempo t en el diagrama, para fijar las escalas del eje
y.
Por medio de la función plot se realiza el grafico que se muestra en la figura 3.18.
78
Los límites de control como se muestra en la figura 3.18 tienen una variación al inicio
hasta que se estabilizan, por lo cual por medio de la función points se puede dar ese
efecto en el gráfico. Por último, se colocan los nombres de los límites de control y sus
valores.
79
4 Análisis de control estadístico e
interpretación de códigos generados
De acuerdo con los datos proporcionados de la línea 1,2 y 3 la estadística descriptiva se
muestra en la tabla 4.1 como resumen de las 3 líneas.
De acuerdo con el resumen de la tabla 4.1 sobre los pesos de los paquetes de pasta se
observa que, de las 3 líneas, la línea 3 presenta una mayor variabilidad entre los datos,
y la línea 1 tiene una tendencia central muy aproximada al valor que busca la empresa
que son 200 gramos por paquete.
a) b)
c)
Figura 4.1 Histograma generado con Rstudio con límites de especificación y con 11 clases. a) línea 1, b) línea 2, c) línea 3. Elaboración
propia
80
4.1 Prueba de hipótesis
Analizado la prueba de hipótesis para validar la información que se tiene sobre el proceso
de las 3 líneas. A la empresa no le conviene que los paquetes vayan con menos de 200
gr porque puede perder mercado, por otro lado, tampoco le conviene que lleven más de
200 gr por la pérdida económica que representa.
• Planteamiento de hipótesis:
𝐻0 : µ = 200
𝐻𝑎 : µ ≠ 200
Los valores del estadístico de prueba |Z0 | para las 3 líneas se muestran en la tabla 4.2
así como también los valores Zα⁄2 , y tomando en cuenta que se rechaza 𝐻0 si |𝑍0 | >
𝑍𝛼⁄ , donde 𝑍𝛼⁄ es el punto porcentual 𝛼⁄2 superior de la distribución normal estándar.
2 2
a) b)
Figura 4.2 Distribución normal de prueba de hipótesis. a) línea 2, b) línea 3. Elaboración propia
81
4.2 Índices de capacidad
El análisis de capacidad de un proceso se realiza principalmente por dos objetivos, uno
es verificar si el proceso es capaz de cumplir con las especificaciones del producto y el
otro saber el por qué el proceso no cumple con las especificaciones del producto,
entonces se habla que sirve como predicción y como análisis.
Tomando en cuenta el índice 𝐶𝑝𝑘 = min (𝐶𝑝𝑖 , 𝐶𝑝𝑠 ), concluimos que si 𝐶𝑝 = 𝐶𝑝𝑘 el proceso
está centrado en el punto medio de las especificaciones y cuando 𝐶𝑝𝑘 < 𝐶𝑝 el proceso
esta descentrado.
En la tabla 4.4 se observa la relación entre los índices 𝐶𝑝 y 𝐶𝑝𝑘 y se puede concluir que
𝐶𝑝𝑘 es el peor índice lateral y mientras el valor es mayor el proceso cumple mejor con las
especificaciones.
82
Por lo tanto, las tres líneas se encuentran descentradas y las tres líneas no son capaces
y requieren los procesos modificaciones serias.
Por otro lado, el índice de Taguchi 𝐶𝑝𝑚 menciona que cumplir con las especificaciones
no es sinónimo de calidad, por lo que menciona que las mejoras del proceso deben ir
enfocadas en reducir la variabilidad del valor nominal en este caso 200 gramos y no solo
de las especificaciones. Los valores de 𝐶𝑝𝑚 son bajos debido a que la variabilidad es
alta.
Cabe mencionar que las 3 líneas no están centradas, por lo que es correcto calcular el
porcentaje de paquetes defectuosos por medio de los valores de 𝑧𝑖 𝑦 𝑧𝑠 que es la métrica
que corresponde a la distancia entre las especificaciones y la media del proceso estos
valores son diferentes entre sí ya que sirven para determinar la probabilidad de encontrar
paquetes de pasta fuera de especificación por la izquierda o por la derecha y esa
probabilidad sirve para poder cuantificar los DPMO (defectos por millón de oportunidad).
En la tabla 4.5 se puede observar que en la línea 1 de lado derecho se pueden encontrar
más paquetes defectuosos, mientras que en la línea 2 y 3 se pueden encontrar más por
la izquierda.
83
Como se muestra en la figura 4.3 se tienen los diagramas de control de promedio y rango
para las 24 muestras de la línea 2. Los parámetros del proceso pueden estimar a partir
de la carta de control como
𝜇̂ = 𝑥̿ = 199.37
𝑅̅ 16.92
𝜎̂ = = = 7.274
𝑑2 2.326
a) b)
Figura 4.3 Diagramas de control a) Xpr y b) R para los datos de la línea 2. Elaboración propia
Con base en este análisis se ilustra en la figura 4.3a que el proceso hablando de
tendencia central tiene un punto fuera de los límites que podría ser una causa especial
del proceso.
Se espera que las medias del peso de los paquetes de pasta varíen de 189.61 a 209.12,
estos límites son utilizados para detectar cambios en la media del proceso y evaluar su
estabilidad.
Como se muestra en la figura 4.4 los diagramas de control para tendencia central y
amplitud o magnitud de la variación y tomando en cuenta el 𝐶𝑝 = 0.2756 < 1 también es
considerado establemente incapaz, por lo que también se requiere de un análisis de
mejora.
84
a) b)
Figura 4.4 Diagramas de control a) Xpr y b) R para los datos de la línea 3. Elaboración propia
En este diagrama el valor de 𝐶𝑖+ y 𝐶𝑖− si el proceso está en control tendrían que tender a
valores nulos, en este diagrama a comparación del diagrama de Xpr y Rango se puede
ver mejor que el proceso no se encuentra bajo control por lo que requiere que se ajuste
tal vez la máquina que hace el llenado de los paquetes de pasta.
a) b)
Figura 4.5 Diagramas de control a) CUSUM y b) EWMA para los datos de la línea 2. Elaboración propia
85
Para la línea 3 es un caso similar, debido a que en la gráfica cusum los valores de 𝐶𝑖−
se encuentran fuera del valor de decisión.
a) b)
Figura 4.6 Diagramas de control a) CUSUM y b) EWMA para los datos de la línea 3. Elaboración propia
De acuerdo con lo anterior, en la gráfica 4.7a se tiene un punto fuera del límite superior
de control, por lo cual se concluye que el proceso no fue estable, y se puede decir que el
proceso funciono en presencia de una causa especial que por lo general no está presente
en el proceso, y que causo que la proporción de disconformes fuera anormalmente
grande.
Por lo tanto, a pesar de que el proceso tiene solo un punto fuera del límite superior de
control, su desempeño se encuentra lejos de ser satisfactorio ya que el promedio de
defectos es relativamente alto 3%. Por lo que se propone revisar el proceso para
encontrar las causas comunes que están ocasionando el problema.
86
En la figura 4.7b se tiene el diagrama de control p normalizado, que en lugar de graficar
la proporción muestral 𝑝𝑖 , se grafica la proporción estandarizada.
a) b)
Figura 4.7 Diagrama de control a) fracción disconforme (p) b) normalizada para los datos de la línea 2. Elaboración propia
En la figura 4.8a se muestra la línea 3 no tiene ningún punto fuera de los límites de control,
pero por cada 60 paquetes de pasta se espera que la proporción de paquetes con
problemas de peso varíe de 0.0 a 0.12, con un promedio de 0.04. En términos
porcentuales se espera que el porcentaje de paquetes con problemas de peso varíe de
0.0 y 12% con un promedio de 4%, por lo cual requiere de una implementación de mejora
para disminuir el problema. En la figura 4.8b se tienen el diagrama p normalizado.
a) b)
Figura 4.8 Diagrama de control a) fracción disconforme (p) b) normalizada para los datos de la línea 3. Elaboración propia
87
En la figura 4.9a se pueden ver dos puntos fuera de los límites de control superior lo que
demuestra que el proceso no trabaja de manera estable, y que por cada paquete de pasta
se encuentran de 0.0 a 0.23 defectos con un promedio de 0.11.
a) b)
Figura 4.9 Diagrama de control a) disconformidades por unidad (u) b) normalizada para los datos de la línea 2. Elaboración
propia
La figura 4.9b muestra un diagrama de control estandarizado en caso de que los tamaños
de subgrupo sean muy distintos entre sí, en la cual, en lugar de graficar 𝑢𝑖 se grafica la
siguiente variable estandarizada.
Para el análisis de la línea 3, en la figura 4.10 no se tiene ningún punto fuera de los límites
de control, pero por cada paquete de pasta se encuentran de 0.0 a 0.29 defectos con un
promedio de 0.14.
a) b)
Figura 4.10 Diagrama de control a) disconformidades por unidad (u) b) normalizada para los datos de la línea 3. Elaboración
propia
Por último, todo el análisis que se hizo con Rstudio fue con base en los datos de la línea
1; sin embargo, los resultados obtenidos también se pueden conseguir con ayuda de
excel y minitab y por eso se ha elaborado un análisis de la línea 2 con minitab que se
encuentra en la sección de anexos en el punto 7.1 y un análisis de la línea 3 con ayuda
de excel en el punto 7.2 en donde se ven reflejados los resultados del análisis pero en
programas diferentes.
88
5 Conclusiones
Durante la elaboración de este trabajo fue posible desarrollar los códigos en Rstudio sin
tener conocimiento del software y así poder mostrar su aplicabilidad para estudiantes de
la carrera de Ingeniera Industrial en el área de la estadística, específicamente en el
análisis estadístico de control de procesos.
Al iniciar este trabajo el conocimiento sobre el software era casi nulo, así como también
su funcionalidad y la lógica que seguía el lenguaje; sin embargo, el lenguaje resulto ser
intuitivo y, para ser lenguaje de programación resulto ser amigable, por lo que el
aprendizaje de su estructura fue rápido. Uno de los puntos importante fue que no es
necesario tener un conocimiento tan amplio en programación ya que el software te lleva
de la mano. La existencia de una gran cantidad de blogs en internet ayuda a resolver
dudas que se te van presentando durante la elaboración del código. La gran cantidad de
materiales disponibles es debido a que es un software libre.
Cabe mencionar que al realizar personalmente el código ayudo a comprender mejor los
temas relacionados con el control estadístico de proceso, que sirve para mejor la calidad
en los productos o servicios, porque a pesar de que se trabaja con fórmulas
estandarizadas al obtener el resultado de los datos, se tiene conocimiento de cómo se
obtuvo y el por qué se obtiene ese resultado, en comparación con otros paquetes, por
ejemplo minitab por mencionar alguno, es excelente en el análisis de datos estadísticos
de calidad; sin embargo, solo plasman un resultado a diferencia de Rstudio que ese
resultado se obtiene de un código elaborado a la medida del análisis que se busca
obtener.
Una de las ventajas que tiene Rstudio en comparación con excel es que es menos
tardado hacer un análisis similar, en Rstudio es muy útil y cómodo usarlo para trabajos
repetitivos y es poco probable que te equivoques por error humano. Si tu código y/o
procedimiento de cálculo está bien para un dato o conjunto de datos, está bien para
todos. En excel se tendría que repetir los cálculos para cada proyecto o grupo de datos
esa es una de las ventajas que tiene este software.
Otra de las ventajas es que la calidad de gráficos en Rstudio es muy amplio y se puede
editar de acuerdo con las necesidades de cada usuario, a diferencia de minitab que los
89
gráficos tienen un formato predeterminado. En excel los gráficos son también de acuerdo
con la necesidad del usuario, pero no hay tantas opciones de editar la figura, por ejemplo,
graficar las distribuciones de probabilidad es difícil y graficar la distribución de
probabilidad encima de un histograma es aún más complejo que con ayuda de Rstudio
este tipo de gráficos es rápido de hacer.
Por lo tanto, R no es la única opción para utilizar y tal vez no el más conveniente, todo
depende del uso que quieras darles a tus datos, así como el tamaño de estos, existen
muchos más softwares, pero el motivo de este trabajo es dar a conocer a los estudiantes
de la carrera de Ingeniería Industrial como herramienta potente de análisis de datos, pero
si sería muy conveniente que los egresados de la FI lo conozcan y que no le tengan
miedo porque es programación, como al inicio de este trabajo se pensaba; sin embargo,
queda demostrado que el procesos durante la elaboración del código no fue complicado
y es recomendable.
Por último, vale la pena mencionar que puedes mezclar paquetes ya elaborados por
algunos otros estudiantes o profesores alrededor del mundo, por ejemplo, sobre finanzas,
pronósticos, six sigma y al mismo tiempo ocupar paquetes para perfeccionar tus gráficos
que son importantes para que la visualización de tu análisis sea más amigable durante
alguna presentación. Realizando una pequeña comparación con minitab el cual es un
software potente en estadística, pero solo se aplica para estadística y no para temas
laterales a diferencia de R que se puede usar para muchas otras aplicaciones de análisis
de datos y big data.
90
6 Bibliografía
Allen, W. (2001). Estadística aplicada a los negocios y la economia. 3a Edición. México: McGraw
Hill.
Correa, J. C., & Nelfi, G. (2002). Graficos estadisticos con R. Obtenido de [Link]
[Link]/doc/contrib/[Link]
Gutiérrez Pulido, H., & De la Vera Salazar, R. (2009). Control estadistico de la calidad y seis
sigma. México D.F.: McGraw-Hill.
Juran M., J. (1990). Juran y el liderazgo para la calidad. Ediciones Diaz de Santos, S.A.
Ross, I. (s.f.). R : Past and Future History. Recuperado el 11 de Junio de 2016, de The University
of Auckland: [Link]
The R Project. (s.f.). ¿What is R? Recuperado el 11 de Junio de 2016, de The R Project for
Statistical Computing: [Link]
Vance, A. (7 de Enero de 2009). Data Analysts Captivated by R’s Power. New York Times, pág. B6
.
Verzani, J. (2011). Getting started with RStudio. United State of America: O'Reilly Media.
91
7 Anexos
7.1 Minitab
Resultados para la Línea 2.
92
Figura 7.5 Diagrama de control Xbarra-R. Elaboración propia
93
Figura 7.8 Diagrama de control disconformidades por unidad (u). Elaboración propia
94
7.2 Excel
Resultados para la Línea 3
0.25
0.20
Frecuencia 0.15
0.10
0.05
0.00
167.50 172.50 177.50 182.50 187.50 192.50 197.50 202.50 207.50 212.50
Peso (gramos)
Media 197.55
Mediana 197
Máximo 215
Mínimo 175
Q1 190
Q3 205
IQR 15
Desviación 8.988
estándar
Varianza 80.11
Tabla 7.9 Estadísticos descriptivos. Elaboración propia
215 50 42.21
209.09
210 40
205
200 30
Media
197.55
Rango
195 20 19.92
190 186.01 10
185 0.00
180 0
1 3 5 7 9 11 13 15 17 19 21 23 1 3 5 7 9 11 13 15 17 19 21 23
Subgrupo o muestra Subgrupo o muestra
LIC LSC Xprom LC LIC LSC Rango LC
95
20 14.65 202 201.40
Suma acumulada 200
0
198
-20
zt
-14.65 196 197.55
-40 194
-60 192 193.70
1 3 5 7 9 11 13 15 17 19 21 23 1 3 5 7 9 11 13 15 17 19 21 23
Subgrupo o muestra Subgrupo o muestra
LSC LIC C+ C- LIC LSC mu mu
0.15 4.000
0.118
Fraccion disconforme
3
2.000
0.10
Figura 7.9 Diagrama de control0.000
CUSUM y EWMA
Zi
0.05 0.042 -2.000
0.000 -3
0.00 -4.000
1 3 5 7 9 11 13 15 17 19 21 23 1 3 5 7 9 11 13 15 17 19 21 23
Subgrupo o muestra Subgrupa o muestra
P LIC LSC LC P LIC LSC
Figura 7.10 Diagrama de control a) Fracción disconforme (p) b) Normalizada. Elaboración propia
Disconformidades por
0.40 4
0.30
3
0.29 2
0.20
unidad
0
Zi
0.14
0.10
-2
0.00 0.0 -3
-0.10 -4
0 5 10 15 20 25 0 5 10 15 20 25
Subgrupo o muestra Subgrupo o muestra
LIC LSC u LC LIC LSC u
96
LIE = 192
LSE = 208
LSE - LIE = 16
N= 200
Rpr/d2 spr/c4 √(s2pr)
8.600 8.622 8.461
97