Análisis de Datos para el
Control de Procesos
Introducción a la Recolección y
Descripción de Datos
Tomás Minauro La Torre
Sesión 1
tminauro@[Link]
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2021.
Análisis de Datos para el Control de Procesos
2
Estadística
Cuando se habla de ESTADISTICA, generalmente
nos referimos a números tales como, promedios,
medianas, porcentajes, máximos, mínimos, entre
otros, que nos ayudan a entender una gran
variedad de situaciones económicas y de negocios.
También se refiere al ARTE Y CIENCIA de
recolectar, analizar, presentar e interpretar datos.
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2021.
Análisis de Datos para el Control de Procesos
3
¿Qué es Estadística?
Es un conjunto de procedimientos destinados a servir
en el proceso de decisión en casos con presencia de
incertidumbre.
Esta definición puntualiza dos aspectos que el gerente
enfrenta continuamente: toma de decisiones e
incertidumbre. En lo que se refiere al tratamiento de la
incertidumbre, la teoría de probabilidades nos da la
oportunidad de una cuantificación del riesgo lo que
permite ganar en eficiencia en la toma de decisiones.
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2021.
Análisis de Datos para el Control de Procesos
4
Datos
Los datos son los hechos y los números que se reúnen,
analizan y resumen para su presentación e
interpretación.
Todos los datos recopilados en un estudio en particular se
conocen como Base de Datos para el estudio.
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2021.
Análisis de Datos para el Control de Procesos
5
Elementos, Variables, Observaciones
Los elementos son las entidades de las cuales recogemos los
datos.
Una variable es una característica de interés de cada
elemento.
Al conjunto de medidas recogidas de un elemento en
particular se le llama observación.
El número total de datos es igual al número de elementos
multiplicado por el de variables.
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2021.
Análisis de Datos para el Control de Procesos
6
Datos, Elementos, Variables y
Observaciones
Elementos
Variables
Datos
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2021.
Análisis de Datos para el Control de Procesos
7
Escalas de Medición
Las escalas de medición son:
Nominal De intervalo
Ordinal De razón
La escala determina la cantidad de información que
debe contener el dato.
La escala indica además qué tipos de resúmenes de
datos y de análisis estadísticos son los más apropiados.
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2021.
Análisis de Datos para el Control de Procesos
8
Escalas de Medición
Nominal
Los Datos son etiquetas o nombres usados para
Identificar un atributo de un elemento.
Se usan etiquetas no numéricas o códigos numéricos.
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2021.
Análisis de Datos para el Control de Procesos
9
Escalas de Medición
Ordinal
Los datos tienen las propiedades de una medición
nominal y adicionalmente el orden o la posición
relativa de cada categoría tiene significado.
Se pueden usar una etiqueta no numérica o un código
numérico.
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2021.
Análisis de Datos para el Control de Procesos
10
Escalas de Medición
De Intervalo
Los datos tienen las propiedades de los ordinales y las
distancias que hay entre las observaciones se miden
en términos de una unidad de medida fija.
Datos de Intervalo son siempre numéricos.
Esta escala tiene el cero relativo que indica que para
esta variable el punto cero depende de quien evalúa.
En el cero, no siempre no hay nada.
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2021.
Análisis de Datos para el Control de Procesos
11
Escalas de Medición
De Razón
Los datos tienen todas las propiedades de los de
intervalo y en este caso el cociente de dos valores
tiene un significado.
Variables como son distancia, altura, peso, y tiempo
usan la escala de razón.
Esta escala tiene el cero absoluto que indica que
para esta variable no existe nada en el punto cero.
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2021.
Análisis de Datos para el Control de Procesos
12
Cada escala provee diferente información
Nominal
Tercero Segundo Ganador
Ordinal
Tercero Segundo Ganador
Intervalo
20 segundos 1 segundo
Razón 1 minuto 59 2/5 segundos para 11/4 millas
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2021.
Análisis de Datos para el Control de Procesos
13
Estadística Descriptiva
Datos resumidos y presentados
convenientemente. Dichos resúmenes
pueden ser:
tabulares
gráficos o
numéricos
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2021.
Análisis de Datos para el Control de Procesos
14
Ejemplo: Hudson Autos
Al gerente de Hudson Autos le gustaría tener una mejor
comprensión de los costos de los repuestos utilizados en
las reparaciones realizadas en su taller.
Examina 50 facturas de clientes atendidos en los últimos meses.
Anota el costo de las piezas, redondeado al dólar más cercano.
Además por teléfono se comunica con ellos y se les pide que
califiquen la calidad del servicio técnico (1=excelente, 2=muy
bueno, 3=bueno, 4=regular y 5=malo), que nos indiquen el servicio
solicitado (1=mantenimiento, 2=diagnóstico, 3=otro) y una
evaluación general de su satisfacción con la atención recibida del
Taller en una escala de 7 puntos. Los datos se muestran en la hoja
de Excel adjunta
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2021.
Análisis de Datos para el Control de Procesos
15
Distribución de frecuencias
Una distribución de frecuencias es una tabla que
resume los datos mostrando la frecuencia o número de
elementos que hay dentro de cada una de sus clases,
que deben ser mutuamente excluyentes y colectiva-
mente exhaustivas.
El objetivo es proveer información acerca del conjunto
de datos que no podría obtenerse rápidamente por
simple observación de los datos originales.
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2021.
Análisis de Datos para el Control de Procesos
16
Distribución de frecuencias relativas
La frecuencia relativa de una clase es la fracción o
proporción del total de datos que pertenecen a una
determinada clase.
Una distribución de frecuencias relativas es una tabla
que nos resume un conjunto de datos mostrando la
frecuencia relativa para cada clase.
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2021.
Análisis de Datos para el Control de Procesos
17
Gráfico de Barras
Un gráfico de barras es una herramienta gráfica para
trabajar con datos cualitativos.
En un eje (normalmente el horizontal), colocamos las
etiquetas con los nombres de las categorías.
En el otro eje (normalmente el vertical), se puede usar la
frecuencia, la frecuencia relativa.
Usamos una barra de ancho fijo que dibujamos arriba
de cada etiqueta, con una altura de acuerdo con su
correspondiente frecuencia.
Las barras están separadas para enfatizar que cada
clase es una categoría diferente.
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2021.
Análisis de Datos para el Control de Procesos
18
Gráfico de Pie
El gráfico de pie es una herramienta gráfica usada
generalmente para presentar distribuciones de frecuencia
relativa de datos cualitativos.
Primero se traza un círculo; luego usando
las frecuencias relativas se subdivide
en sectores que corresponden a la
frecuencia relativa de cada clase.
Dado que hay 360° en un circulo, una clase con una
frecuencia relativa de .25 consumirá .25(360) = 90° de ese
círculo.
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2021.
Análisis de Datos para el Control de Procesos
19
Distribución de Frecuencias
Para Datos Numéricos
Guías para seleccionar el número de clases
Use entre 5 y 20 clases.
Conjuntos de datos con un número grande de
elementos, generalmente requieren un número
grande de clases.
Conjuntos de datos pequeños usualmente
requieren pocas clases
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2021.
Análisis de Datos para el Control de Procesos
20
Distribución de Frecuencias
Para Datos Numéricos
Guía para seleccionar el Ancho de Clase
Use clases de igual ancho
Ancho aproximado de clase =
Dato más grande - Dato más pequeño
Número de Clases
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2021.
Análisis de Datos para el Control de Procesos
21
Histograma
El histograma es una manera muy común de presentar
gráficamente datos cuantitativos.
La variable de interés se coloca en el eje horizontal.
Se dibuja un rectángulo arriba de cada intervalo de clase
con una altura correspondiente a su frecuencia,
frecuencia relativa, o frecuencia porcentual.
A diferencia del gráfico de barras, un histograma
no tiene separaciones entre rectángulos de clases
adyacentes
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2021.
Análisis de Datos para el Control de Procesos
22
Distribución Acumulativa
Distribución Acumulada de Frecuencias muestra el
número de observaciones con valores iguales o
menores que el límite superior de cada clase.
Distribución Acumulada de Frecuencias Relativas
muestra la proporción de ítems con valores menores o
iguales al el límite superior de cada clase.
Distribución Acumulada de Frecuencias Porcentuales
muestra el porcentaje de ítems con valores menores o
iguales al el límite superior de cada clase.
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2021.
Análisis de Datos para el Control de Procesos
23
Análisis Exploratorio de Datos
El Análisis Exploratorio de Datos es un conjunto de
técnicas que usan aritmética simple y gráficos fáciles
de dibujar para resumir datos rápidamente.
Una de estas técnicas es el diagrama de hoja y tallo.
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2021.
Análisis de Datos para el Control de Procesos
24
Diagrama de Hoja y Tallo
Un Diagrama de Hoja y Tallo nos muestra ambos el
orden y la forma de la distribución de los datos.
Es muy parecido a un histograma, con la ventaja de que
este diagrama conserva los valores originales.
El primer dígito de cada dato se coloca a la izquierda de
una línea vertical.
A la derecha de la línea, registramos el último dígito de
cada dato en orden.
Cada línea en el diagrama se conoce como tallo.
Cada dígito en el tallo es una hoja.
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2021.
Análisis de Datos para el Control de Procesos
25
Ejemplo: Hudson Autos
Muestra de 50 datos:
91 78 93 57 75 52 99 80 97 62
71 69 72 89 66 75 79 75 72 76
104 74 62 68 97 105 77 65 80 109
85 97 88 68 83 68 71 69 67 74
62 82 98 101 79 105 79 69 62 73
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2021.
Análisis de Datos para el Control de Procesos
26
Ejemplo: Hudson Autos
5 2 7
6 2 2 2 2 5 6 7 8 8 8 9 9 9
7 1 1 2 2 3 4 4 5 5 5 6 7 8 9 9 9
8 0 0 2 3 5 8 9
9 1 3 7 7 7 8 9
10 1 4 5 5 9
tallo hoja
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2021.
Análisis de Datos para el Control de Procesos
27
Tablas de Contingencia y
Diagramas de Dispersión
Hasta el momento hemos visto métodos que resumen
datos pero una variable a la vez.
Los gerentes necesitan métodos que les permitan
graficar y tabular datos de manera que se entiendan las
relaciones entre dos variables.
Tablas de Contingencia y Diagramas de Dispersión son
dos métodos que permiten resumir los datos para dos
(o más) variables simultáneamente.
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2021.
Análisis de Datos para el Control de Procesos
28
Tablas de Contingencia
Tabla de contingencia es una forma de resumir en una
tabla datos de dos variables simultáneamente.
Se puede usar si:
ambas variables son cualitativas, o
Si alguna es cuantitativa, para hacer la tabla debe
ser transformada en otra cualitativa.
Las filas y las columnas definen las clases para cada una
de las dos variables.
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2021.
Análisis de Datos para el Control de Procesos
29
Diagramas de Dispersión y
Líneas de Tendencia
Un diagrama de dispersión es una representación
gráfica de la relación entre dos variables cuantitativas.
Una de las variables se muestra en el eje vertical y la
otra en el horizontal.
El patrón general que muestran los puntos sugieren la
relación entre las variables.
Una línea de tendencia es una aproximación de la
relación.
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2021.
Análisis de Datos para el Control de Procesos
30
Medidas de Ubicación
Media Si la medida es calculada a
Mediana partir de los datos de una
muestra se les llama
Moda estadístico muestral
Percentil
Cuartil Si la medida es calculada a partir de
los datos de una población se les
llama parámetro poblacional
Un estadístico muestral es un
estimador puntual de su correspondiente
parámetro poblacional
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2021.
Análisis de Datos para el Control de Procesos
31
Promedio
1. Medida de Tendencia Central
2. La medida más común
3. Actúa como un “Punto de Balance”.
4. Se afecta por valores extremos.
5. Fórmula
n N
Xi Xi
X
i 1 m
i 1
n N
Muestra Población
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2021.
Análisis de Datos para el Control de Procesos
32
Mediana
1. Medida de Tendencia Central.
2. Valor central en una secuencia de datos
ordenada. Percentil 50.
3. No se afecta por valores extremos.
4. Posición de la Mediana.
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2021.
Análisis de Datos para el Control de Procesos
33
Promedio Truncado
El Promedio Truncado se obtiene promediando luego
de eliminar a % de los menores datos y a % de los
mayores datos del conjunto total de datos.
Es una buena medida de ubicación o tendencia
central si tenemos datos extremos o muy grandes o
muy pequeños.
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2021.
Análisis de Datos para el Control de Procesos
34
Percentil
El p percentil de un conjunto de datos es un valor tal que por
lo menos el p% de las observaciones es menor o igual a él o el
(100-p)% de los valores es mayor que él.
1. Arreglar los datos en forma ascendente.
2. Calcular la posición i del p percentil.
i = (p/100)n
3. Si i no es un número entero, redondear hacia arriba. El p
percentil es el valor de la observación en la posición i.
4. Si i es un entero, el p percentil es el promedio entre las
observaciones de las posiciones i e i+1.
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2021.
Análisis de Datos para el Control de Procesos
35
Cuartil
1. Medida de Tendencia NO Central
2. Divide los datos ordenados en cuatro partes.
3. Primer Cuartil = 25 Percentil
4. Segundo Cuartil = 50 Percentil = Mediana
5. Tercer Cuartil = 75 Percentil
25% 25% 25% 25%
Min Q1 Q2 Q3 Max
Q0 Q4
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2021.
Análisis de Datos para el Control de Procesos
36
Medidas de Variabilidad
Rango
Rango Intercuartil
Varianza
Desviación Estándar
Coeficiente de Variación
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2021.
Análisis de Datos para el Control de Procesos
37
Rango
1. Medida de dispersión
2. Diferencia entre la más grande y la menor de
las observaciones
3. Ignora Cómo se distribuyen los datos
4. Es muy sensible a valores extremos.
7 8 9 10 7 8 9 10
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2021.
Análisis de Datos para el Control de Procesos
38
Rango Intercuartílico
1. Medida de Dispersión
2. Diferencia entre el Tercer y Primer Cuartil
3. Es el rango en que se tiene el 50% central de
los datos.
4. No se afecta por Valores Extremos
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2021.
Análisis de Datos para el Control de Procesos
39
Varianza
La varianza es el promedio de las diferencias al cuadrado de cada
observación con el promedio. Muestra la variación alrededor del
promedio.
La Varianza se calcula como sigue:
2 S ( X – X )2 S ( X – m )2
s s2
n-1 N
Muestra Población
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2021.
Análisis de Datos para el Control de Procesos
40
Desviación Estándar
La desviación estándar de un conjunto de datos es la
raíz cuadrada positiva de la varianza.
Esta medida está en las mismas unidades que los
datos, haciendo más fácil su comparación con el
promedio.
s = s2 s s2
Muestra Población
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2021.
Análisis de Datos para el Control de Procesos
41
Coeficiente de Variación
El coeficiente de variación indica cuán grande es la
desviación estándar en relación con el promedio.
Se expresa como un porcentaje.
S (100) % s (100) %
X m
Muestra Población
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2021.
Análisis de Datos para el Control de Procesos
42
Estadística Descriptiva
Usando herramientas de Excel
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2021.
Análisis de Datos para el Control de Procesos
43
Valor Z
El valor - Z es generalmente llamado el valor estandarizado.
Indica el número de desviaciones estándar que un Xi
cualquiera se aleja del promedio.
Un dato con valor menor que el promedio tendrá un valor Z
menor que cero.
Un dato con valor mayor que el promedio tendrá un valor Z
mayor que cero.
Un dato con valor igual al promedio tendrá un valor Z igual
a cero.
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2021.
Análisis de Datos para el Control de Procesos
44
Regla Empírica
Para datos que se distribuyen en forma de campana:
Aproximadamente el 68% de los datos estarán entre la
media y una desviación estándar.
Aproximadamente el 95% de los datos estarán entre la
media y dos desviación estándar.
Casi todos los datos estarán entre la media y tres
desviación estándar.
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2021.
Análisis de Datos para el Control de Procesos
45
Detectando Outliers
Un outlier es inusualmente muy pequeño o
inusualmente muy grande.
Un dato con un valor – Z menor que -3 o mayor que +3
pueden ser considerados como un outlier.
Puede ser un valor mal registrado. Puede ser un valor
indebidamente incluido en una muestra (población).
Como también puede ser un valor correctamente
registrado y que pertenece a esta muestra (población).
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2021.
Análisis de Datos para el Control de Procesos
46
Análisis Exploratorio de Datos
Resumen con Cinco Números
Box Plot
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2021.
Análisis de Datos para el Control de Procesos
47
Resumen con Cinco Números
Menor Valor
Primer Cuartil
Mediana
Tercer Cuartil
Mayor Valor
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2021.
Análisis de Datos para el Control de Procesos
48
Box Plot – Diagrama de Caja
Se dibuja una caja con sus extremos en el primer y tercer
cuartil.
Se traza una línea vertical dentro de la caja en la
ubicación de la mediana.
Se definen límites (no se dibujan) usando el rango
intercuartílico (IQR).
Límites interiores se definen a 1.5(IQR) debajo de Q1 y
1.5(IQR) encima de Q3.
Límites exteriores se definen a 3(IQR) debajo de Q1 y
3(IQR) encima de Q3.
Continua
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2021.
Análisis de Datos para el Control de Procesos
49
Box Plot – Diagrama de Caja
Se dibuja una línea punteada a través de la caja desde
el valor más pequeño hasta el valor más grande de los
datos dentro de los límites internos.
La ubicación de outliers medios se muestran con el
símbolo * .
La ubicación de outliers extremos se muestran con el
símbolo o .
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2021.
Análisis de Datos para el Control de Procesos
50
Box Plot – Diagrama de Caja
Sesgo a la izquierda Simétrica Sesgo a la derecha
Q1 Mediana Q3 Q1 Mediana Q3 Q1 Mediana Q3
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2021.
Análisis de Datos para el Control de Procesos
51
Box Plot – Diagrama de Caja
Es una excelente técnica gráfica para hacer comparaciones
entre dos o más grupos.
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2021.
Análisis de Datos para el Control de Procesos
52
Medidas de Asociación entre dos Variables
Hasta ahora hemos examinado únicamente métodos
numéricos utilizados para resumir los datos de una sola
variable a la vez.
A menudo, un gerente o un tomador de decisiones está
interesado en la relación entre dos variables.
Dos medidas descriptivas de la relación entre dos
variables son la covarianza y el coeficiente de correlación.
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2021.
Análisis de Datos para el Control de Procesos
53
Covarianza
La covarianza es una medida de la asociación lineal
entre dos variables.
Valores positivos indican relación directa.
Valores negativos indican relación inversa.
S ( X – X ) ( Y – Y ) S ( X – mX ) ( Y – my )
sXY sXY
n-1 N
Muestra Población
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2021.
Covarianza
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2021.
Análisis de Datos para el Control de Procesos
55
Coeficiente de Correlación
El coeficiente puede tomar valores entre -1 y +1.
Valores cercanos a -1 indican una fuerte relación
negativa.
Valores cercanos a +1 indican una fuerte relación
positiva.
SXY sXY
rXY rXY
SX SY sX sY
Muestra Población
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2021.
Coeficiente de Correlación
Notas de clase elaboradas por el Prof. Tomás Minauro L. Lima, esan, ® 2021.