ESTADISTICA PARA PROCESOS
ANALISIS DE DATOS:
En un proceso de manufactura, el dimetro en milmetros de cierto ensamble se
considera de vital importancia para poder continuar con la produccin. El
inspector de control de calidad ha recopilado la siguiente informacin respecto a
los dimetros de 10 unidades tomadas aleatoriamente con el propsito de analizar
estadsticamente los datos. En la siguiente tabla se presenta dicha informacin:
Elemento # 1
Dimetro 12
#2
15
#3
10
#4
7
#5
21
#6
33
#7
23
#8
12
#9
8
ANALISIS GRAFICO
Scatterplot of VENTAS vs MES
35
30
VENTAS
25
20
15
10
enero
marzo
mayo
MES
julio
septiembre
# 10
12
Chart of DIAMETRO
3,0
2,5
Count
2,0
1,5
1,0
0,5
0,0
10
12
15
DIAMETRO
21
23
33
Pie Chart of DIAMETRO
33
1; 10,0%
7
1; 10,0%
23
1; 10,0%
8
1; 10,0%
21
1; 10,0%
10
1; 10,0%
15
1; 10,0%
12
3; 30,0%
Category
7
8
10
12
15
21
23
33
Histogram of VENTAS
Normal
Mean
StDev
N
15,3
8,084
10
Frequency
10
15
20
VENTAS
25
30
35
MEDIDAS DE TENDENCIA CENTRAL: primer momento
MEDIA
MEDIANA
MODA
MEDIA:
La media es el promedio de los
datos
n
Es el punto medio de una serie ordenada
X de datos.
X i
PASOS:
i 1 n
12 15 10Ordenar
7 21 los
33 datos
23 12en
8forma
12 ascendente
15.3
10
7, 8, 10, 12,12, 12 , 15, 21, 23, 33
MEDIANA:
Si n es impar la mediana es el nmero de la mitad del conjunto
ordenado.
Si n es par se debe promediar los dos valores intermedios del
conjunto ordenado.
MEDIANA= 12+12/2=12 divide a los datos en dos mitades.
MODA:
Es el valor mas frecuente dentro de un
grupo de datos.
MODA= 12 ( SE REPITE 3 VECES)
MEDIDAS DE DISPERSION: segundo momento
RANGO
VARIANZA
DESVIACION ESTANDAR
RANGO:
Es la diferencia entre el valor mximo y mnimo de un grupo
de datos.
12, 15, 10, 7, 21, 33, 23, 12, 8, 12.
Ordenar en formar ascendente.
7, 8, 10, 12, 12, 12,15, 21, 23, 33.
RANGO= MAX MIN
RANGO = 33 -7 = 26
VARIANZA
Es el indicador de dispersin alrededor de la media.
n
S2
x
i 1
n 1
DATOS: x 15.3
xi 12, 15, 10, 7, 21, 33, 23, 12, 8, 12.
xi x 2
xi x
-3.3
-0.3
-5.3
-8.3
5.7
17.7
7.7
-3.3
-7.3
-3.3
total
n
S2
x
i 1
10.89
0.09
28.09
68.89
32.49
313.29
59.29
10.89
53.29
10.89
588.10
n 1
588.10
S2
9
2
S 65.3494
DESVIACION ESTANDAR
Mide la dispersin promedio de los datos alrededor de la media.
S
S2
S 65.3494
S 8.08359
MEDIDAS DE FORMA
COEFICIENTE ASIMETRIA: Tercer momento
Este coeficiente mide la asimetra de los datos respecto a su centro. Este
coeficiente es cero para una variable simtrica. Cuando el valor absoluto
del coeficiente es aproximadamente mayor que uno podemos concluir
que los datos tienen una distribucin claramente asimtrica.
n
x x
* i
n 1 n 2
s
AS
Asimetra:
10
* 9.40794
9 *8
1.30665
x x
S3
xi
xi x
s
12
15
10
7
21
33
23
12
8
12
total
-0.40823
-0.03711
-0.65565
-1.02677
0.70513
2.18962
0.95254
-0.40823
-0.90306
-0.40823
xi x
-0.06803
-0.00005
-0.28184
-1.08247
0.35059
10.49799
0.86427
-0.06803
-0.73646
-0.06803
9.40794
Una caracterstica importante de un conjunto de datos es su
homogeneidad. Si las desviaciones d:
d x x
son muy distintas, esto sugiere que hay datos que se separan mucho de
la media y que tenemos por tanto alta heterogeneidad. Una posible
medida de homogeneidad es la varianza de las d, que se expresa como:
1 n
2
d ij s j
n i 1
CURTOSIS: cuarto momento
Una manera alternativa de medir la homogeneidad de los datos es el
coeficiente de curtosis. Un objetivo central de la descripcin de los datos es
decidir si los datos son una muestra homognea de una poblacin o
corresponden a una mezcla de poblaciones distintas que deben estudiarse
separadamente.
Un caso especial importante de heterogeneidad es la presencia de una
pequea proporcin de observaciones atpicas (outliers), que corresponden
a datos heterogneos con el resto. La deteccin de estas observaciones es
fundamental para una correcta descripcin de la mayora de los datos, ya
que estos valores extremos distorsionan los valores descriptivos del
conjunto.
El coeficiente de curtosis puede ayudar en este objetivo, ya que tomar un
valor alto, mayor que 7 u 8.
Siempre que observemos un valor alto de la curtosis para una variable, esto
implica heterogeneidad debido a unos pocos atpicos muy alejados del
resto.
Aparece un tipo distinto de heterogeneidad cuando tenemos una mezcla de
dos poblaciones, de manera que una proporcin importante de los datos,
entre el 25% y el 50% son heterogneos con el resto. En este caso, el
Esta representa
la elevacin
o el menor
achatamiento
coeficiente
de curtosis
es pequeo,
que 2. de una distribucin
comparada con la distribucin normal.
Si la curtosis es +, la distribucin es relativamente elevada.
Si es es plana.
4
2
n n 1
3 n 1
xi x
s
n 2 n 3
n 1 n 2 n 3
x x
k
s4
xi x
s
x
12
15
10
7
21
33
23
12
8
12
total
n n 1
xi x
s
n 1 n 2 n 3
xi x
-0.40823
-0.03711
-0.65565
-1.02677
0.70513
2.18962
0.95254
-0.40823
-0.90306
-0.40823
0.02777
0.0000018
0.18479
1.11145
0.24721
22.98661
0.82325
0.02777
0,66506
0.02777
26.10168
3 n 1
n 2 n 3
2
1011
3 9
* 26.10168
9 *8*7
8*7
5.69679 4.33928
1.35751
OTRAS MEDIDAS
COEFICIENTE DE VARIACION
Cv
S
x
Es una medida de variacin alrededor de la media, es til cuando
se desea comparar la variabilidad de dos conjuntos de datos.
S
x
8.08359
0.5283
15.3
CV
DESVIACION MEDIA Y ERROR ESTANDAR DE LA
MEDIA.
Mide la exactitud de la media
DM
xx
S
n
n= 10
x = 15.3
x
62.2
DM
10
6.22
S
8,08
E
2,55
n
10
CUARTILES,
PERCENTILES.
x x
7
8
10
12
12
12
15
21
23
33
8.3
7.3
5.3
3.3
3.3
3.3
0.3
5.7
7.7
17.7
62.2
DECILES Y
Son aquellos que subdividen los datos de acuerdo con la
proporcin de frecuencias observadas. Mientras que la
mediana divide a la distribucin en 2 mitades, los cuartiles la
dividen en cuatro cuartos, los deciles la dividen en diez
decimos y los percentiles los dividen en cien partes.
Q
Cuartiles.
D
Deciles
Los datos se deben de ordenar en
P
Percentiles
forma ascendente.
n 1
4 2
Q1 PRIMER CUARTIL X
2n 1
2
4
Q2 SEGUNDO CUARTIL X
3n 1
2
4
Q3 TERCER CUARTIL X
1
n
10
2
2n 1
D2 SEGUNDO DECIL X
10 2
3n 1
D3 TERCER DECIL X
10 2
.
D1 PRIMER DECIL X
.
.
9n 1
10 2
D9 NOVENO DECIL X
n
1
100 2
1
2n
P2 SEGUNDO PERCENTIL X
100 2
1
3n
P3 TERCER PERCENTIL X
100
2
.
P1 PRIMER PERCENTIL X
.
.
99n 1
100 2
P99 NOVENO PERCENTIL X
EJERCICIO
Dados los datos : 12, 15, 10, 7, 21, 33,23,12,8,12.
1. Ordenar en forma ascendente:
7,8,10,12,12,12,15,21,23,33
CALCULAR:
n 1
10 1
X
X 3 10
4 2
4 2
2n 1
20 1
Q2 X
X
X 5.5 12 MEDIANA
4 2
4 2
Q1 X
3n 1
30 1
X
X 8 21
4 2
4 2
Q3 X
n 1
10 1
X
X 1.5 7.5
10 2
10 2
2n 1
20 1
D2 X
X
X 2.5 9
10 2
10 2
6n 1
60 1
D6 X
X
X 6.5 13.5
10 2
10 2
D1 X
10n 1
X
100
2
25n 1
P25 X
X
100 2
70n 1
P70 X
X
100 2
P10 X
100 1
X 1.5 7.5
100 2
250 1
X 3 10
100 2
700 1
X 7.5 18
100 2
DIAGRAMA DE CAJA
Una medida alternativa de dispersin que puede ser ms representativa en
el caso en que la distribucin es asimtrica o en presencia de datos atpicos,
es el rango intercuartlico.
El rango intercuartlico (RIC). Hemos definido la
mediana como el punto que separa el conjunto en dos partes de mismo
tamao. Definimos de la misma manera los cuartiles como los puntos que
separan el conjunto en cuatro partes de mismo tamao. El primer cuartil Q1
deja el 25% de los datos ordenados a su izquierda, y el otro 75% a su
derecha, mientras que el tercer cuartil Q3 deja el 75% de los datos
ordenados a su izquierda, y el otro 25% a su derecha. Por lo tanto el par
(Q1,Q3) nos proporciona informacin sobre la dispersin presente en los
datos: cuanto ms alejados estn los cuartiles, ms dispersos estn los
datos. Por ello, calculamos el rango intercuartlico RIC como la diferencia
entre Q3 y Q1.
El RIC tambin se utiliza para detectar datos atpicos:
Regla: Se consideran como atpicos los datos que son menores de Q1 1,5
RIC, o mayores de Q3 + 1,5 RIC.
El diagrama de caja-bigotes es un resumen grfico que permite visualizar,
para un conjunto de datos, la tendencia central, la dispersin y la presencia
posible de datos atpicos. Para realizarlo se necesita calcular la mediana, el
primer cuartil, y el tercer cuartil de los datos.
Los segmentos 1.5 RIC (llamados bigotes) se recortan hasta el dato del
conjunto inmediatamente superior a Q1 1,5 RIC para el bigote inferior,
y el dato inmediatamente inferior a Q3 + 1,5 RIC, para el bigote superior.
La mayor utilidad de los diagramas caja-bigotes es para comparar dos o
ms conjuntos de datos.
Boxplot of VENTAS
35
30
VENTAS
25
20
15
10