Análisis y Representación de Datos Estadísticos
Análisis y Representación de Datos Estadísticos
1
cualitativas; por ejemplo la duración de un ser vivo en días en el primer caso
y el tipo de sangre de un ser humano en el segundo.
Las numéricas obedecen a conteos o mediciones y las cualitativas a
identificaciones mediante códigos no necesariamente cuantitativos.
En la estadística son usuales las siguientes descripciones, diagramaciones o
distribuciones de los datos de una muestra:
1. Diagrama de puntos sobre el eje real, práctico para muestras con tamaño
n ≤ 30 .
2. Diagrama de tallo, hojas y frecuencias simples o número de veces que
aparece cada observación. Cuando este diagrama se realiza mediante
paquetes estadísticos como SAS o STATGRAPHICS, muestra
automáticamente los dato LO y HI, abreviatura en inglés para los datos
mínimo y máximo respectivamente de la muestra, además las frecuencias
simples y acumuladas.
3. Distribución de frecuencias que incluye los intervalos de clase, los
conteos y las frecuencias simples, relativas y acumulativas.
4. Histograma de frecuencias simples.
5. Histograma de frecuencias acumuladas.
2
Construya un diagrama de tallo y hoja para estos datos. Tamaño de la
muestra n = 82 , octanaje mínimo = 83.4 , octanaje máximo = 100.3 .
3
Ejemplo 2. Con la misma muestra del ejemplo 1 construya una distribución
de frecuencias y un histograma con 8 intervalos de clase.
Así
4
así:
Clase Intervalo Frecuencia
0 (0,82] 0
1 (82, 83.25] 0
2 (3.25, 84.50] 3
3 (84.50, 85.75] 1
4 (85.75, 87.00] 3
5 (87.00, 88.25] 8
6 (88.25, 89.50] 14
7 (89.50, 90.75] 17
8 (90.75, 92.00] 15
9 (92.00, 93.25] 10
10 (93.25, 94.50] 8
11 (94.50, 95.75] 0
12 (95.75, 97.00] 2
13 (97.00, 98.25] 0
14 (98.25, 99.50] 1
15 (99.50, 100.75] 1
16 (100.75, 102.00] 0
17 (102.00, ∞ ] 0
5
HISTOGRAMAS O POLÍGONOS DE FRECUENCIAS DE LOS EJEMPLOS 1
2 Y 3.
Ley de PARETO.
En honor del economista Italiano Vilfredo Pareto. “La mayoría de los datos
en un proceso aparecen solo en unas cuantas categorías de la muestra o lista
de datos”.
6
Ejemplo 4. Los defectos estructurales en las puertas de un automóvil se
han cuantificado así:
Polígono de frecuencias
simples, diagrama de PARETO
En conclusión se puede afirmar, según la ley de PARETO, que más del 50%
de los defectos se ocasionan en las categorías C ó D. Para mejorar la
calidad se deben mejorar principalmente los procesos de ajuste y
contorneado.
7
Medidas de Tendencia Central
Mediana muestral ~
x . Sea (x1 , x2 , ..., xn ) una muestra ordenada
xn + 1 si n es impar y ~
x pertenece a la muestra
2
~
x =
x + x 2 si n es par y ~
x no pertenece a la muestra
n n +1
2 2
8
~
x no cambia con el cambio de los valores extremos de la muestra. Por
ejemplo, en las muestras {0, 2, 4, 6, 8} y {0, 2, 4, 6, 28} la mediana ~
x =4 es
invariante ante el cambio del quinto dato 8 por 28, pero la media x pasa de
un valor de 4 a uno de 8. La primera muestra es simétrica y la segunda
sesgada a la derecha.
o o
Moda muestral x . La moda x es la observación que se presenta con mayor
frecuencia en la muestra. Cuando en una misma muestra aparecen varios
datos u observaciones con la misma frecuencia máxima diremos que la
muestra o la distribución es unimodal, bimodal ó trimodal.
1 n
observe que log ( g ) = log xi .
n i =1
9
xi2
c =
n
Todas las medias se deben calcular con una cifra significativa adicional a la
del punto más preciso.
En toda muestra se cumple la siguiente relación de orden entre las medias:
a≤g≤x≤c
Como criterio de utilidad la media armónica destaca o representa los valores
mas pequeños de la muestra, en ese orden, la geométrica y la aritmética
destacan valores mas intermedios y la cuadrática los mas grandes.
Ejercicio:
a. Comprobar que las medias de la muestra {1, 2, 5, 7, 10, 13} son
(a = 3.2) ≤ (g = 4.6) ≤ (x = 6.3) ≤ (c = 7.1) .
b. Localizar las medias en el ejemplo del octanaje y verificar la relación de
orden.
10
Parte a. Histogramas y polígonos
11
Simétrico Unimodal
12
Puede observarse que en las muestras con distribución simétrica unimodal
como A y C hay igualdad en el valor de la media, la mediana y la moda,
además, cuando las gráficas están sesgadas como sucede en G y E se
establece que x ≤ ~
x si el sesgo es a la izquierda y cuando están sesgadas
hacia la derecha x ≥ ~
x.
s2 y s son cálculos anticipados de la varianza y la desviación muestral que se
conceptualizarán como las principales medidas de variabilidad estadística. La
fórmula es
n
1
s2 = (xi − x )2
n −1 i=1
Observaciones.
1) x es el centro de masa del histograma de frecuencias de la muestra
respectiva.
2) Si la muestra es toda la población finita de tamaño N entonces la media
n
1
poblacional sería = xi N≥1
N i=1
13
Veremos métodos que nos permitan predecir la media poblacional µ a
partir de la media muestral x .
3) Si la distribución muestral, es decir el histograma, es simétrico y
o
unimodal x = ~x = x , es decir, coinciden la media, la mediana y la
moda.
o
4) La ecuación de Pearson x = 3~
x − 2x se cumple aproximadamente en el
caso de distribuciones unimodales casi simétricas.
5) Si la distribución muestral es fuertemente sesgada a la derecha se
o
cumple que x < ~x < x ; si el sesgo es a la izquierda se invierte la doble
o
desigualdad x > ~x > x .
Percentiles y Cuartiles.
Sabemos que la mediana divide los datos de una muestra o población en
50% y 50%.
Definimos los cuartiles como aquellos datos que dividen la muestra en cuatro
cuartos así:
14
%
Primer cuartil (inferior) q1 25, 75
Segundo cuartil (la mediana) ~
x = q2 50, 50
Tercer cuartil (superior) q3 75, 25
y [nk ] si nk no es entero
pk = 1
(y nk + y nk +1 ) si nk es entero
2
Es claro que si nk es entero entonces p k es la semisuma de los datos de las
posiciones nk y nk+1 y el percentil no pertenece a la muestra.
Si nk no es entero entonces p k es el dato que está en la posición, entera,
mas cercana a nk. Y el dato percentil pertenece a la muestra.
Ejemplo: Hallar p0,1 y p0,5 sobre el diagrama de tallo y hojas de los octanajes.
Sabemos que n=82, entonces,
82 × 0,1 = 8,2
nk =
82 × 0,5 = 41
15
[8,2] = 8
[nk ] =
[41] = 41
p0,1 = y 8 = 87,4
1
p0,5 = (y 41 + y 42 ) = 1 (90,4 + 90,4 ) = 90,4
2 2
Medidas de Variabilidad
Rango muestral r.
Indica la mayor distancia entre los datos. Sea (x1 , x 2 , ..., x n ) una muestra
aleatoria. Se define
r = max xi − min xi
Rango intercuartil I.
Localiza la distancia que cubre el 50% central de los datos, es no sensible o
invariante con relación a los valores extremos de la distribución ya que los
excluye.
Ι = q3 − q1
Sea (x1 , x 2 , ..., x n ) una muestra aleatoria. Se define la varianza muestral así:
n
1
s2 = (xi − x )2 n > 1
n −1 i=1
16
Una fórmula alternativa para s 2 es:
Proposición 1.
s2 =
1
n −1
(xi − x )2 = 1
n −1
(x 2
i − 2 x xi + x
2
)
=
1
n −1
( x i2 − 2 x xi +
2
x : )
=
1
n −1
( 2
x i2 − 2 n x + n x
2
)
s2 =
1
n −1
( x i2 − n x
2
)
Coeficiente de Variación Muestral de Pearson: CV.
s s
CV = , ó en porcentaje CV = 100% , x ≠ 0
x x
17
15%; cuando el coeficiente supera el 15% se descarta el conteo más distante
entre los tres.
El coeficiente de variación es útil, en razón de su carácter adimensional, para
comparar muestras con medias desiguales, donde las unidades de medida
de las observaciones son diferentes.También para decidir cual muestra es
mas homogénea o menos variable.
150gr
CVRATA BANDI = • 100% =15%
1000gr
El coeficiente de variación del peso de los elefantes es menor que el de las
ratas Bandicut, por lo tanto es mas homogéneo o menos variable el peso de
los elefantes.
Observe que las unidades de medida son diferentes y que las diferencias
entre las medias son significativas.
18
a) Calcule los coeficientes de variación de cada muestra de mediciones.
b) Qué se puede afirmar acerca de la precisión de las mediciones?
c) Qué se puede afirmar acerca de la calidad de las piezas?
d) Qué efecto tienen en el análisis las diferentes unidades de medida de
las longitudes?
Simetría y acampanamiento.
Los coeficientes que vamos a definir se deben a Sr. Ronald Fisher, 1890 a
1962, quien motivado por sus investigaciones genéticas recurrió con éxito a la
estadística contribuyendo a los temas de pruebas de hipótesis y varianza de
muestras pequeñas.
Es usual visualizar si los datos obtenidos en un muestreo corresponden a una
distribución de datos monticular o acampanada próxima a la denominada
distribución normal en la que la moda, la mediana y la media coinciden en
razón de su perfecta simetría.
La distribución de datos puede por lo tanto monitorearse en dos sentidos con
relación a la distribución normal calculando los índices de
(x i − x )3
γ=
ns 3
(Observe que el exponente 3 permite el cambio de signo en la distribución de
)
19
Acampanamiento o kurtosis: Cuando la distribución de datos acumula mas
acampanamiento k así:
(x i − x)
4
K= −3
ns 4
Observe que el exponente 4 produce una potencia siempre positiva
comparada con el número 3 de forma que:
20
al menos 3 quedarían en el intervalo x ± 2 s , al menos 8 quedarían en el
4 9
intervalo x ± 3 s . Se ha encontrado empíricamente que cuando la distribución
de los datos es unimodal y simétrica o acampanada la concentración de los
datos cambia así:
Ejercicio.
a. ¿Qué porcentajes de datos de la muestra de octanajes del ejemplo 1
caen en los intervalos [x ± ks] , cuál es el mejor criterio?
b. ¿Cuáles datos caen fuera del rango intercuartílico?
Valor z.
21
x−x
z = , s>0
s
22
Los datos mas pequeños que q1 y mas grandes que q3 son considerados
fuera de rango. Las líneas llamadas bigotes se extienden desde la caja hacia
estos valores. Típicamente, la mayoría de los datos estarán dentro del
intervalo [q1 − 1.5I, q3 + 1.5I] . Los puntos por fuera de este intervalo se
23
Entre q1 = 88.6 y q 2 = 92.2 ,
en el rango intercuartílico se
encuentra el 50% de los
octanajes.
La mediana es casi coincidente
con la media indicando alta
simetría de la distribución.
Los octanajes 98.8 y 100.3 son
datos extraños-outliers-.
24
Ejemplo 8. El coeficiente de inteligencia se define como la razón entre la
edad mental y la edad cronológica de una persona multiplicada por 100 .
Una muestra de 32 universitarios arrojó los siguientes datos de coeficiente
de inteligencia:
x = 100 103 99 101 100 120 109 82 n = 32
101 112 95 118 118 89 114 113 x = 3251
93 98 101 96 84 86 89 90
x y y?
a)
Tallo Hojas Ordenadas Frecuencia
8 246799 6
9 0233456689 10
10 0011139 7
11 123488 6
12 0 1
3 07 2
TOTAL 32
25
b)
1 n
1
c) x = xi = (3251) = 101.59 ≅ 101.6
n L =1 32
1 1
~
x = x n + x n +1 = (x16 + x17 ) = 1 (99 − 1.100 ) = 99.5
2 2 2 2 2
n par
Moda = x f (x ) es máximo.
~
Moda = 101 como x = 99.5 < (M = 101) < (x = 101.6 ) no se puede
afirmar que la dbn del C Ι sea sesgada, mas bien que hay tendencia a
la simetría.
1
d) (q1 , q3 ) = [x 8 + x 9 ] , 1 [x 24 + x 25 ]
2 2
1
= [92 + 93] , 1 [111+ 112]
2 2
= (92.5 , 111.5 ) donde hay, como era de esperarse, 16 datos.
26
1 n
1 n
s2 = (x − x )
i = xi2 − n x
2
n −1 L =1 n −1 1
s2 =
1
31
(335787 − 32 [101.59]2 ) = 178.39
s = 13.36
x ± s = 1 01.59 ± 13.36
(x − s , x + s) = (88.23 , 114.95 ) que contiene 23 datos.
(q1 , q3 ) Contiene 50% de los datos
(x ± s) Contiene 23 32 ≅ 72% de los datos
sx 13.36
e) CVx = = = 0.1315
x 101.59
sy 14
CVy = = = 0.1273
y 110
PROBLEMAS SELECCIONADOS
27
2. Un analista químico desea determinar el número de moles de iones
cúpricos en un volumen dado de una solución, por electrólisis. La
solución se dividió en n = 30 porciones de 200 mililitros cada una.
Estas 30 porciones se sometieron a pruebas. Se encontró que el
promedio de moles de iones cúpricos para las 30 porciones fue de .17
moles y la desviación estándar de .01 moles. Describa la distribución de
las mediciones para las 30 porciones de la solución:
28
7 4.000
14 6.000
22 8.000
30 10.000
38 12.000
50 15.000
69 20.000
82 25.000
98 50.000
29
a) Describa la población de la cual se obtuvo la muestra. ¿Es esta
muestra representativa de la población de rendimientos en kilómetros
por galón de todos los R 2002 equipados con transmisión automática?
b) Use la media de los datos para estimar la media de la población de
millas por galón para el R 2002 arriba descrito.
c) Use la amplitud para obtener un valor aproximado de s. Luego
calcule s y use el valor aproximado como verificación de sus cálculos.
7 8 7 10 4 8 6
9 6 4 9 10 9 8
3 9 5 9 9 8 7
10 2 7 4 8 5 10
9 6 8 8 8 7 8
6 11 9 11 7 7 11
10 8 8 5 9 9 8
8 9 10 7 7 7 5
8 7 9 9 6 8 9
5 8 8 7 9 13 8
30
c) Calcule s para estos datos. Construya los intervalos y ± s , y ± 2 s ,
31
9. A continuación se presentan los datos de 100 niños a los que se les midió
el nivel de glucosa diluida en la sangre.
61 57 77 62 75 63 55 64 60 61
57 61 57 67 62 69 67 68 59 61
72 65 61 68 73 65 62 75 80 61
61 69 76 72 57 75 68 81 64 72
64 66 65 65 76 65 58 65 64 76
71 72 58 73 55 73 79 81 56 73
60 65 80 66 80 68 55 66 71 55
73 73 75 75 74 66 68 73 65 73
74 68 59 69 55 67 65 67 63 63
56 67 62 65 75 62 63 63 59 59
32
9 = Sin respuesta 40
Total 500
33