Medidas Descriptivas: Índice
Medidas Descriptivas: Índice
Medidas Descriptivas
Jhon F. Bernedo Gonzales • Ronny I. Gonzales Medina • 2020
Índice
1. Introducción 2
1
Probabilidad y Estadística 2. Medidas descriptivas: medidas de tendencia central
1 Introducción
Uno de los objetivos en estadística es condensar ó resumir los datos por medio de números que son
denominados medidas descriptivas que indican algunas características de la población ó muestra. Se
debe de tener en cuenta lo siguiente:
a) Una medida descriptiva calculada de una muestra es llamada de estadística
b) Una medida descriptiva calculada de una población es llamado de parametro.
En este sentido, por medio de las estadísticas obtenidas de la muestra puede descubrir e identificar
algunas características que las observaciones tienen en común y así con esta información a partir de la
muestra hacer inferencias de la población.
En general, los datos brutos tienen muchas variables, sin embargo será considerado un análisis univa-
riado de los datos, i.e., serán calculados estadísticas considerando sólo una variable y de naturaleza
cuantitativas.
x1 , x2 , . . . , xn
y si este conjunto de datos es ordenado en forma ascendente entonces de adopta la siguiente notación
en que x(1) es el valor mínimo de los datos y x(n) es el valor máximo. Nótese que x(1) ocupa la 1o posición
de los datos ordenados, x(2) ocupa la 2o posición, y así sucesivamente. Una vez ordenado los datos, el
valor de la mediana depende del número de observaciones n.
Si n es impar la mediana es dada por
Me = x( n+1 )
2
x = Me
e
2
Probabilidad y Estadística 2. Medidas descriptivas: medidas de tendencia central
Ejemplo 2.1.
Considerando los siguientes números 2, 5, 3, 6, 1 e 7. Calcular la mediana. Nótese que el número de
observaciones es par n = 6.
Para el cálculo de la mediana, los datos tienen que estar ordenados, por ejemplo, en forma ascendente ,
así
posición 1o 2o 3o 4o 5o 6o
x(i) 1 2 3 5 6 7
posición 1o 2o 3o 4o 5o
x(i) 1 2 3 5 10
Me = x( 5+1 ) = x( 6 ) = x(3) = 3
2 2
3
Probabilidad y Estadística 2. Medidas descriptivas: medidas de tendencia central
Ejemplo 2.3.
El artículo (“Oxygen Consumption During Fire Suppression: Error of Heart Rate Estimation”, Ergonomics,
1991: 1469-1474) reportó los siguientes datos sobre consumo de oxígeno (ml/kg/min) para una muestra
de diez bomberos que realizaron un simulacro de supresión de incendio.
Ejemplo 2.4.
Se investiga la cantidad de sodio en 20 marcas de cereales para desayuno, los niveles registrados (en mg)
son
4
Probabilidad y Estadística 2. Medidas descriptivas: medidas de tendencia central
Ejemplo 2.5.
La propagación de grietas provocadas por fatiga en varias partes de un avión ha sido el tema de extensos
estudios en años recientes. Los datos adjuntos se componen de vidas de propagación (horas de vuelo/104
) para alcanzar un tamaño de agrietamiento dado en orificios para sujetadores utilizados en aviones
militares (“Statistical Crack Propagation in Fastener Holes ander Spectrum Loading”, J. Aircraft, 1983:
1028-1032)
5
Probabilidad y Estadística 2. Medidas descriptivas: medidas de tendencia central
Ejemplo 2.6.
El artículo (“The Pedaling Technique of Elite Endurance Cyclists”, Inst. J. of Sport Biomechanics, 1991:
29-53) reportó los datos adjuntos sobre potencia de una sola pierna sometida a una alta carga de trabajo.
Suponga que la primera observación hubiera sido 204 en lugar de 244. ¿Cómo cambiarían la media
y la mediana?
6
Probabilidad y Estadística 2. Medidas descriptivas: medidas de tendencia central
Propiedades de x
a) Suma Total Si x es la media aritmetica de n datos, entonces la suma total de los n valores es dado
por
n
X Xn
xi = x × n, fi xi = x × n
i=1 i=1
b) Transformación Lineal Sea x que representa una variable estadística (discreta o continua y sea xi
un valor de la muestra de tamaño. Si se considera una transformación lineal de x, esto es,
yi = axi + b i = 1, . . . , n
si a = 1, se tiene y = x + b luego y = x + b.
si b = 0 se tiene y = ax luego y = ax.
c) Si x es la media aritmetica de n datos, entonces las desviaciones de c/u de los datos en relación x
es igual a 0,
Xn X k
(xi − x) = 0 fi (xi − x) = 0.
i=1 i=1
Nótese que una desviación de xi en relación a x es dada por xi − x.
n1 x1 + n2 x2 + n3 x3 n1 x1 + n2 x2 + n3 x3
x= = ,
n1 + n2 + n3 n
en que n = n1 + n2 + n3 .
e) La media aritmética es afectada por valores extremos. Esto lleva a que esta estadística indique
conclusiones distorcionadas.
n1 n2 n3
xbar1 xbar2 xbar3
7
Probabilidad y Estadística 2. Medidas descriptivas: medidas de tendencia central
Ejemplo 2.7.
Una muestra de temperaturas para iniciar una cierta reacción química dio un promedio muestral (o C)
de 87.3 ¿Cuál es el promedio muestral medido en o F?
Sugerencia: F = 95 C + 32
Solución
9
F= C + 32 se usa la transformacióm lineal
5
9
F = C + 32
5
9
F = · 87.3 + 32
5
F = 189.14
8
Probabilidad y Estadística 2. Medidas descriptivas: medidas de tendencia central
Ejemplo 2.8.
El sueldo promedio actual de 200 empleados de una empresa es S/. 800.00. Si para el siguiente mes hay
dos alternativas de aumento:
Cual es la alternativa es más conveniente para la empresa si está sólo dispone de 177000 soles para pagar
sueldos?
Solución
Para este ejemplo se utiliza la propiedad de suma total y transformación lineal.
yi = xi + 90
y = x + 90
y = 800 + 90 = 890
n
X
yi = 200 × 890 = 178000
i=1
yi = xi + 0.05xi + 45
yi = 1.05xi + 45
y = 1.05x + 45
y = 1.05 × 800 + 45 = 885
n
X
yi = 200 × 885 = 177000
i=1
9
Probabilidad y Estadística 2. Medidas descriptivas: medidas de tendencia central
2.3 Moda
La moda es el valor (o valores) que tiene mayor frecuencia (que mas se repite).
Un conjunto de datos (univariado) puede tener mas de una moda. Si un conjunto de datos tiene 2 modas
entonces se dice que ese conjunto de datos es bimodal.
En general, si un conjunto de datos tiene mas de 2 modas se dice que los datos son multimodales.
Sin embargo, caso un conjunto de datos no tenga un valor modal se dice que ese conjunto de datos no
tiene moda.
Notación: La moda es denotad denotada por
Mo ≡ moda
Ejemplo 2.9.
El número de cafeterías Starbucks en 18 ciudades a no más de 20 millas de la Universidad de California,
en Riverside, se muestra en la tabla siguiente ([Link]).
16 7 2 6 4
1 7 1 1 1
3 2 11 1
5 1 4 12
El valor que tiene mayor frecuencia es 1 con una frecuencia absoluta de 6, luego la moda es 1.
10
Probabilidad y Estadística 2. Medidas descriptivas: medidas de tendencia central
x < Me < Mo
Asimétrica a la derecha
Mo < Me < x
0.0 0.2 0.4 0.6 0.8
Simétrica
x = Me = Mo
11
Probabilidad y Estadística 3. Medidas de posición relativa
1. cuartiles
2. deciles y 0 200
100
3. percentiles o centiles.
3.1 Cuartiles, Qj
Los datos pueden ser divididos en 4 partes iguales. Para dividirlos en 4 partes iguales se considera los
cuartiles. Existen 3 cuartiles así
2n
2o cuartil Q2 50 % de los datos son menores o iguales a Q2 4
3n
3o cuartil Q3 75 % de los datos son menores o iguales a Q3 4
La Figura 3.1 presenta de forma gráfica forma geométrica la proporción de los datos para los cuarti-
les.Nótese que en el valor máximo de la muestra se obtiene el 100 %.
12
Probabilidad y Estadística 3. Medidas de posición relativa
a) Si (j × n)/4 es un número entero entonces se tiene la posición (i) = (j × n)/4 entonces el j-ésimo
cuartil se calcula
x(i) + x(i+1)
Qj =
2 4 < 4.56 < 5
b) Si (j × n)/4 es un número decimal entonces se cumple (i − 1) < (j × n)/4 < (i) entonces el
j-ésimo cuartil se igual a
Qj = x(i)
Ejemplo 3.1.
Considerando los siguientes números 2, 5, 3, 6, 2 e 7. Calcular Calcular Q1 , Q2 y Q3 . Nótese que el
número de observaciones es n = 6.
Para el cálculo de los cuartiles los datos tienen que estar ordenados así
posición (i) 1o 2o 3o 4o 5o 6o
x(i) 2 2 3 5 6 7
Como j = 1 luego
1×n 1×6
= = 1.5
4 4
Luego se ubica
1×n
(i − 1) < < (i)
4
1 < 1.5 < 2
13
Probabilidad y Estadística 3. Medidas de posición relativa
3.2 Deciles, Dj
Los deciles dividen el conjunto de datos en 10 partes iguales
14
Probabilidad y Estadística 3. Medidas de posición relativa
Ejemplo 3.2.
Considerando los siguientes números 2, 5, 3, 6, 2 e 7. Calcular Calcular D1 , D6 y D5 . Nótese que el número
de observaciones es n = 6.
Para el cálculo de los deciles los datos tienen que estar ordenados así
posición (i) 1o 2o 3o 4o 5o 6o
x(i) 2 2 3 5 6 7
15
Probabilidad y Estadística 3. Medidas de posición relativa
3.3 Percentiles, Pj
Los percentiles dividen el conjunto de datos en 100 partes iguales. A fin de obtener los cuartiles se debe
de considerar el siguiente procedimiento
Ejemplo 3.3.
Considerando los siguientes números 2, 5, 3, 6, 2 e 7. Calcular P19 , D48 y D83 .
16
Probabilidad y Estadística 4. Medidas resumen: datos agrupados por intervalos
Ii mi fi Fi hi
[21; 31[ 26 189 189 0.034
[31; 41[ 36 1032 1221 0.186
[41; 51[ 46 2053 3274 0.37
[51; 61[ 56 1617 4891 0.291
[61; 71[ 66 564 5455 0.102
[71; 81] 76 95 5550 0.017
total 5550 1.000
Los datos están relacionado con las edades de los regidores de varias alcaldías en algún país. Nótese que
el número de intervalos es k = 6, la amplitud es Ai = 10 y el número de regidores considerados para la
construcción de la tabla es 5550.
17
Probabilidad y Estadística 4. Medidas resumen: datos agrupados por intervalos
Ejemplo 4.1.
Con la tabla de distribución de frecuencias de las edades de los regidores se calculará la media aritmética
de los regidores.
Ii mi fi fi × mi
[21; 31[ 26 189 4914
[31; 41[ 36 1032 37152
[41; 51[ 46 2053 94438
[51; 61[ 56 1617 90552
[61; 71[ 66 564 37224
[71; 81] 76 95 7220
total 5550 271500
18
Probabilidad y Estadística 4. Medidas resumen: datos agrupados por intervalos
4.2 Mediana
La mediana (Me) es definida como el valor tal que 50 % de las observaciones son menores y 50 % son
mayores que la mediana. La mediana para datos agrupados por clases o intervalos es dada por
!
0.5 × n − Fi−1
Me = Li + Ai ,
fi
en que
Li : limite inferior de la clase mediana, esto es, el intervalo en que la frecuencia absoluta acumulada
Fi es mayor o igual que el 50 % (0.5n) de los valores.
Ejemplo 4.2.
Considerando la tabla de frecuencias para las edades de los regidores, será calculado la mediana (Me)
Ii mi fi Fi Se calcula la mitad de los datos 0.5 × n = 0.5(5550) =
[21; 31[ 26 189 189 2775.
[31; 41[ 36 1032 1221 Se busca en la tabla de distribución de frecuencias en la
[41; 51[ 46 2053 3274 columna de las frecuencias acumuladas Fi el valor que
[51; 61[ 56 1617 4891 sea mayor o igual a 2775. La frecuencia acumulada que es
[61; 71[ 66 564 5455 mayor que 0.5× n = 2775 es la frecuencia acumulada F3 =
[71; 81] 76 95 5550 3274 que corresponde a la tercera clase, I3 . La tercera
total 5550 clase [41; 51[ es denominada clase mediana.
Seguidamente, el limite inferior, amplitud y frecuencia absoluta de la clase mediana son L3 = 41,
A3 = 10 y f3 = 2053, respectivamente.
La frecuencia acumulada de la clase anterior a la clase mediana es F2 = 1221, así la mediana es dada por
!
0.5 × n − F2
Me = L3 + A3
f3
2775 − 1221
= 41 + 10 ≈ 48.57 años
2053
El 50 % de las edades de los regidores están entre 21 y 48.57 años (aproximadamente).
19
Probabilidad y Estadística 4. Medidas resumen: datos agrupados por intervalos
4.3 Moda
La moda (Mo) es el valor (o valores) que tiene la mayor frecuencia absoluta fi entre los valores en la
muestra.
La moda cuando los datos están agrupados es dada por
" #
fi − fi−1
Mo = Li + A,
(fi − fi−1 ) + (fi − fi+1 ) i
en que
Li limite inferior de la clase modal, esto es, la clase de mayor frecuencia absoluta
41 = fi − fi−1
42 = fi − fi+1 ,
20
Probabilidad y Estadística 4. Medidas resumen: datos agrupados por intervalos
Ejemplo 4.3.
Cálculo de la moda para los datos de las edades de los regidores.
Ii mi fi Fi
[21; 31[ 26 189 189
[31; 41[ 36 1032 1221
La clase modal es [41; 51[, porque ese intervalo tiene la
[41; 51[ 46 2053 3274
mayor frecuencia absoluta, f3 = 2053.
[51; 61[ 56 1617 4891
Nótese que el límite inferior de la clase modal es L3 = 41.
[61; 71[ 66 564 5455
[71; 81] 76 95 5550
total 5550
21
Probabilidad y Estadística 5. Medidas de Posición Relativa: datos agrupados por intervalos
2n
2o cuartil Q2 50 % de los datos son menores o iguales a Q2 4
3n
3o cuartil Q3 75 % de los datos son menores o iguales a Q3 4
en que
Li limite inferior de la clase que contiene al j-ésimo cuartil, i.e., , el intervalo que su frecuencia
j×n
acumulada Fi es mayor o igual a 4 .
Fi−1 frecuencia acumulada de la clase anterior al intervalo que contiene al j-ésimo cuartil
22
Probabilidad y Estadística 5. Medidas de Posición Relativa: datos agrupados por intervalos
Ejemplo 5.1.
Será calculado el cuartil Q3 (j = 3) de la distribución de frecuencias de la edad de los regidores.
Ii mi fi Fi Se calcula
3 × n 3(5550)
= = 4162.5
[21; 31[ 26 189 189 4 4
[31; 41[ 36 1032 1221
[41; 51[ 46 2053 3274 Se busca en la tabla de distribución de frecuencias en la
[51; 61[ 56 1617 4891 columna de las frecuencias acumuladas Fi el valor que
[61; 71[ 66 564 5455 sea mayor o igual a 4162.5. Así, la frecuencia acumulada
[71; 81] 76 95 5550 que es mayor que 4162.5 es la frecuencia acumulada
F4 = 4891 que corresponde al cuarto intervalo (o clase),
total 5550 [51; 61[ (I4 ).
Luego, el limite inferior, amplitud e frecuencia absoluta de la cuarta clase es L4 = 51, A4 = 10 y
f4 = 1617, respectivamente. La frecuencia acumulada de la clase anterior a la 4o clase es F3 = 3274. Así,
Q3 es dado por
3×n
4 − F3
Q3 = L4 + A
f4 4
4162.5 − 3274
= 51 + 10 ≈ 56.49
1617
Interpretación: Se puede afirmar que el 75 % de las edades de los regidores son menores que 56.49 años
(aproximadamente).
23
Probabilidad y Estadística 5. Medidas de Posición Relativa: datos agrupados por intervalos
5.2 Deciles
Un decil Dj de una distribución de frecuencias por intervalos es dado por
j×n
− Fi−1
Dj = Li + 10 A ,
i j = 1, 2, 3, 4, 5, 6, 7, 8, 9
fi
en que
Li limite inferior de la clase que contiene al j-ésimo decil, esto es, el intervalo que contienen la
jn
frecuencia acumulada Fi es mayor o igual a 10 .
Fi−1 frecuencia acumulada de la clase anterior a la clase que contiene al j-ésimo decil
24
Probabilidad y Estadística 5. Medidas de Posición Relativa: datos agrupados por intervalos
Ejemplo 5.2.
Será calculado o segundo decil, D2 (j = 2) de la distribución de frecuencias de las edades de los regidores.
Ii mi fi Fi Se calcula
2 × n 2(5550)
= = 1110
[21; 31[ 26 189 189 10 10
[31; 41[ 36 1032 1221
[41; 51[ 46 2053 3274 Se busca en la tabla de distribución de frecuencias en la
[51; 61[ 56 1617 4891 columna de las frecuencias acumuladas Fi el valor que sea
[61; 71[ 66 564 5455 mayor o igual a 1110. Así, la frecuencia acumulada que
[71; 81] 76 95 5550 es mayor que 1110 es la frecuencia acumulada F2 = 1221
que corresponde al segundo intervalo (o clase), [31; 41[
total 5550 (I2 ).
Luego, el limite inferior, amplitud y frecuencia absoluta de la segunda clase son L2 = 31, A2 = 10 y
f2 = 1032, respectivamente.
La frecuencia acumulada de la clase anterior a la segunda clase es F1 = 189, así el decil D2 es dado por
2×n
10 − F1
D2 = L2 + A
f2 2
1110 − 189
= 31 + 10 ≈ 39.92
1032
Interpretación: Se puede afirmar que el 20 % de las edades de los regidores son menores que 39.92 años
(aproximadamente).
25
Probabilidad y Estadística 5. Medidas de Posición Relativa: datos agrupados por intervalos
5.3 Percentiles
Los percentiles dividen a la distribución de los datos en 100 partes iguales.
Un percentil Pj de una distribución de frecuencias por intervalos es dado por
j×n
− Fi−1
Pj = Li + 100 Ai , j = 1, 2, . . . , 99
fi
en que
Li limite inferior da clase que contiene al j-ésimo percentil, esto es, el intervalo que contienen la
j×n
frecuencia acumulada Fi es mayor o igual à 100 .
Fi−1 frecuencia acumulada de la clase anterior a la clase que contiene al j-ésimo percentil
Ejemplo 5.3.
Será calculado o segundo decil, P35 (j = 35) de la distribución de frecuencias de las edades de los
regidores.
Se calcula
Ii mi fi Fi
35 × n 35(5550)
[21; 31[ 26 189 189 = = 1942.5
100 100
[31; 41[ 36 1032 1221
[41; 51[ 46 2053 3274 Se busca en la tabla de distribución de frecuencias en la
[51; 61[ 56 1617 4891 columna de las frecuencias acumuladas Fi el valor que
[61; 71[ 66 564 5455 sea mayor o igual a 1942.5. Así, la frecuencia acumulada
[71; 81] 76 95 5550 que es mayor que 1942.5 es la frecuencia acumulada
total 5550 F2 = 3274 que corresponde al tercer intervalo (o clase),
[41; 51[ (I3 ).
Luego, el limite inferior, amplitud y frecuencia absoluta de la tercera clase son L3 = 41, A3 = 10 y
f3 = 2053, respectivamente.
La frecuencia acumulada de la clase anterior a la segunda clase es F2 = 1221, así el percentil P35 es dado
por
35×n
100 − F2
P35 = L3 + A3
f3
1942.5 − 1221
= 41 + 10 ≈ 44.51
2053
Interpretación: Se puede afirmar que el 35 % de las edades de los regidores son menores que 44.51 años.
26
Probabilidad y Estadística 5. Medidas de Posición Relativa: datos agrupados por intervalos
Ejercicio: Encontrar:
Ii mi fi Fi hi Hi %hi
[ 26; 34 [ 30 1 1 0.022 0.022 2.2
[ 34; 42 [ 38 2 3 0.044 0.066 4.4
[ 42; 50 [ 46 4 7 0.098 0.155 8.9
[ 50; 58 ] 54 10 17 0.222 0.377 22.2
[ 58; 66 ] 62 16 33 0.356 0.733 35.6
[ 66; 74 ] 70 8 41 0.178 0.911 17.8
[ 74; 82 ] 78 4 45 0.089 1.000 8.9
total 45 1.00 100
27