Tercera parte
Medidas de tendencia central y de
variabilidad
Objetivos
Que deberían saber al terminar esta TERCERA PARTE:
Definir una serie de medidas (estadísticos descriptivos) que sinteticen la
información contenida en una distribución de frecuencias.
Identificar el punto alrededor del cual se centran los datos.
Comparar las diferentes medias y sus respectivas aplicaciones
Estudiar como se ven afectados los estadísticos a l transformar los datos
de una variable.
Cuantificar e interpretar el grado de dispersión de un conjunto de datos
alrededor del valor promedio o media.
Comparar la dispersión entre dos o más variables.
3.1 Medidas de posición
Este tipo de medidas indican un valor de la variable objeto de estudio en
torno al cual se sitúan un grupo de datos u observaciones.
Las podemos distinguir de la siguiente manera:
Medidas de Tendencia central: media aritmética, armónica, geométrica,
ponderada, mediana y moda
Medidas de tendencia no central : Aquí en este grupo encontramos los
cuantiles (deciles, cuartiles y percentiles)
Seguidamente abordaremos los principales detalles conceptuales y de
aplicación de las medidas referidas anteriormente
Medidas de tendencia central a partir de datos no agrupados
Media aritmética
N
Media Poblacional X 1 X 2 X 3 .... XN
Xi
i 1
N N
Media Muestral n
X 1 X 2 X 3 .... Xn
Xi
X i 1
n n
donde:
μ = media aritmética poblacional
x = media aritmética muestral
xi = dato i
n = número de datos en la muestra
N = número de datos en la población
Ejercicios
1. Se han tomado como muestra las medidas de seis conectores
usados en una máquina de suministro de aire, las cuales son; 15.2 cm,
15.0, 15.1, 15.2, 15.1 y 15.0, determine su media aritmética.
15.2 15.0 15.1 15.2 15.1 15.0
x 15.1
6
Por supuesto que se mantienen las unidades, es decir, 15.1 centímetros.
2. Se toman varias muestras de cierto tipo de queso y se determina la
cantidad de proteína por cada 100 gramos de queso, encontrándose lo
siguiente: 26.5 gramos, 24.8, 25.3, 30.5, 21.4, determine la cantidad
promedio de proteína encontrada en la muestra por cada 100 gramos de
queso que se elabora.
Solución:
_
26.5 24.8 25.3 30.5 21.4
x 25.7 grs
5
3. Si deseamos determinar la edad promedio de los estudiantes de una
escuela de nivel superior al iniciar sus estudios, suponga que se toman
las edades de algunos de los alumnos de cierta clase y estas son las
que siguen: 20, 18, 18, 19, 18, 19, 35, 20, 18, 18, 19.
Luego, la media se determinará con solo 10 de las edades ya que es
necesario descartar la edad de 35 años, que es un dato atípico o un
caso especial, por lo que;
_
20 18 18 19 18 19 20 18 18 19 187
x 18.7años
10 10
Nota: Cuando es necesario determinar aquellas medidas de tendencia central
que hagan uso de todos los datos de la muestra se recomienda descartar todos
aquellos datos atípicos que se encuentren en la muestra o muestras tomadas.
1. Media Ponderada
Para este caso las observaciones tienen un grado de ponderación o valor,
no ocurría así en la media aritmética donde todas las observaciones eran de
igual importancia o peso.
Xw
XW
W
X W es la media ponderada
X: es la observación individual
W: es el peso o ponderación asignada
Ejercicio
Para el curso de estadística se establece que el examen final valdrá el doble de
los otros exámenes, es decir que el examen final debe dársele el doble de
peso. Obtenga la media ponderada Xw si:
Nota (X) Peso (W) XW Si observan manejamos tres columnas
89 1 89 diferenciando claramente cual es X y
W y la 92 1 92 tercera columna XW me permite
79 1 79 reemplazar con más facilidad en la
94 2 188 fórmula
5 448 XW
W
Xw
XW
= 448/5 = 89.6
W
Ejercicio
El expendio de la “esquina” vende cinco tipos de cerveza:
Cerveza Utilidad por Volumen de
unidad ventas
Águila Imperial 2.0 3
Club Colombia 3.5 7
Heineken 5.0 15
Pilsener 7.5 12
Corona 6.0 15
Cuál es la utilidad promedio?
Ejercicio
A continuación se mencionan las materias que Luis Pérez llevó en el primer
semestre de Ingeniería Química, el número de créditos y la calificación
obtenida;
MATERIA NUMERO CREDITOS CALIFICACIÓN
Metodología de la investigación 8 90.5
Matemáticas I 10 100.0
Programación 8 81.0
Química 10 78.0
Dibujo 4 100.0
Economía 8 84.0
Determine la calificación promedio que obtuvo Luís Pérez en su primer
semestre.
La media Geométrica y sus aplicaciones
La media geométrica es útil para encontrar el promedio de porcentajes,
razones, índices o tasas de crecimiento. Se utiliza ampliamente en los negocios
y la economía, debido a que frecuentemente interesa determinar el cambio
porcentual en ventas, sueldos, o cifras económicas, como el producto nacional
bruto. La media geométrica de un conjunto de n números positivos se define
como la raiz n –ésima del producto de los n valores. Su formula es:
MG n x1 x 2 ...... x n
Donde:
G = media geométrica
xi = dato i
n = número de datos en la muestra
La media será siempre menor que o igual a la media aritmética.
Otra observación importante es que los datos deben ser positivos.
Pongamos un ejemplo optimista
Suponga que usted recibe un aumento de sueldo del 5% este año y recibirá
uno del 15% el año próximo.
El aumento porcentual promedio es de 10?
Verifiquemos con la media geométrica.
MG 2 1.05 1.15
MG = 1.0986
Para mirar el promedio porcentual
1.0986 -1.0 = 0.09886 = 9.886%
Aplicación 1 Las ganancias obtenidas por la constructora P&D en cuatro
proyectos recientes fueron de 3%, 2%, 4%, 6%.
¿Cuál es la media geométrica de la ganancia?
Compare con la media aritmética
Un segundo uso de la media geométrica es encontrar aumentos porcentuales
promedio en un intervalo de tiempo.
Suponga que se ganaron en nuestra constructora 30000 dólares el mes julio y
50000 en este mes. ¿Cuál es la tasa de aumento mensual.
LA EXPRESIÓN QUE UTILIZAMOS ES LA SIGUIENTE:
Valor al final del período
MG n 1
Valor al inicio del período
50000
MG 2 1
30000
Ejercicio
Supóngase que la población en el centro de la Guajira era de dos personas en
1990 y en el 2000era de 22. ¿Cuál es la tasa de aumento porcentual anual
promedio para el período?
Hay 10 años entre 1990 y 2000 por lo tanto n = 10
Media armónica (H)
La media armónica se define como el recíproco del promedio de los recíprocos
de cada uno de los datos que se tienen en la muestra, y se determina de la
siguiente manera:
1 n
H n
n
1 / n1 / xi 1 / xi
i 1 i 1
Ejercicio
Determine la media armónica de los siguientes datos, 3.1, 2.8, 2.84, 3.05, 3.09
Solución:
5
H
1 / 3.1 1 / 2.8 1 / 2.84 1 / 3.05 1 / 3.09
5 5
2.9703
0.3226 0.3571 0.3521 0.3279 0.3236 1.6833
Mediana (ó media posicional)
Queda en la mitad del conjunto de datos después de que se han colocado en
serie ordenada.
La mitad de las observaciones estará por encima de la mediana, la otra mitad
por debajo.
Número impar de observaciones n 1
Posición de la mediana = 2
xi xi 1
Me
2
Número par de observaciones Posición de la mediana = se
promedian los dos valores
medios
Cuando el número de datos en la muestra es impar.- En este caso después de
ordenar los datos de la muestra en cuanto a su magnitud, es decir de mayor a
menor valor o de menor a mayor valor, se procede a localizar aquel dato que
se encuentra justo en el centro de los datos o en la parte central de los
mismos, el valor de este dato será el que dé valor a la mediana.
Ejercicio
Los siguientes datos son las mediciones obtenidas de un circuito utilizado en
un arnés de lavadora; se toman como muestra siete circuitos y sus mediciones
son: 11.3, 11.2, 11.5, 11.2, 11.2, 11.4, 11.5 cm.
Ordenando los datos de menor a mayor valor;
11.2, 11.2, 11.2, 11.3, 11.4, 11.5, 11.5
Se observa que el dato 11.3 es el que queda en la parte central, por lo que este
es el que dará valor a la mediana; entonces,
xmed = 11.3 cm.
Cuando el número de datos en la muestra es par.- En este caso después de
ordenar los datos en cuanto a su magnitud, observamos que en la parte central
de los datos no se encuentra dato alguno, en este caso, la mediana tomará el
valor del promedio de dos datos; el que se encuentra antes de la parte central y
el que se encuentra después de la parte central.
Ejercicio
Los siguientes datos son las mediciones obtenidas de un circuito utilizado en
un arnés de lavadora; se toman como muestra ocho circuitos y sus mediciones
son: 11.3, 11.2, 11.5, 11.2, 11.2, 11.4, 11.5, 11.4 cm.
Ordenando los datos de mayor a menor valor,
11.5, 11.4, 11.4, 11.3, 11.2, 11.2, 11.2, 11,1 cm.
Se observa que en la parte central de los datos no hay dato alguno por lo que
la mediana se determina con el promedio de los datos subrayados, entonces,
11 .3 11 .2
Xmed 11 .25cm
2
Nota: Es imprescindible para calcular el valor de la mediana el que
primero se ordenen los datos en cuanto a su magnitud, ya que de no
hacerlo, se incurriría en un grave error.
Moda
La observación modal es la observación que ocurre con mayor frecuencia.
Ejercicio
Determine la moda de los datos que se muestran a continuación, se refieren a
la estatura de un grupo de jóvenes; 1.60m, 1.65, 1.70, 1.71, 1.70, 1.70, 1.70,
1.71, 1.70, 1.93, 1.87, 1.85
Estatura Frecuencia
1.60 1
1.65 1
1.70 5*
1.71 2
1.85 1
1.87 1
1.93 1
La tabla muestra la distribución de frecuencias de los datos o el número de
veces que estos se repiten, la mayor frecuencia que es 5 corresponde a una
estatura de 1.70m, por lo que esta sería la moda.
Luego, xmod = 1.70m
Determine la moda de los siguientes datos que se refieren a la edad de
alumnos de primer semestre del tecnológico de Chihuahua, 18 años, 17, 19,
21, 19, 18, 22, 22, 18, 18, 17, 19, 19, 19, 18, 20, 21, 20, 18, 19, 18, 19, 18,19,
22, 35
Edad Frecuencia
17 2
18 7*
19 8*
20 2
21 2
22 3
35 1
En este caso se observa que las edades que más frecuencia tienen son las de
18 y 19 años, por lo que se concluye que existen dos modas,
Xmod1= 18 años , Xmod2= 19años
Una distribución de datos puede ser amodal (carece de moda),
unimodal (tiene una sola moda), bimodal (tiene dos modas) o
polimodal (tiene más de dos modas).
Una comparación geométrica y empírica, de la media, mediana y moda
Una relación útil cuando se tienen frecuencias unimodales, que además tienen
un comportamiento asimétrico, es decir la distribución geométrica no es
uniforme, se tiene la siguiente construcción empírica:
Media moda 3 media mediana
Un patrón importante se construye cuando las frecuencias son simétricas ya
que en dicho caso la media, moda y mediana coinciden.
Medidas de dispersión (datos no agrupados)
Las medidas de dispersión miden que tanto se dispersan las observaciones
alrededor de su media
Varianza Poblacional
2
( x)
(x i )2
N
Desviación estándar poblacional (X )
2
=σ
Varianza muestral
s 2 ( x)
(x i x) 2
n 1
Desviación estándar muestral 2
s (X ) =s
Cuando se tiene una muestra de datos obtenida de una población
cualquiera, es importante determinar sus medidas de tendencia central
así como también es básico el determinar que tan dispersos están los
datos en la muestra, por lo que se hace necesario determinar su rango, la
varianza, la desviación estándar, etc., ya que una excesiva variabilidad o
dispersión en los datos indica la inestabilidad del proceso en análisis en
la mayoría de los casos.
Rango o recorrido. El rango es la diferencia entre el valor mayor y el valor
menor encontrados en la muestra, también se le denomina recorrido ya que
nos dice entre que valores hace su recorrido la variable de interés; y se
determina de la siguiente manera:
R = VM – Vm
Donde:
R = rango o recorrido
VM = valor mayor en la muestra
Vm = valor menor en la muestra
Ejercicio
1. Se han tomado como muestras las mediciones de la resistencia a la tensión
de la soldadura usada para unir dos cables, estas son: 78.5kg, 82.4, 87.3, 78.0,
90.0, 86.5, 77.9, 92.4, 75.9, determine su rango o recorrido.
:
VM = 92.4 kg
Vm = 75.9 kg
R = VM – Vm = 92.4 – 75.9 = 16.5 kg
Ejercicio
Se toman las mediciones de la cantidad de grasa de la leche en gramos por
cada 100 ml de leche que entra a un proceso de pasteurización, a continuación
se enumeran; 14.85, 15.32, 12.76, 16.29, 15.84, 17.3, 17.61, 16.33, determine
el rango o recorrido de la cantidad de grasa de la leche.
VM = 17.61
Vm = 12.76
R = 17.61 – 12.76 = 4.85gramos
_
Desviación absoluta media ( d ). Esta medida de dispersión nos representa la
diferencia absoluta promedio que existe entre cada dato que se encuentra en la
muestra y la media de los datos y se determina de la siguiente manera:
n _
_
i1
xi x
d
n
Donde:
xi = dato i
_
x = media aritmética de la muestra
n = número de datos en la muestra
Ejercicio
Determine la desviación absoluta media de los siguientes datos que son las
concentraciones de plomo de algunas muestras, las que a continuación se
enumeran: 18gr, 12, 21, 19, 16, 20, 22
Para determinar la desviación absoluta media o promedio, lo primero que hay
que hacer es calcular la media aritmética de los datos de la muestra, la que es
128/7 =18.286, luego se procede a calcular el promedio de las diferencias
absolutas entre cada dato y la media calculada.
_ 18 18.286 12 18.286 ..... 20 18.286 22 18.286
d
7
_
0.286 6.286 2.714 0.714 2.286 1.714 3.714 17.714
d 2.5305gr
7 7
La interpretación de este resultado sería que el grado de alejamiento absoluto
promedio de los datos con respecto a su media es de 2.5305 gramos.
¿Por qué sacar el valor absoluto de las diferencias entre cada dato y la media
aritmética? Si solo se hicieran diferencias entre cada dato y la media aritmética,
estas tendrían signos positivos y negativos ya que algunos datos son menores
que la media y otros son mayores que la media, luego al sumar las diferencias,
con sus signos correspondientes, éstas se irían anulando unas con otras y no
sería posible medir leal grado de alejamiento promedio de los datos en la
muestra.
Varianza o variancia (s2). Es el promedio de las diferencias elevadas al
cuadrado entre cada valor que se tiene en la muestra (x i) y la media aritmética (
_
x ) de los datos y se determina de la siguiente manera:
n
_
2
xi x
S2
i 1
n1
Donde n es el número de datos en la muestra.
Ejercicio
Los siguientes datos es la cantidad de glucosa en miligramos encontrada en
muestras de sangre de algunos pacientes, 14.2, 12.1, 15.6, 18.1, 14.3,
determine su varianza.
Lo primero que hay que calcular es la media aritmética de la muestra como ya
se ha hecho anteriormente.
14.2 12.1 15.6 18.1 14.3 74.3
x 14.86mg
5 5
2 2 2
( 14.2 14.86 ) ( 12.1 14.86 ) .... ( 14.3 14.86 )
s 2
5 1
0.4356 7.6176 0.5476 10.4976 0.3136 19.412 2
s2 4.853mg
4 4
Desviación estándar (s). Es la desviación o diferencia promedio que existe
entre cada dato de la muestra y la media aritmética de la muestra. Y se obtiene
a partir de la varianza, sacándole raíz cuadrada.
s s2
Donde:
s2= varianza o variancia
Por tanto la desviación estándar de la muestra anterior sería;
2
4.853mg 2.2029mg
s=
La interpretación de este resultado sería, que la cantidad de glucosa
encontrada en la muestra es en promedio de 14.86 miligramos y que la
cantidad de glucosa en la muestra se aleja o dispersa en promedio 1.9704 mg
alrededor de la media.
En este caso solo nos interesa conocer el significado de la desviación estándar,
aunque es necesario decir que s es la desviación de la muestra y que es la
desviación de la población, así como s 2 es la varianza de la muestra y 2 es la
varianza de la población.
Ejercicio
Se desea determinar la estabilidad del precio de una acción en particular.
Decide basar su juicio en la estabilidad de la desviación estándar del precio de
cierre diario de dicha acción. Al revisar las páginas financieras. Se sabe que la
acción ha sido transada en la bolsa durante algún tiempo y que hay muchos
precios de cierre desde hace varios meses. En lugar de utilizar todos estos
precios se decide simplificar su aritmética y seleccionar una muestra aleatoria
de n = 7 días y se nota que los precios de cierre son :
87, 120, 54, 92, 73, 80 y 63
Medidas de tendencia central y de dispersión para datos agrupados
El director de la división de análisis estadístico le pide recolectar y agrupar los
datos sobre el número de pasajeros que han decidido viajar por P&D. Tales
datos correspondientes a los últimos 50 días aparecen en la tabla anexa. Sin
embargo, con estos datos en bruto, es improbable que el director pueda
obtener información útil y significativa respecto de las operaciones de vuelo. Es
preciso agrupar y presentar los datos de manera concisa y reveladora para
facilitar el acceso a la información que contienen.
68 71 77 83 79 72 74 57 67 69
50 60 70 66 76 70 84 59 75 94
65 72 85 79 71 83 84 74 82 97
77 73 78 93 95 78 81 79 90 83
80 84 91 101 86 93 92 102 80 69
Si agrupamos los datos (teniendo en cuenta la ley de Sturges) me
quedan los siguientes intervalos:
Clase ni f N F Ci Xi nixi Xi2 ni Xi2
[50-60[ 3 3/50 3 3/50 10 54.5 163.5
[60-70[ 7 7/50 10 10/50 10 64.5 451
[70-80[ 18 18/50 28 28/50 10 74.5 1341
[80-90[ 12 12/50 40 40/50 10 84.5 1014
[90-100[ 8 8/50 48 48/50 10 94.5 756
[100-110] 2 2/50 50 50/50 10 104.5 209
50 1.00 3935
n i = número de datos (muestra) n x i i
Vamos a los cálculos de los estadísticos
1. Media aritmética
X
n x i i
n x
i i
Reemplazando los valores (mirar tabla) = 3935/50=
n n i
78.7
2. Mediana
Primero se debe hallar la clase de la mediana de la distribución de frecuencias.
La clase mediana es la clase cuya frecuencia acumulada es mayor que o igual
a n/2, donde n es el tamaño muestral = 50.
Ubiquemos entonces la clase con una frecuencia acumulada de 25 o más.
Volviendo a la tabla la tercera clase tiene una frecuencia acumulada de 28
Aquí n es el total de los datos (muestra)
n
2 Ni
Luego Mediana Lmd C
n md
50
2 10
reemplazando Med 70 10 78.33
18
Lmd = limite inferior de la clase de la mediana ------------ 70
Ni = frecuencia acumulada de la clase que antecede a la clase de la mediana ---- 10
nmd = frecuencia de la clase de la mediana ------ 18
C = es el intervalo de clase de la clase de la mediana -------- 10
3. Moda
Hallamos la clase con la mayor frecuencia (clase modal)
Da
Moda Lmo C
Db Da
Lmo = es el límite inferior de la clase modal -------------70
Da = es la diferencia entre la clase modal y la clase que le antecede ------ 18 - 7
Db = es la diferencia entre la clase modal y la clase que le sigue ----------- 18 - 12
C = es el intervalo de clase de la clase modal ------------------------ 10
Reemplazando
18 7
Moda 70 10 76.47
18 12 18 7
4. Varianza y desviación estándar
n x
2 2
nx
Varianza S 2
i i
este les queda como trabajo…. Les
n 1
debería dar 147.31 luego s = a la raiz cuadrada de la varianza =
12.14
Para contrastar los estadísticos con datos agrupados y no
agrupados…. Completen el ejercicio con datos no agrupados y
obtengan la media, mediana, moda, varianza y desviación estándar
Estadístico Datos no agrupados Datos agrupados
Media
Mediana
Moda
Varianza
Desviación estándar
Ejercicio
La veeduría distrital quiere evaluar el programa bandera de la Alcaldía del
Distrito “Bogotá sin hambre” en una localidad del centro.
El número de comidas diarias que suministran aparece en la siguiente tabla de
frecuencia
Número de Número
comidas por día de días
0–5 3
6 - 11 6
12 - 17 5
18 - 23 8
24 - 29 2
30 - 35 3
27
Respuestas para contrastar
Media = 16.5 comidas
Mediana = 17.4 comidas
Moda = 20 comidas
Varianza = 80.31
Desviación estándar = 8.96 comidas
Cuantiles
Estas otras medidas de dispersión pueden ser cuartiles, deciles o percentiles
Un conjunto de datos entonces tendrá:
3 cuartiles
9 deciles
99 percentiles
Ubicación de un percentil
Lp = (n + 1)(P/100)
Lp = es el sitio del percentil deseado en una serie ordenada
n = es el número de observaciones
P = Percentil deseado
Ejercicio
3 10 19 27 34 38 48 56 67 74
4 12 20 29 34 39 48 59 67 74
7 14 21 31 36 43 52 62 69 76
9 15 25 31 37 45 53 63 72 79
10 17 27 34 38 47 56 64 73 80
Obtenga
P25, P35, La mediana, tercer decil El rango o recorrido intercuartílico
(RIC = Q3 – Q1)
Diagrama de caja (Box plot)
Es un resumen gráfico de datos basado en un resumen de cinco números. Una clave
para construir un diagrama de caja es del cálculo de la mediana y los cuartiles Q1 y
Q3. También se usa el rango intercuartil (RIQ = Q3 – Q1).
Resumen de cinco números
1. Valor mínimo
2. Primer Cuartil (Q1)
3. Mediana = Q2
Tercer cuartil (Q3)
Valor máximo
Los diagramas de caja proporcionan información completa visual
sobre cómo se distribuyen los datos. Pueden ser de gran utilidad
como técnica de análisis exploratorio de datos.
En un simple gráfico se suministra información sobre la mediana (o
media), sobre el 50% y 90% de los datos, sobre la existencia de
empresas con ratios atípicos, así como de la simetría de la
distribución.
¿Cómo se dibuja un diagrama de caja?
Un diagrama de caja se construye como sigue:
1) Ordenar los datos de la muestra y obtener el valor mínimo, el máximo,
y los tres cuartiles Q1, Q2 y Q3.
2) Dibujar un rectángulo cuyos extremos son Q1 y Q3 e indicar la
posición de la mediana, Q2, mediante una línea.
3) Calcular con cualquiera de los procedimientos descritos anteriormente
unos límites admisibles superior e inferior, Li y Ls, que identifiquen a los
valores atípicos.
4) Considerar como valores atípicos los situados fuera del intervalo (Li,
Ls).
Ejercicio
El precio de un interruptor térmico en 10 comercios de electricidad de una
ciudad son : 25, 25, 26, 24, 30, 25, 29, 28, 26, y 27dólares. Hallar la media,
moda, mediana, diagrama de barras y el diagrama de caja.
[El diagrama de caja: caja desde Q 1 a Q3 (50% de los datos), bigotes el
recorrido]
Ejercicio
Ahora aborde usted la siguiente una situación:
Sueldos mensuales iniciales para una muestra de 12
egresados de una Escuela de Administración
Egresado Sueldo Egresado Sueldo
(dólares) (dólares)
1 2850 7 2890
2 2950 8 3130
3 3050 9 2940
4 2880 10 3325
5 2755 11 2920
6 2710 12 2880
1. Halle la media
2. Halle la mediana
3. Halle la moda
4. Halle la varianza
5. Halle la desviación estándar
6. Halle el coeficiente de variación , CV = (desviación estándar/media)x 100
7. Halle el percentil P25, P50, P75
8. Halle Q1, Q2, Q3
9. Halle el rango intercuartílico
10. Halle la mediana
11 Construya el diagrama de caja. Tenga en cuenta:
Se traza un rectángulo con los extremos en el primer y tercer cuartiles.
Q1 = 2857.5
Q3 = 3025
Este rectángulo contiene el 50% intermedio de los datos.
En la caja se traza una recta vertical en el lugar de la mediana (2905).
Así la mediana divide los datos en dos partes iguales.
Se ubican los límites mediante el RIQ. Los límites en el box plot están a
1.5 (RIQ) abajo de Q1 y a 1.5 (RIQ) arriba de Q3. Se considera que los
datos afuera de estos límites son valores atípicos.
Las líneas punteadas de la caja se llaman bigotes de la caja, que se
trazan desde los extremos de esta hasta los valores mínimo y máximo
dentro de los límites. Así los bigotes terminan en los valores de los
salarios 2710 y 3130.
Por último se marcan con un asterisco (*) las localizaciones de los
valores atípicos. Para nuestro caso 3325
o Presente el gráfico (Box Plot)
Medidas de dispersión relativa
Nos permiten comparar la dispersión de distintas distribuciones.
Coeficiente de variación de Pearson ( CVx )
Indica la relación existente entre la desviación típica (o desviación estándar) de
una muestra y su media.
Al dividir la desviación típica por la media se convierte en un valor sin unidad
de medida. Si comparamos la dispersión en varios conjuntos de observaciones
tendrá menor dispersión aquella que tenga menor coeficiente de variación.
El principal inconveniente, es que al ser un coeficiente inversamente
proporcional a la media aritmética, cuando está tome valores cercanos a cero,
el coeficiente tenderá a infinito.
Medidas de Forma
Comparan la forma que tiene la representación gráfica, bien sea el histograma
o el diagrama de barras de la distribución, con la distribución normal.
Medida de asimetría
Diremos que una distribución es simétrica cuando su mediana, su moda y su
media aritmética coinciden.
Diremos que una distribución es asimétrica a la derecha si las frecuencias
(absolutas o relativas) descienden más lentamente por la derecha que por la
izquierda.
Si las frecuencias descienden más lentamente por la izquierda que por la
derecha diremos que la distribución es asimétrica a la izquierda.
Para medir el nivel de asimetría se utiliza el llamado Coeficiente de Asimetría
de Fisher, que viene definido:
Los resultados pueden ser los siguientes:
g1 = 0 (distribución simétrica; existe la misma
concentración de valores a la derecha y a la
izquierda de la media)
g1 > 0 (distribución asimétrica positiva; existe mayor
concentración de valores a la derecha de la media
que a su izquierda)
g1 < 0 (distribución asimétrica negativa; existe
mayor concentración de valores a la izquierda de la
media que a su derecha)
Medida de apuntamiento o curtosis
Miden la mayor o menor cantidad de datos que se agrupan en torno a la moda.
Se definen 3 tipos de distribuciones según su grado de curtosis:
Distribución mesocúrtica: presenta un grado de concentración medio
alrededor de los valores centrales de la variable (el mismo que presenta una
distribución normal).
Distribución leptocúrtica: presenta un elevado grado de concentración
alrededor de los valores centrales de la variable.
Distribución platicúrtica: presenta un reducido grado de concentración
alrededor de los valores centrales de la variable.
El Coeficiente de Curtosis viene definido por la siguiente fórmula:
Los resultados pueden ser los siguientes:
g2 = 0 (distribución mesocúrtica).
g2 > 0 (distribución leptocúrtica).
g2 < 0 (distribución platicúrtica).