Estadística General
Medidas de Variabilidad
ó de Dispersión
VARIABILIDAD
• Es la medida de las diferencias que presentan los datos entre si.
• Para medirla se aprovecha el hecho, de que si los datos son
semejantes entre si, están más cerca a la media aritmética,
entonces se dice que tienen poca variabilidad ó que son
homogéneos.
• Por el contrario si son muy diferentes entre si, estarán muy
dispersos respecto a la media aritmética y se dice de ellos que
son muy variables o que son heterogéneos.
• ES PREFERIBLE SIEMPRE QUE LOS DATOS
SEAN HOMOGÉNEOS Ó POCO VARIABLES!
Las medidas de variabilidad o de dispersión son
aquellas que miden el grado de separación de
los datos con respecto a un valor central.
las principales medidas de dispersión son:
EL RANGO (R)
EL RANGO INTERCUARTILICO (RIQ)
LA VARIANZA [ V(X) ó S2(X) ]
LA DESVIACION ESTANDAR [S(X)]
COEFICIENTE DE VARIACION [ CV(X) ]
EL RANGO (R)
El Rango de variación o recorrido de una serie de
datos, esta representado por la diferencia
entre sus valores máximo y mínimo, resultando
ser la medida de variabilidad más sencilla, pero
es la menos confiable, ya que sólo usa dos
datos para su cálculo.
R = Xmáx – Xmín
donde:
Xmáx : valor máximo
Xmín : valor mínimo
EL RANGO INTERCUARTÍLICO (RIQ)
Es la diferencia entre el tercer cuartil y el primer
Cuartil.
RIQ = Q3 – Q1
El Rango Intercuartílico es una medida que excluye
el 25% más alto y el 25% más bajo, dando un rango
que contiene al 50% central de los datos, lo cual
elimina el efecto causado por los valores extremos.
Si el rango intercuartílico es muy pequeño entonces
indica alta uniformidad ó pequeña variación de los
valores centrales.
EL RANGO INTERPERCENTÍLICO (RIP)
Es una medida que se calcula en base a la
diferencia de los percentiles respectivos.
Por ejemplo si queremos calcular el Rango
interpercentílico del 80% de datos centrales
tendremos que:
RIP80 = P90 – P10 llamado tambien rango interdecílico
Si se desea hallar el Rango interpercentílico del
90% de datos centrales, tendremos que:
RIP90 = P95 – P5
VARIANZA
• La varianza ó variancia es una medida de
variabilidad absoluta, que se expresa en
unidades al cuadrado y que utiliza todos los
datos para su cálculo (el cual se basa en las
diferencias entre el valor de las observaciones y
su media).
• Se defina como el promedio de las desviaciones,
elevadas al cuadrado, de cada uno de los datos
con respecto al promedio (media aritmética)
Cálculo de la VARIANZA
a) Datos no agrupados:
∑( X )
n 2 n
i − X ∑X 2
i
2
S =
2 i =1
= i =1
−X
n n
Xi : i-ésima observación
n : número de datos
X : media aritmética
Cálculo de la VARIANZA
b) Datos agrupados:
∑( )
k 2 k
Xi − X fi ∑ if
X 2
2
S =
2 i =1
= i =1
−X
n n
Xi : marca de clase ó valor de la variable en estudio
fi : frecuencia absoluta
k : número de intervalos ó filas de la tabla según sea el caso
X : Promedio de los datos
La Desviación Estándar
Como la varianza es una medida que resulta en unidades
al cuadrado (por ejemplo: si los datos están expresados
en metros,la varianza resulta en metros cuadrados);
esto trae dificultades para su interpretación .
Es por ello que surge la necesidad de una medida que
tenga unidades reales: la Desviación Estándar,definida
como la raíz cuadrada (positiva) de la varianza:
Desviación Estándar : s= s 2
Interpretación
El valor numérico de la varianza y la desviación
estándar cuantifican el grado de dispersión
absoluta de los datos de la variable en estudio,
con respecto a su media aritmétia, la primera en
unidades al cuadrado y la segunda en unidades
reales , es por ello que, en términos generales,
tendremos que:
“A mayor variabilidad o dispersión de
los datos le corresponde una mayor
varianza o una mayor desviación estándar”.
Ejemplo 1:
Hallar la varianza y desviación estándar de:
17, 19, 19, 19, 19, 18, 18, 20, 21, 19, 18, 17, 20, 20, 17
X X2 ∑ i
X 2
2
S =
2 i =1
−X n=15
17 289 n
281
19 361 n ∑ X = 281 x=
15
= 18.7333
19 361
∑ i
X 2
2 ∑X 2
= 5285
S =
2 i =1
−X
n 5285
. . S2 = − 318.7332 = 1.3956
15
. .
S = 1.3956 = 1.1813
∑x ∑x 2
•La dispersión absoluta de los datos
respecto a la media es 1.18
Ejemplo 2:
Hallar la varianza y desviación estándar para la siguiente
distribución de datos:
INTERVALOS Mi fi
[0 ,3 > 1.5 2
[3 ,6 > 4.5 3
[6 ,9 > 7.5 5
[9 , 12 > 10.5 4
[12 , 15 > 13.5 1
k 109.5
x= = 7.3
∑X i
2
f
2
15
S =
2 i =1
−X 969.75
n S2 = − 7.3 2 = 11.36
15
S = 11.36 = 3.3705
INTERVALOS Xi fi Xi f i X i2 f i
[ 0 – 3> 1.5 2 3 4.5
[ 3 – 6> 4.5 3 13.5 60.75
[ 6 – 9> 7.5 5 37.5 281.25
[ 9 – 12> 10.5 4 42 441
[ 12 – 15> 13.5 1 13.5 182.25
TOTAL n =15 109.5 969.75
Coeficiente de Variabilidad
Esta medida de dispersión es muy útil cuando
se quiere comparar el grado de dispersión
(homogeneidad o variabilidad) en dos ó más
conjuntos de datos que tienen un promedio
diferente y/o que tienen diferentes unidades
de medida.
En general consideraremos lo siguiente:
Si CV < 25% implica baja dispersión
Si CV > 50% implica alta dispersión
En otro caso se tiene dispersión moderada
Cálculo del coeficiente de variación
S
CV ( X ) =
X
S
CV ( X )% = (100)
X
Ejemplo 3:
Un administrador debe decidir la compra de una de dos máquinas,
tiene la siguiente información con respecto al tiempo diario que
requiere cada máquina para su mantenimiento.
Promedio Varianza
Máquina A 27 min 4.5 min2
Máquina B 35 min 5 min2
Utilizando la medida de variabilidad adecuada.¿Cuál de las dos máquinas tiene
menos variabilidad en cuanto al tiempo de mantenimiento?
Solución: Dado que la unidad de medida es la misma para ambos
grupos, pero las medias no son iguales, se debe
usar el coeficiente de variación para comparar:
CVA =
S A 4.5 CVB = SB = 5 = 0.06388
= 27
= 0.07856
X A XB 35 ó 6.39 %
ó 7.86 %
Entonces la máquina B tiene una distribución de tiempos menos variable.
Ejemplo 4:
El nivel de ventas promedio de un
establecimiento comercial es de 800 dólares
por día, con una desviación estándar de 45
dólares; en otro centro comercial la venta
promedio por día es de 270 dólares, con una
desviación estándar de 32 dólares. En cual
de estos establecimientos el nivel de ventas
por día es más homogéneo (¿en cual se tiene
menos dispersión en cuanto al nivel de
ventas?)
Ejemplo 5:
5
En la compañía A los obreros tienen un
jornal diario de 50 soles en promedio, con
una desviación estándar de 12 soles, en la
compañía B los obreros tienen un jornal
promedio de 37.5 dólares con una desviación
estándar de 5.63 dólares.
¿En cuál de estas dos empresas el jornal
diario de lo obreros es más homogéneo?
Justifique su respuesta.