CAPÍTULO 3
Análisis de medidas de variabilidad y otras medidas.
3.1 medidas de variabilidad
3.2 Transformación Z
3.3 medidas de asimetría y apuntamiento
3.4 Ejercicios propuestos
3.1 Medidas de variabilidad
Las medidas de tendencia central: media aritmética, mediana y moda, se revelan en
ocasiones muy insuficientes para caracterizar un conjunto de datos. La demanda promedio
por hora de un servicio de emergencia en un hospital, que podría situarse en 8 pacientes, es
un indicador inadecuado de los recursos necesarios para prestarlo puesto que, en una hora
específica, podrían estar requiriendo el servicio uno o dos pacientes o, en el otro extremo,
quince o veinticinco.
Se hace pues necesario disponer de otros indicadores que reflejen la dispersión de los datos
y que refuercen el análisis cuantitativo de la distribución. Estos descriptores son llamados
―medidas de dispersión o de variabilidad‖.
Desvío respecto de la Insistiendo con la necesidad de obtener medidas de dispersión
media
analicemos la siguiente situación extrema pero elocuente.
Ejemplo 3.1
La diferencia entre una Calcular la media aritmética, la mediana y la moda para cada una de
observación y su las dos muestras a continuación. Analizar comparativamente.
respectivo valor Muestra A: 15, 20, 25, 25, 25, 30, 35
Muestra B: 5, 10, 20, 25, 25, 40, 50
promedio es llamado
desvío. Estos valores Solución
pueden ser positivos o En la muestra A : X a = 25, Md = 25 y Mo = 25; y resulta que
negativos. En la muestra B : X b = 25, Md = 25 y Mo = 25.
( xi - x ) El caso es extremo, tal como se dijo, pero lo cierto es que estos
Obviamente, si dos resultados no son útiles para hacer distinciones entre las muestras.
muestras de valores
Al presentar los valores como puntos en una línea recta, notamos
sin embargo que si hay diferencias en las distribuciones.
tienen una misma ●
media aritmética; se ●
asociará mayor ● ● ● ● ●
0 10 20 ∆ 30 40 50
dispersión de los datos
muestra A
a aquella muestra que
presente los mayores ●
desvíos. ● ● ● ● ● ●
0 10 20 ∆ 30 40 50
muestra B
El análisis de las desviaciones de todas las observaciones, respecto
de su propia media aritmética: (xi - x ) permite obtener, como
veremos luego, las medidas de variabilidad más usuales en el
Complete la prueba de análisis descriptivo de datos.
n En el ejemplo que se discute, es claro que la muestra B tiene los
que ( xi x ) 0 mayores desvíos, por lo que debemos concluir que la muestra B
i 1
presenta la mayor dispersión.
La suma de todos los desvíos, sin embargo, se anula; como vemos
n en el siguiente ejemplo.
( xi x ) Ejemplo 3.2
i 1 Dada la serie de valores de la muestra B: 5, 10, 20, 25, 25, 40, 50
n n
compruebe que la suma de todas las desviaciones respecto de la
i 1
xi x
i 1
media es igual a cero.
n Solución
xi nx
i 1
( xi x ) = (5 – 25)+(10 – 25)+(20 – 25)+(25 – 25)+(25 – 25)+
(40 –25)+(50 – 25)
= (-20)+(-15)+(-5)+(0)+(0)+(15)+(25) = 0
En la búsqueda de medidas de dispersión este resultado no es útil.
Por ello es que se utiliza ―la suma de los cuadrados de todas las
desviaciones‖.
El rango o recorrido de la variable no es más que: la diferencia
entre el mayor valor observado menos el menor valor observado.
R=M–m
Es, por supuesto, la medida más gruesa de variabilidad; sin
embargo, se entendería que si un conjunto de datos tiene un
RANGO O recorrido muy pequeño, sus valores se encontrarán más
RECORRIDO concentrados alrededor de su media.
En el ejemplo 3.1 el recorrido de la muestra A es R = 35 – 15 = 20,
en tanto que la muestra B tiene rango R = 50 – 5 = 45. Dado que
ambas muestras tienen la misma media y el mismo número de
datos, la comparación de los recorridos es un claro indicador de la
mayor concentración de los datos en la muestra A.
La varianza de un conjunto de valores{x1, x2, x3,...xn} se define
VARIANZA como: la suma de todos los cuadrados de los desvíos, dividida entre
(n –1). Se simboliza por S2.
Cuando la varianza es
n
poblacional se emplea
(x i x) 2
la letra griega 2
s2 i 1
(f 3.1)
n 1
(sigma cuadrado) para
simbolizarla.
La varianza no es una medida muy empleada en la Estadística
N Descriptiva. Una de las razones es que el término cuadrático
(x i x) 2
( xi - x )2, eleva también al cuadrado la unidad de medida de la
2 i 1
variable. Así por ejemplo, si la variable corresponde a estaturas en
N
metros de un grupo de individuos, la varianza queda expresada en
m2. Una unidad muy difícil de manejar y asociar con las medidas de
A la varianza calculada
tendencia central.
2
en la muestra: S , se le
suele llamar Cuasi- Sin embargo, la utilidad de la varianza se hace evidente en la
varianza. Estadística Inferencial: para criticar la bondad de algunos
estimadores de parámetros, probar hipótesis sobre la varianza de
una población y en el análisis de varianza; una técnica que sirve
para probar la igualdad de medias en tres o más poblaciones. Estos
temas no serán tratados en estos apuntes.
La estimación de parámetros, tema de la inferencia estadística,
justifica el hecho de que en la fórmula de la varianza se divida entre
(n – 1) y no entre n. Tiene que ver con un estadístico llamado
―grados de libertad‖, pero no se ahondará más sobre esto.
En defecto de la varianza, la medida de dispersión más empleada en
el análisis descriptivo es la ―raíz cuadrada de la varianza‖.
DESVIACIÓN La desviación estándar, también llamada desviación típica, se
ESTÁNDAR define como la raíz cuadrada de la varianza.
Ventajas de la (x i x)2
s i 1
(f 3.2)
desviación estándar n 1
1. Se utilizan todos
los datos para suMientras más grandes son los desvíos entre cada xi y x más elevado
es el valor de la desviación estándar, y es este sentido que se
cálculo.
considera una medida de variabilidad.
2. Guarda las mismas Una fórmula alternativa de cálculo se obtiene al desarrollar
unidades de la algebraicamente el radicando de (f 3.2). Considérese que las sumas
variable de van desde i = 1 hasta n.
estudio.
( x ) 2
3. Permite comparar
x 2
n
distribuciones que s (f 3,3)
n 1
tienen medias
iguales o muy Ejemplo 3.3
parecidas Dada la muestra 3, 8, 5, 7, 8, 10, 13, 7, 5, 9, calcular la varianza y la
desviación estándar empleando las fórmulas (f 3.2) y (f 3.3).
Desventajas de la Solución
desviación estándar
Un cuadro como el siguiente es útil para los cálculos.
x 3 5 5 7 7 8 8 9 10 13 75
En las distribuciones (x - x) -4.5 -2.5 -2.5 -0.5 -0.5 0.5 0.5 1.5 2.5 5.5 0
(x - x )2 20.25 6.25 6.25 0.25 0.25 0.25 0.25 2.25 6.25 3 0.25 72.5
asimétricas se ve muy
x2 9 25 25 49 49 64 64 81 100 169 635
afectada por los valores
extremos, por lo que se n
debe tener especial
(x i x) 2
s2 i 1
= 72.5/9 = 8.0556 S = 8.0556 = 2.838
cuidado al momento de n 1
interpretarla.
( x ) 2
(75) 2
x2 n =
635
10 = 8.0556 S = 2.838
Propiedades de la s2
n 1 9
desviación estándar
Los resultados son los mismos.
Considérese la muestra CÁLCULO CON DATOS AGRUPADOS
{x1, x2, x3,...xn} con Las fórmulas equivalentes para la desviación estándar emplean xi :
desviación estándar S. marca de clase de la clase i; f i : frecuencia absoluta de la clase i.
n
1. Si a cada elemento (x i x)2 fi
de la muestra se le s i 1
(f 3.4)
n 1
suma o resta una
misma cantidad b, la La expresión desarrollada es:
desviación permanece
inalterable. ( xi f i ) 2
x fi
2
Sb = S i
n
s (f 3.5)
2. Si cada elemento de n 1
la muestra se multiplica
Ejemplo 3.4
por una misma cantidad
El cuadro de abajo se refiere al peso en libras de 36 hombres
a la desviación queda adultos. Incluye las columnas para calcular la desviación estándar
multiplicada por esa empleando la fórmula (f 3.5).
2
cantidad. clases x f xf x f
115<130 122.5 1 122.5 15006.25
Sa = aS
130<145 137.5 5 687.5 94531.25
145<160 152.5 11 1677.5 255818.75
160<175 167.5 13 2177.5 364731.25
175<190 182.5 4 730 133225
190<205 197.5 2 395 78012.5
36 5790 941325
Solución
( xi f i ) 2 (5790) 2
xi f i 941325
2
s n = 36 = 16.99
n 1 35
Teorema de La desviación estándar es de aproximadamente 17 libras.
Chevyshev
SIGNIFICADO Y PAPEL DE LA DESVIACIÓN ESTÁNDAR
Este teorema permite La media aritmética y la desviación estándar forman el par por
criticar, de manera excelencia en el análisis descriptivo de datos. En las distribuciones
aproximada, cualquier
cuyo polígono de frecuencias adopta una forma de campana y
donde la media, la mediana y la moda son el mismo valor (se
distribución de datos. conoce como distribución normal de probabilidad), la desviación
Establece que: si k es típica juega un papel muy importante al identificar ciertos
un número mayor que intervalos claves de la variable con porcentajes fijos de
observaciones.
1, entonces en el
intervalo Porcentaje de observaciones Intervalo de la variable
x ks, x ks se 68% x s, x s
encuentran, por lo
95% x 2s, x 2s
menos,
(1 – 1/k2)100% de las casi 100% x 3s, x 3s
observaciones.
Por ejemplo si k = 2, El estudio detallado de la distribución normal de probabilidad
entonces en el intervalo confirma lo expresado en el cuadro.
x 2s, x 2s Si la distribución es
se encuentran, por lo normal se esperaría
menos, 75% de las que el intervalo
contenga el 68% de
observaciones. Sin
las observaciones
importar la forma de la
distribución de la
variable.
También la desviación estándar tiene mucho que ver con la forma
de la distribución.
desviación grande desviación pequeña
Ejemplo 3.5
El promedio del coeficiente intelectual I.Q. de 400 estudiantes fue
calculado en 105 con desviación estándar de 6. Si los valores se
distribuyen siguiendo una curva normal analizar los intervalos
alrededor de la media.
Solución
x s, x s (99, 111) con (0.68) (400) = 272 valores. Indica que
272 estudiantes tienen un I.Q que se encuentra entre 99 y 111.
x 2s, x 2s (93, 117) con (0.95)(400) = 380 valores. Con
similar interpretación.
El teorema de Chevyshev es más conservador ya que para el
intervalo de 2 desviaciones estándar (93, 117) sitúa (0.75)(400) =
300 valores I.Q , al menos.
Expresa la razón que, la desviación estándar es de su propia
COEFICIENTE DE media. Usualmente se maneja en forma de porcentaje.
s
VARIACIÓN CV 100% en la muestra. (f 3.6)
x
Ventajas y
CV 100% en la población. (f 3.7)
desventajas del
coeficiente de Ya que es una medida sin dimensión, resulta útil para comparar
variación conjuntos de observaciones correspondientes a diferentes variables.
O, para conjuntos de datos diferentes de una misma variable.
1. facilita la Ejemplo 3.6
comparación por ser De la base de datos que está al final del capítulo 1, se han calculado
adimensional los valores de la media aritmética y la desviación estándar para las
variables edad en años y peso en libras del grupo de estudiantes.
[Link] es muy Edad: media 22.20 desviación 2.72
plausible su utilidad Peso : media 135.17 desviación 25.21
en forma aislada Calcular los respectivos coeficientes de variación y comparar.
3. No existe si la Solución
distribución tiene En la edad CV = (2.72/22.30)100% = 12.20%
media igual a cero. En el peso CV = (25.21/135.17)100% = 18.65%
Inicialmente la diferencia de las unidades imposibilitaba la
comparación de las variables en términos de dispersión o
variabilidad. Sin embargo ahora se puede apreciar que la
variabilidad es menor en las edades que en los pesos.
Dada la base de datos que se analiza (jóvenes recién egresados de
la secundaria), el resultado es bastante lógico: las edades son muy
similares, por lo que no era de esperarse mucha dispersión, en
cambio el peso está determinado por el régimen de dieta de cada
quien.
3.2 La variable estándar Z
Si nos dicen que nuestra nota en el examen final de Física está 10 puntos arriba de la
media, posiblemente nos consideremos satisfechos con nuestro rendimiento. Sin embargo,
no hay manera de conocer si ese desvío respecto de la media es importante o no. Para
saberlo debemos involucrar a la desviación estándar; si esta es de 5 puntos, entonces el
cociente 10/5 = 2 nos diría que nuestra nota se sitúa a 2 desviaciones estándar de la media.
Y Chevishev, aún con lo conservador, nos haría sentir un poco orgullosos. Una posición
muy diferente se ocuparía si la desviación fuera de 20 puntos y no de 5.
La variable estándar Z es una transformación que se realiza sobre la variable en estudio, y
se puede considerar como una medida relativa de variabilidad; aunque en la práctica se
interpreta como una medida de posición.
Es una transformación lineal muy importante que se realiza sobre
la variable X en estudio mediante la fórmula:
xx
Z (f 3.8)
s
Ejemplo 3.6
La variable Z es llamada también variable centrada reducida, por el
hecho de que su media es igual a cero y su desviación estándar es
COTA ESTÁNDAR igual a 1.
Z Solución
1 xx 1
En la población la Z ( ) = (x x) 0
n s ns
transformación Z se
expresa:
x x (x x)2
2
1 1 1
Z=
x S
2
z
n 1 s
0 = 2
s
n 1
2 s2 1
s
La cota estándar Z es sin dimensión y resulta importante como
medida de posición ya que permite ubicar a un individuo en
relación a su grupo.
Ejemplo 3.7
Roberto, estudiante de ingeniería civil, obtuvo una nota de 90 en su
examen final de Física; Claudia, su novia, estudiante de
administración de empresas, obtuvo 78 en Matemáticas. Si en física
x = 70, S = 10 y en matemáticas x =65 y S = 5. ¿Cuál de los dos es
relativamente más fuerte en relación a su grupo?
Solución
Roberto tiene cota Z Z = (90 – 70)/10 = 2
Claudia tiene cota Z Z = (78 – 65)/5 = 2.6
De acuerdo a la interpretación posicional, Claudia está mejor
situada dentro de su propio grupo.
3.3 Medidas de asimetría y apuntamiento.
Vimos en el capítulo 2, a nivel gráfico, que se presentaban dos tipos de asimetría en las
distribuciones de las variables. Asimetría negativa, a la izquierda, cuando la media es
menor que la moda; y asimetría positiva, a la derecha, cuando la moda es menor que la
media. Sin embargo no calculamos ninguna medida.
Sobre el apuntamiento o picudez de un gráfico, lo aplanado o pronunciado que pueda
presentarse, no se ha hecho hasta ahora ningún mención. Vamos a presentar a continuación
algunas de tales medidas.
COEFICIENTE DE Considere que {X1, X2,...Xn } es una muestra de medidas con
ASIMETRÍA media X y desviación Sx. Definimos el coeficiente de asimetría
como la media aritmética de los cubos de la variable estándar Z.
Karl Pearson, un
1 n 3
reconocido estadígrafo, CA Zi
n i
(f 3.9)
sugirió la siguiente
Cuando n es muy pequeño se puede corregir multiplicando por
expresión, que lleva su
n2
nombre. , de otra forma no es necesario.
(n 1)(n 2)
x Mo Nótese que la fórmula tiene sentido puesto que conserva tanto el
CP signo, como la distancia que separa cada valor Xi de su
s respectiva media.
Pero se considera menos
Si CA > 0 , se tiene asimetría a la derecha
precisa que Si CA < 0 , se tiene asimetría a la izquierda
(f 3.9) Si CA = 0 , la distribución es simétrica
COEFICIENTE DE Considere que {X1, X2,...Xn } es una muestra de medidas con
ELEVACIÓN O media X y desviación Sx. Definimos el coeficiente de Kurtosis
KURTOSIS como la media aritmética de las potencias cuarta de la variable
estándar Z.
1 n 4
K Zi - 3
n i
(f 3.9)
El coeficiente K se analiza comparándolo con la distribución
normal
Si K > 0, se considera que la curva es más pronunciada
que la normal. Se le llama leptocúrtica.
Si K < 0 , la curva es menos pronunciada que la normal.
Se le llama platicúrtica.
Si K = 0 , se considera normal y se le llama mesocúrtica
leptocúrtica
Cuando n es muy pequeño las correcciones que se sugieren son
más complejas que la fórmula misma pero, con las actuales
herramientas de cálculo, eso ya no es problema.
n 2 (n 1)
El primer sumando se multiplica por
(n 1)(n 2)(n 3)
(n 1) 2
mesocúrtica Y el segundo por
(n 2)(n 3)
Las correcciones establecen que la muestra debe tener al menos 4
datos.
Debido, posiblemente, a lo laborioso de los cálculos, estos
descriptores numéricos: coeficiente de asimetría y coeficiente de
curtosis, no han aparecido con mucha frecuencia en la literatura
estadística; sin embargo, actualmente, con la ayuda de los
paquetes estadísticos que analizan bases de datos su uso se ha
renovado.
Todas las medidas descriptivas para una variable que se han visto
hasta el momento, se consiguen con suma facilidad en el paquete
Excel de su computadora, proporcionando un conjunto completo
de estadísticos. De manera que nuestro esfuerzo deberá orientarse
más al análisis y la interpretación de las medidas.
EJERCICIOS PROPUESTOS
1. Calcular la desviación estándar de las siguientes series de datos
a) número de horas por semana que dedican al estudio 10 estudiantes de primer año de
una universidad. 2, 6, 7, 7, 8, 8, 9, 9,10, 16.
b) Edad en años cumplidos de los estudiantes de una clase de matemática.
Edad frecuencia
17 22
18 48
19 31
20 19
21 7
22 4
c) Resultados de una consulta sobre calidad de un servicio. Invierta el índice de clase
de mayor a menor y considérelo como una variable ordinal que pondera el servicio.
¿Tiene sentido calcular la media y la desviación estándar? ¿puede señalar cuál es la
opinión más divergente?
i clases fi
E: excelente
M: muy bueno 1 E 19
B: bueno 2 M 15
R: regular 3 B 9
P: pésimo 4 R 5
5 P 2
2. El resumen de 52 notas de un examen de Estadística Aplicada se da en el siguiente cuadro:
Nota mínima 3.9 Mediana 6.0
Nota máxima 9.5 moda 5.5
Primer cuartil 5.0 Tercer cuartil 7.6
Media aritmética 6.5 Desviación estándar 0.8
a) Elabore un gráfico apropiado que ilustre aproximadamente la distribución de notas.
b) ¿Existe asimetría positiva o negativa?
c) ¿Si la nota mínima de promoción es 6, ¿cuántos alumnos promovieron el examen?
d) Haciendo referencia a los descriptores numéricos, escriba brevemente un
comentario preciso sobre los resultados del examen.
3. Una firma de distribución al mayoreo de electrodomésticos desea analizar sus cuentas por
cobrar durante dos meses sucesivos (marzo y abril). Los resultados de dos muestras
independientes de 50 cuentas por cobrar, para cada uno de los meses, se dan en el cuadro
siguiente. Nota: las cantidades están dadas en miles de dólares.
Cantidad Marzo Abril
0—2 6 10
2—4 13 15
4—6 17 12
6—8 10 10
8—10 4 3
10—12 0 1
a) Argumente, haciendo uso de la Estadística Descriptiva, si la Distribución de las
cuentas por cobrar cambia de Marzo a Abril. (sugerencia: elabore gráficos
comparativos, compare medidas, etc.)
b) ¿Si el número total de cuentas por cobrar es 400, tanto en marzo como en abril,
Cuáles son los montos aproximados para cada mes, del total de cuentas por cobrar?
4. Las ventas diarias en dólares de un almacén durante 220 días del año
500 < 600 3
recién pasado, se resumen en el siguiente cuadro de distribución. 600 < 700 7
a) Elabore una ojiva ascendente para la distribución de las ventas. 700 < 800 14
b) Calcule la venta promedio y la desviación estándar 800 <900 28
c) ¿ Qué porcentaje de las ventas se encuentran en el intervalo: 900 < 1000 64
( x s, x s ) ? 1000< 1100 57
d) Aproximadamente, ¿Cuál es el monto total de las ventas? 1100< 1200 23
1200< 1300 13
1300< 1400 7
1400—1500 4
4. Las velocidades puntuales, en millas por hora, registradas en 200 vehículos pasando
por un punto de la carretera se dan en el siguiente cuadro.
a) Elabore un histograma para los datos. Clase Frecuencia
¿considera que la distribución puede ser 22-24 2
normal? 25-27 8
b) Calcule los porcentajes de observaciones en 28-30 18
los intervalos: x s ; x 2s ; x 3s y exprese 31-33 42
su conclusión sobre la normalidad. 34-36 48
. 37-39 40
xx 40-42 24
c) Utilice la transformación z y calcule
s 43-45 11
valores z cuando x = 30 y x = 40. ¿Cómo son 46-48 5
los valores 49-51 2
d) Exprese sus conclusiones sobre la distribución.
6. El gasto quincenal (en dólares) en alimentación durante un determinado mes, en 50
hogares de un barrio de la capital, son los siguientes:
95 171 202 178 147 102 153 197 127 82
157 185 90 116 172 111 148 213 130 165
141 149 206 175 123 128 144 168 109 167
95 163 150 154 130 143 187 166 139 149
108 119 183 151 114 135 191 137 129 158
Elabore un análisis descriptivo completo de la muestra incluyendo gráficos, medidas,
etc. Exprese sus conclusiones.
[Link] compañía quiere comparar la distribución de salarios pagados a sus trabajadores en
dos plantas A y B localizadas en diferentes ciudades. Los salarios por hora, en dólares, y
los números de trabajadores devengando esos salarios se dan a continuación:
Planta A Planta B
Salario Numero Salario Numero
1.80 40 1.90 24
2.10 20 2.09 10
3.25 16 3.40 29
4.70 20 4.55 15
6.50 14 5.80 6
Utilice las medidas de tendencia central y las medidas de variabilidad que considere mas
adecuadas para realizar un análisis comparativo de las distribuciones de los salarios en las
dos plantas.
8. Los resultados de un examen de Matemática I (escala. 0-100) de una muestra de 400
estudiantes tiene las siguientes características: menor nota 16, media aritmética 55, rango
84. Si se sabe que los resultados se distribuyen siguiendo una curva normal, determine:
a) Un valor aproximado para la desviación estándar.
b) Número de estudiantes con notas comprendidas entre 41 y 69
c) Número de estudiantes con notas comprendidas entre 69 y 83
d) Número de estudiantes con notas menores que 27
9. Utilice los datos del ejercicio número 5, y calcule el coeficiente de asimetría y el
coeficiente de kurtosis. Explique los resultados.
10. Considere que {X1, X2,...Xn }es una muestra de medidas con media X y desviación Sx.
Compruebe las siguientes propiedades de la desviación estándar.
a) Si Yi = Xi + b ,entonces Sy = Sx
b) Si Yi bX i , entonces Sy = b Sy
c) Si Yi = C, (una constante) entonces Sy = 0
11. El siguiente resumen obtenido mediante EXCEL se refiere a las sumas mensuales de
precipitación(en mm) durante el mes de septiembre(1942-2000) en la estación
meteorológica Santa Tecla. Utilice los descriptores numéricos para elaborar un resumen
técnico estadístico del comportamiento de la variable.
Media 372.5 Curtosis 2.89
Mediana 350 Coeficiente de asimetría 1.36
Moda 320 Rango 808
Desviación estándar 147.5 Mínimo 129
Primer cuartil 273 Máximo (1945) 937
Tercer cuartil 428 Número datos 59