Rango, Varianza y Desviación Estándar
Rango, Varianza y Desviación Estándar
También conocido con el nombre de amplitud o recorrido, el rango se define como la diferencia que
existe entre el valor máximo y el valor mínimo de un conjunto de datos. Es la medida de dispersión más
fácil de calcular, y es especialmente útil en aquellas situaciones en que el objetivo de la investigación
sólo consiste en averiguar el alcance de las variaciones extremas.
Por ejemplo, el desempeño del precio de las acciones en el mercado bursátil se suele reconocer por
los rangos, al citar los precios máximos y mínimos de cada sesión. Es decir, la variación en el precio de una
acción puede medirse obteniendo el rango existente entre los dos valores más extremos y así interpretar
qué tanta volatilidad manifestó la acción en una jornada o periodo. Si se comparan dos acciones, se
puede interpretar que la acción que tiene mayor variación es aquella que tiene mayor rango.
Ejemplo 20
Una compañía de seguros desea conocer la variación que existe en las ventas de sus ocho vendedores
y de esa manera determinar la productividad de cada uno de ellos. Calcula el rango empleando la
siguiente información de seguros vendidos durante un mes: 8, 11, 5, 14, 11, 8, 11, 16.
Si se desea hallar el rango de tales observaciones sólo hay que identificar el valor máximo (16) y
el valor mínimo (5) y obtener la diferencia entre ellos.
Rango = Valor máximo – Valor mínimo = 16 – 5 = 11
El rango es 11, lo cual quiere decir que la diferencia entre el número de seguros vendidos por dos
vendedores distintos, el mejor vendedor y el peor vendedor, es de 11, indicando una gran dispersión
o variabilidad, ya que sería ilógico que si un vendedor logra vender 16 seguros, el otro sólo venda 5 si
se trata de los mismos seguros. Lo anterior puede atribuirse a la experiencia, a la capacitación o a la
cartera de clientes que cada vendedor tiene.
Ejemplo 21
6 400
Máximo
6 200
6 233.29
6 000
5 800
5 600
5 400
Mínimo
5 200
5 081.92
5 000
Septiembre 2001
Figura 3.6. Bolsa Mexicana de Valores en septiembre de 2001.
6 200
Máximo
6 000 5 808.22
5 800
IPC
5 600
Mínimo
5 400
5 361.8
5 200
5 000
4 800
Octubre 2001
Figura 3.7. Bolsa Mexicana de Valores en octubre de 2001.
Si se desea conocer en cuál de los dos meses se presentó mayor volatilidad en el mercado de
valores encontramos los rangos del IPC en cada uno de ellos:
Rango en septiembre 2001 = 6 233.29 – 5 081.92 = 1 151.37
Rango en octubre 2001 = 5 808.22 – 5 361.8 = 446.42
Se puede decir que en el mes de septiembre de 2001, la Bolsa Mexicana de Valores registró
mayor volatilidad que en el mes de octubre, pues su rango de 1 151.37 fue superior al observado
durante el mes de octubre de 446.42.
Este resultado también puede apreciarse de manera visual en las figuras 3.6. y 3.7., donde los
rangos se representan por el diferencial existente entre el nivel máximo y el nivel mínimo del IPC.
En el mes de septiembre se observa un rango mucho más ancho que el del mes de octubre, el cual se
atribuyó al nerviosismo generado por los ataques terroristas del día 11 de septiembre en el Pentágono
y en el World Trade Center de Nueva York.
La principal ventaja del rango radica en que es la medida de dispersión más fácil de obtener, pues
únicamente se toman los dos valores extremos y se diferencian entre sí. Además, al medirse la amplitud
entre los dos valores más extremos en una serie de datos, esta medida de dispersión suele ser muy
útil cuando se desea conocer qué tan extremos son los límites máximos y mínimos de una variable;
por ejemplo, las temperaturas de ciertas ciudades del país o la ganancia de las casas de cambio que se
obtienen diferenciando los precios de compra y los precios de venta para cada divisa.
Sin embargo, el hecho de que se tomen en cuenta únicamente los dos valores más extremos
de un conjunto de datos, el rango puede ser una medida de dispersión que resulta afectada ante la
presencia de datos atípicos.
a) La amplitud entre el valor más grande y el valor más pequeño de la serie de datos.
b) La suma del valor más grande y el valor más pequeño de la serie de datos.
c) La diferencia entre los valores extremos y el valor central de la serie de datos.
d) La diferencia entre los valores centrales de la serie de datos.
a) 5
b) 4
c) 2
d) 6
5. El departamento de crédito y cobranza de una empresa quiere conocer la variación que existe
en una muestra de 15 datos, correspondientes a los próximos cobros (en pesos) que debe hacer.
Calcula el rango para los datos siguientes:
Es una medida de variabilidad que toma en cuenta la dispersión que los valores de los datos
tienen respecto a su media. Es decir, aquellos conjuntos de datos que tengan valores más
alejados de la media, sea muestral o poblacional, tendrán una mayor varianza. Su resultado se
expresa en unidades al cuadrado.
Existen dos símbolos para representar la varianza (σ 2 y S2). La S2 se refiere a un estadístico, es
decir, a la varianza de una muestra; mientras que σ 2 se refiere a un parámetro, es decir, a la varianza
de una población. A la S2se le conoce como la varianza muestral mientras que a σ2 se le conoce como
la varianza poblacional.
La manera de obtener la varianza de un conjunto de datos depende de la forma como se
encuentren organizados los datos, ya sea que estén agrupados o no agrupados, así como del tipo de
información con la que se trabaje, ya sea que provenga de una muestra o de una población.
Cuando tenemos una variable cuya serie de datos no se encuentra agrupada, X1, X 2 , X 3,…, X n , la
varianza poblacional se calcula mediante la siguiente fórmula:
∑( X - µ )2
V (X) = σ 2 =
N
Donde:
S(X i – µ)2= Suma de los cuadrados de las desviaciones del valor de cada dato de la serie
respecto a la media poblacional.
Xi = El valor de cada dato de la serie.
µ = La media poblacional.
N = Tamaño de la población.
Es decir, la varianza de una población para datos no agrupados es el promedio del cuadrado de
las desviaciones respecto a su media µ.
Cuando tenemos una variable cuya serie de datos no se encuentra agrupada, X1, X2, X3,…, Xn, la
varianza muestral se calcula mediante la siguiente fórmula:
Σ( X - X )2
S2 =
n -1
Donde:
Σ(X i - X)2 = Suma de los cuadrados de las desviaciones del valor de cada dato de la serie
respecto a la media muestral.
Xi = El valor de cada dato de la serie.
X = La media muestral.
N = Tamaño de la muestra.
A diferencia de lo que ocurre con otras fórmulas, la varianza de una muestra no equivale
exactamente, en términos de cálculo, a la varianza de una población. El denominador de la fórmula
de la varianza poblacional es el total de la población N, mientras que en la varianza muestral se
incluye un factor de corrección n – 1.
2. Obtén cada una de las desviaciones respecto a la media, es decir, a cada uno de los
datos X1, X 2 ,..., X n se le resta la media obtenida en el paso anterior para quedar los
siguientes valores:
3. Eleva al cuadrado cada una de las desviaciones obtenidas en el paso anterior y súma las
entre sí, para obtener la suma del cuadrado de las desviaciones:
4. La suma del cuadrado de las desviaciones respecto a su media se divide entre N, en caso de
una población; o entre n – 1, en caso de una muestra.
Tanto para una población como para una muestra, la fórmula de la varianza puede ser transformada
en las siguientes expresiones, las cuales son conocidas como el método corto de la varianza:
∑ X 2i
Varianza poblacional V(X) = σ 2 = - µ2
N
2
∑ X 2i - n X
Varianza muestral S2 =
n -1
Estas fórmulas tienen la ventaja de simplificar las operaciones que se deben realizar cuando
se calcula la varianza, sea poblacional o muestral. Cabe señalar que las fórmulas establecidas por el
método corto nos conducen al mismo resultado que si se hubieran empleado las fórmulas anteriores,
siempre y cuando no se hayan omitido algunos dígitos en las distintas operaciones. La conveniencia
de utilizar una u otra fórmula queda sujeta a la libre elección del lector, según la comodidad que le
produzca cada una de ellas para realizar las operaciones.
Ejemplo 22
Emplea los datos de las ventas de seguros del ejemplo 20 y calcula la varianza, suponiendo que los
datos constituyen la población total de los agentes de seguro de la compañía.
Se tiene que la media es:
∑ X (8 + 11 + 5 + 14 + 11 + 8 + 11 + 16 ) 84
µ= = = = 10.5
N 8 8
X (X – µ) (X – µ)2
8 –2.5 6.25
11 0.5 0.25
5 –5.5 30.25
14 3.5 12.25
11 0.5 0.25
8 –2.5 6.25
11 0.5 0.25
16 5.5 30.25
Σ 0 86
Tabla 3.20. Desviaciones de la venta de seguros.
Σ( X i - µ )2 86
V(X) = σ 2 = = = 10.75
N 8
Puede apreciarse que la varianza es de 10.75. Sin embargo, esta medida de variación no tiene
un significado práctico debido a que el resultado obtenido está expresado en términos cuadrados, es
decir, la variabilidad de seguros vendidos es de 10.75 seguros cuadrados.
Por esa razón, la varianza sólo tiene sentido lógico cuando comparamos diferentes conjuntos de
datos con la misma unidad de medida, es decir, su interpretación es una medida relativa en el sentido
de que aquel conjunto que tenga la mayor varianza será el de mayor grado de dispersión.
Por otra parte, si el lector hubiera optado por el método corto para estimar la varianza
poblacional, el resultado hubiera sido el mismo. Para ello debemos estimar ΣXi2 y µ2:
µ2 = 10.52 = 110.25
∑ X 2i 968
V(X) = σ 2 = = µ2 = = -110.25 = 121 - 110.25 = 10.75
N 8
Si se compara este resultado mediante el método corto con el primer método, se puede apreciar
que los resultados no fueron distintos.
Ejemplo 23
En las tablas 3.21 y 3.22 se exponen las cotizaciones mensuales del tipo de cambio entre el peso
mexicano y el dólar estadounidense para los años de 1995 y 2000. Observa cuidadosamente la
información contenida en cada tabla.
a) Realizando una inspección visual, ¿en cuál de los dos años se observa una mayor estabilidad
en el tipo de cambio?
Se observa que los valores del tipo de cambio en el año de 1995 se encuentran muy dispersos
entre sí, lo que indica una gran variabilidad o inestabilidad en el mercado cambiario. En contraste,
en el año 2000 se puede observar que los valores de la divisa estadounidense se encuentran poco
dispersos por lo que se esperaría que la varianza en este año sea menor a la de 1995.
Como los datos no se encuentran organizados mediante tablas de frecuencias, procedemos a encontrar
la varianza muestral para datos no agrupados, obteniendo en primer lugar sus medias respectivas:
Procedemos a encontrar la suma del cuadrado de las desviaciones del tipo de cambio respecto a
la media, de acuerdo con las siguientes tablas:
Mes (X – X ) (X – X )2 Mes (X – X ) (X – X )2
Enero –0.79 0.6241 Enero 0.03 0.0009
Febrero –0.65 0.4225 Febrero 0 0
Marzo 0.33 0.1089 Marzo –0.15 0.0225
Abril –0.70 0.49 Abril –0.07 0.0049
Mayo –0.31 0.0961 Mayo 0.06 0.0036
Junio –0.18 0.0324 Junio 0.35 0.1225
Julio –0.40 0.16 Julio 0.02 0.0004
Agosto –0.17 0.0289 Agosto –0.16 0.0256
Septiembre –0.07 0.0049 Septiembre –0.11 0.0121
Octubre 0.69 0.4761 Octubre 0.07 0.0049
Noviembre 1.17 1.3689 Noviembre 0.07 0.0049
Diciembre 1.16 1.3456 Diciembre 0 0
Suma 5.1584 Suma 0.2023
Tabla 3.23. Desviaciones del tipo Tabla 3.24. Desviaciones del tipo
de cambio en el año 1995. de cambio en el en el año 2000.
Σ( X i - X )2 5.1584
Para el año de 1995 S2 = = = 0.4689 pesos al cuadrado
n -1 11
Σ( X i - X )2 0.2023
Para el año 2000 S2 = = = 0.0183 pesos al cuadrado
n -1 11
Si bien los pesos al cuadrado continúan siendo una idea abstracta, ambas varianzas tienen sentido
lógico cuando son comparadas entre sí, pues se encuentran expresadas en la misma unidad de medida. En
este caso, el tipo de cambio en el año de 1995 tiene una mayor dispersión que el observado en el año 2000,
tal como lo señalan ambas varianzas y tal como lo apreciamos de manera visual en el inciso anterior.
Este contraste se debe a la diferencia en los escenarios macroeconómicos que se vivieron durante
esos años. Al ser mayor la varianza del año 1995, se refleja una gran volatilidad y nerviosismo en el
mercado cambiario producido por una fuerte crisis económica que se vivía en ese año. En el año 2000
podemos observar que el peso mexicano gozó de una gran fortaleza, pues su cotización se mantuvo
muy estable en el transcurso de los 12 meses, incluso en el mes de junio, cuando se presentaba la recta
final de un proceso electoral en el país.
En el caso de datos agrupados, para encontrar la varianza es necesario conocer el punto medio de cada
clase. El método se basa en la suposición de que el punto medio de cada clase es aproximadamente
igual a la media aritmética de las medidas contenidas en un intervalo. El punto medio de la clase j se
denota por mj.
Donde:
σ 2 = Varianza de la población.
mj = Punto medio de clase.
µ = Media de la población.
N = Tamaño de la población.
f = Frecuencia de la clase.
Σ[( m j - X )2 f j ]
S2 =
n -1
Donde:
S2 = Varianza de la muestra.
mj = Punto medio de clase.
Para obtener la varianza para datos agrupados, sea muestral o poblacional, se tienen que realizar
los siguientes pasos:
1. Se obtiene la media muestral o poblacional para datos agrupados, según corresponda. Por
ejemplo, si se pretende obtener la varianza muestral, entonces procedemos a encontrar la
media a través de la siguiente fórmula:
∑ mj f
X=
∑f
2. Se encuentran los puntos medios para cada una de las clases m1,m2,...,mn y a cada uno se
resta la media muestral o poblacional según corresponda. Por ejemplo, para el caso de la
varianza muestral se encontrarían las siguientes desviaciones:
( m1 - X ), ( m2 - X ),..., ( m n - X )
3. Se eleva al cuadrado cada una de las desviaciones de los puntos medios de clases respecto
a la media. Por ejemplo, en caso de una población:
( X1 - µ )2 , ( X 2 - µ )2 ,..., ( X n - µ )2
4. Cada uno de los cuadrados se multiplica por su respectiva frecuencia de clase. Por ejemplo,
en el caso de una población:
( X1 - µ )2 f1 , ( X 2 - µ )2 f2 ,..., ( X n - µ )2 fn
5. Se suma cada uno de estos resultados y se divide, en el caso de la varianza poblacional, entre
el número total de datos de la población (N), y en el caso de una muestra entre el n –1.
Ejemplo 24
Una gran empresa de ventas por teléfono quiere conocer la variación existente en las ventas realizadas
(en miles de pesos) por sus operadores. Para esto realiza una muestra de 25 operadores telefónicos,
obteniendo los resultados de la siguiente tabla. Calcula la varianza muestral.
Ventas (miles $) f
5.00 – 8.99 3
9.00 – 12.99 5
13.00 – 16.99 7
17.00 – 20.99 6
21.00 – 24.99 3
25.00 – 28.99 1
Σ 25
Tabla 3.25 Distribución de las ventas por teléfono.
Para obtener la varianza, en primer lugar se debe calcular la media muestral para datos agrupados,
encontrando el punto medio de clase, multiplicarlo por su frecuencia de la clase correspondiente, y
sus resultados se suman para obtener la media, tal y como se muestra a continuación:
Σm j ⋅ f 390.875
X= = =15.635
n 25
Se obtiene la varianza restándole a cada punto medio de clase la media muestral, elevando cada
una de estas diferencias al cuadrado y multiplicando cada diferencia cuadrática por la frecuencia
respectiva de clase de la manera siguiente:
La varianza obtenida señala que la dispersión existente entre las ventas entre
La varianza mide la variabilidad tomando en cuenta la dispersión que los valores de los datos
tienen respecto a su media. Es decir, aquellos conjuntos que tengan valores más alejados de
la media, sea muestral o poblacional, tendrán una mayor varianza, mientras que aquellos
conjuntos con valores más cercanos a la media mostrarán una mayor uniformidad al contar
con una varianza menor.
La varianza únicamente adquiere valores mayores o iguales a cero, nunca valores negativos, y
se utiliza para comparar la dispersión de dos o más conjuntos de datos que se encuentren expresados
en la misma unidad de medida; por ejemplo, para observar la variación existente entre dos líneas de
producción, la tasa de interés de dos instrumentos financieros, las ventas de productos expresados en
la misma moneda, etcétera.
La principal desventaja de la varianza es que su resultado se expresa en unidades al cuadrado,
resultando darle una interpretación lógica. Además, la varianza no puede comparar la dispersión de
dos conjuntos de datos expresados en diferentes unidades de medida; por ejemplo, chamarras con
coches, diferentes divisas, el IPC de la Bolsa Mexicana de Valores con el índice Dow Jones de la Bolsa
de Nueva York, etcétera.
3. Si tenemos cinco datos cuyos valores son las constantes: 2, 2, 2, 2 y 2; entonces la varianza es:
a) Cualquier valor.
b) Un valor mayor o igual a cero.
c) Un valor igual a cero.
d) Tanto valores positivos como negativos, excepto el cero.
a) 2
b) 4
c) 0
d) 1
5. Con los siguientes datos de crédito y cobranza, calcula la varianza para datos no agrupados, con
el fin de determinar la variabilidad de los datos de los próximos cobros (en pesos).
6. Un despacho de consultoría en cuestiones de mercado hace una encuesta de los ingresos anuales
(en miles de pesos) de 300 familias para clasificarlas por nivel de ingreso y con esto establecer
qué artículos son susceptibles de promocionarse y posicionar en el mercado, considerando las
variaciones existentes. Con la información siguiente calcula la varianza:
Ingreso (miles de $) f
1.50 – 2.999 25
3.00 – 4.999 31
5.00 – 6.999 42
7.00 – 8.999 45
9.00 – 10.999 52
11.00 – 12.999 42
13.00 – 14.999 35
15.00 – 16.999 28
Σ 300
Distribución de salarios.
Al igual que la varianza, la desviación estándar es una medida de variabilidad que también toma en
cuenta la dispersión de los valores de los datos respecto a su media. Sin embargo, su significado es más
valioso que el de la varianza, pues su resultado se encuentra expresado en las mismas unidades de la
variable que se examina y no en valores elevados al cuadrado como lo hace la varianza.
La desviación estándar se representa mediante la letra griega σ para el caso de una población,
o por S en el caso de una muestra. Se obtiene sacando la raíz cuadrada al resultado de la varianza,
no importa si ésta se trata de una varianza para datos no agrupados o para datos agrupados, o
provenientes de una muestra o de una población. Al proporcionar sus resultados en unidades no
cuadradas, la desviación estándar es muy fácil de interpretar y su resultado tiene mayor significado en
el análisis de un fenómeno.
Las fórmulas para la desviación estándar para datos no agrupados son:
Σ( X - µ )2 Σ( X - X )2
σ= o S=
N n -1
Cuando se trabaja con datos agrupados, la desviación estándar también se calcula sacando la raíz
cuadrada, pero empleando las fórmulas respectivas de la varianza para datos agrupados:
Σ[( mj - µ )2 f j ] Σ[( mj - X )2 f j ]
σ= o S =
N n -1
Tanto en datos no agrupados como en datos agrupados, σ indica la desviación estándar para
una población, mientras que la S representa la desviación estándar para una muestra.
Ejemplo 25
Una casa de bolsa desea realizar un comparativo entre los rendimientos anuales y los riesgos de dos
instrumentos financieros que han estado operando durante los últimos siete años. Sus rendimientos
anuales, expresados en porcentajes, son los siguientes:
Obtener la media y la desviación estándar de los rendimientos observados por los dos
instrumentos financieros.
En primer lugar se obtiene el rendimiento promedio por instrumento:
Σ( X - µ )2
σA = = 95.62285714 = 9.778694041
N
Acción B
Σ( X - µ )2
σB = = 1.737142857 = 1.318007154
N
Ejemplo 26
Σ( m j - X )2 f j 693.76
S= = = 28.90666667 = 5.376492041
n -1 24
Con este resultado se deduce que la variación promedio que existe en las ventas realizadas por
teléfono es de 5.38 miles de pesos. Esto puede ayudar a la empresa a analizar las ventas que realizan
los operadores de una manera más sencilla que utilizando ventas al cuadrado.
La principal ventaja de la desviación estándar es que indica la manera en que se dispersan los datos
respecto a la media en las mismas unidades de la variable que se examina y no en valores elevados
al cuadrado. Al igual que la varianza, la desviación estándar únicamente adquiere valores mayores o
iguales a cero, nunca valores negativos.
1. Con los datos de crédito y cobranza que se presentan a continuación, calcula la desviación
estándar de los próximos cobros.
2. Con los siguientes datos de los ingresos anuales (en miles de pesos) de 300 familias, calcula
la desviación estándar.
Ingreso (miles de $) f
1.50 – 2.999 25
3.00 – 4.999 31
5.00 – 6.999 42
7.00 – 8.999 45
9.00 – 10.999 52
11.00 – 12.999 42
13.00 – 14.999 35
15.00 – 16.999 28
Σ 300
Distribución de salarios.
S
CV = 100% En caso de una muestra
X
σ
CV = 100% En caso de una población
µ
Donde:
CV = Coeficiente de variación.
S = Desviación estándar de la muestra.
X = Media de los datos.
σ = Desviación estándar de la población.
µ = Media poblacional.
Ejemplo 31
Con los datos del ejemplo 25, calcula el coeficiente de variación con el fin de hacer una comparación
de los rendimientos de las acciones:
SA 9.778694041
CVA = 100% = 100 = ( 0.488934702) (1100 ) = 48.8934702%
µA 20
SB 1.318007154
CVB = 100% = 100 = ( 0.219667859) (100 ) = 21.9667859%
µ
B 6
Los analistas de un centro financiero desean comparar el desempeño del tipo de cambio y el porcentaje
de la participación extranjera en el mercado accionario de la Bolsa Mexicana de Valores durante el
año 2000. Para esto se calcula el coeficiente de variación para cada uno de los mercados.
Las variables que se desean comparar vienen expresadas en diferentes unidades de medida; el tipo
de cambio se expresa en pesos mientras que la inversión extranjera se representa en proporciones. Por tal
razón, se calculan los coeficientes de variación para cada una de las variables y así se compara la variabilidad
de ambos mercados. Para ello tomamos las medias y las desviaciones estándar de los ejemplos 4 y 11.
S 0.1352
CVTipo de cambio = 100% = 100 = ( 0.0143) (100 ) = 1.43 %
X 9.44
S 1.6328
CVInv. extranjera = 100% = 100 = ( 0.03364 ) (100 ) = 3.64%
X 44.7575
Los analistas de este centro financiero pueden concluir que el mercado cambiario durante el año
2000 tuvo mayor estabilidad que la participación extranjera en el mercado accionario, pues el coeficiente
de variación del primero fue de 1.43%, mientras que el del segundo fue de 3.64%. De esta forma, los
analistas comparan la variación de dos mercados que tienen distintas unidades de medición.
El coeficiente de variación es útil cuando pretende comparar la variabilidad de dos o más conjuntos de
datos expresados en diferentes unidades de medición, pues el resultado será señalado en porcentajes.
La única desventaja que adolece el coeficiente de variación es cuando se tienen que comparar
dos conjuntos de datos donde uno tiene una media con valores negativos y el otro tiene una media
positiva. Para el primer conjunto, el coeficiente de variación será negativo; mientras que para el segundo,
el coeficiente de variación será positivo, haciendo difícil la comparación entre ambos. Esto puede
solucionarse tomando los valores absolutos del resultado que se obtenga en ambos coeficientes.
1. El coeficiente de variación es una medida de dispersión que expresa sus resultados como:
a) Unidades métricas.
b) Desviaciones estándar.
c) Porcentajes.
d) Desviaciones respecto a la media.
4. Una casa de cambio desea conocer la variación existente entre el valor de dos monedas (pesos/
dólar y pesos/libra ) en las transacciones de 10 días para determinar qué moneda es la que
representa una mayor estabilidad. Con los siguientes datos, calcula el coeficiente de variación.
Dólar 150 125 120 200 250 175 200 250 180 140
Libra 200 275 180 195 280 250 240 200 300 290
Σ( Xj - µ )3 Σ( Xj - X )3
N n -1
α 3 Poblacional = α 3 Muestral =
(σ )3 ( S)3
Para el caso de datos agrupados, las fórmulas del índice de asimetría son:
Σ[( mj - µ )3 ] f [Σ( mj - X )3 ] f
n -1
α 3 Poblacional =
N α 3 Muestral =
(σ )3 ( S)3
Donde:
α3 = Coeficiente de asimetría. f = Frecuencia de clase.
mj = Punto medio de clase. σ = Desviación estándar de la población.
µ = Media poblacional. S = Desviación estándar de la muestra.
X = Media muestral N = Tamaño de la población.
n = Tamaño de la muestra.
2. Si el índice de asimetría es mayor que cero (α3 > 0), la distribución es asimétricamente
positiva o sesgada hacia la derecha, es decir, si la distribución es dividida exactamente a la
mitad, se observará que la cola de la figura se extiende hacia la derecha de la distribución,
mientras que su cima o valor más alto de la distribución se ubicará en la parte izquierda.
Moda
Mediana
Media
Cola
Moda
Mediana
Media
Ejemplo 33
Calcula el índice de asimetría para determinar qué tipo de sesgo tiene la siguiente serie de datos
de una población: 1, 1, 2, 2, 2, 3, 3, 4, 5 y 6.
Para obtener el índice de asimetría, primero debemos encontrar cada uno de los elementos de
su fórmula.
Se encuentra la media poblacional:
ΣX (1 + 1 + 2 + ... + 6 ) 29
µ= = = = 2. 9
N 10 10
Σ( X - µ )2
σ= = 1.57
N
Se eleva al cubo la desviación estándar:
σ 3 = 3.86
Se obtiene la suma del cubo de las desviaciones con respecto a la media:
Σ(X – µ)3 = 24.9
Finalmente, se sustituyen estos resultados en la fórmula del índice de asimetría:
Σ( Xj - µ )3 24.48
n = 10 = 2.448 = 0.6341
α3 = 3
(σ ) 3.86 3.86
Se obtiene un índice de asimetría positivo, por lo que se puede decir que la distribución tiene
un pequeño sesgo positivo o derecho. Si se observa la figura de la distribución de frecuencias, se
notará que tiene una cola que se alarga hacia el lado derecho de la distribución:
Moda
Mediana
Media
Ejemplo 34
Con la información del ejemplo 5, calcula el coeficiente de asimetría para saber hacia qué lado se
carga la cola de la curva de estos datos.
Σ( m j - X )2 f
S= = 28.90666667 = 5.376492041
n -1
Σ( m j - X )3 f 453.4272
= = 18.8928
n -1 24
Σ( m j - X )3 f
n -1 18.8928 18.8928
α3 = = = = 0.121562411
( S)3 ( 5.376492041) 3
155.4164633
Con el resultado se puede observar que el coeficiente es cercano a cero, así la distribución se
caracteriza por ser insesgada, es decir, que la curva tiene una forma simétrica tal que las colas tienden
a ser iguales.
4. Encuentra el índice de asimetría para una serie conformada por los siguientes datos provenientes
de una muestra: 0, 1, 1, 3 y 5, y señala qué tipo de distribución es.
5. Con los datos de los ingresos anuales (en miles) de 300 familias que se presentan a continuación,
calcula el coeficiente de asimetría para saber cómo es el sesgo de la distribución.
Ingreso (miles de $) f
1.50 – 2.999 25
3.00 – 4.999 31
5.00 – 6.999 42
7.00 – 8.999 45
9.00 – 10.999 52
11.00 – 12.999 42
13.00 – 14.999 35
15.00 – 16.999 28
Σ 300
Distribución de salarios.
El índice de kurtosis es una medida de dispersión mediante la cual se conoce qué tan concentrados
o qué tan dispersos se encuentran los datos alrededor de la media. Su resultado representa el grado
de apuntamiento de una distribución, es decir, qué tan puntiaguda o qué tan aplanada es la curva de
una distribución. Cuando es muy puntiaguda se dice que los datos se encuentran muy concentrados
alrededor de la media, mientras que si es muy chata o aplanada, se dice que existe una gran dispersión
de los datos alrededor de la media.
Para encontrar el índice de kurtosis, las fórmulas dependen de la información con la que se
trabaje y de la manera en que se encuentren organizados los datos, ya sea que se trate de una muestra
o de una población, o que los datos se encuentren no agrupados o agrupados. Se representa mediante
la expresión α4.
Para el caso de datos no agrupados, la kurtosis poblacional y muestral se expresan mediante las
siguientes fórmulas:
Σ( X j - µ )4 Σ( X j - X )4
N n -1
α 4 Poblacional = α 4 Muestral =
(σ )4 ( S) 4
Para el caso de datos agrupados, la kurtosis poblacional y muestral se obtienen utilizando las
siguientes fórmulas:
Σ( m j - µ )4 f Σ( m j - X )4 f
N n -1
α 4 Poblacional = α 4 Muestral =
(σ )4 ( S) 4
Donde:
α4 = Coeficiente de kurtosis. n = Tamaño de la muestra.
mj = Punto medio de clase. N = Tamaño de la población.
X = Media de la muestra. σ = Desviación estándar poblacional.
f = frecuencia de la clase. S = Desviación estándar de la muestra.
µ = Media poblacional.
1. Si el índice de kurtosis es igual a tres (α4 = 3), la distribución no es ni tan puntiaguda ni tan
plana. A este tipo de distribución se le conoce como distribución mesocúrtica.
2. Si el índice de kurtosis es mayor a tres (α4 > 3), la distribución es muy puntiaguda, es
decir, los datos se encuentran muy concentrados alrededor de la media. A este tipo de
distribución se le conoce como distribución leptocúrtica.
3. Si el índice de kurtosis es menor a tres (α4 < 3), la distribución es muy plana, es decir, los
datos se encuentran muy dispersos del valor de la media. A este tipo de distribución se le
conoce como distribución platicúrtica.
a4 = 3 a4 < 3
Ejemplo 35
Empleando los datos del ejemplo 5, calcula el coeficiente de kurtosis para saber cómo es la forma de
la curva de estos datos.
Σ( m j ⋅ f ) 390.875
X= = = 15.635
n 25
Σ( mj - X )2 f 693.76 693.76
S2 = = = = 28.90666667
n -1 (25 - 1) 24
Σ( mj - X )2 f
S= = 28.90666667 = 5.376492041
n -1
Σ( m j - X )4 f 45258.049
= = 1 885.751979
n -1 24
Σ( m j - X )4 f
n -1
α4 = = 1 885.751979 = 1 885.751979 = 2.25677646
( S) 4 ( 5.376492041)4 835.5953778
Con el resultado se puede observar que el coeficiente es menor a tres, por lo que la
distribución se caracteriza por ser platicúrtica, es decir, que la curva tiene una forma tal que
su apuntamiento es achatado, tal y como se muestra a continuación:
a) La distribución es asimétrica.
b) La distribución es mesocúrtica.
c) La distribución es leptocúrtica.
d) La distribución es platicúrtica.
a) La distribución es asimétrica.
b) La distribución es mesocúrtica.
c) La distribución es leptocúrtica.
d) La distribución es platicúrtica.
a) La distribución es asimétrica.
b) La distribución es mesocúrtica.
c) La distribución es leptocúrtica.
d) La distribución es platicúrtica.
5. Con los siguientes datos de los ingresos anuales (en miles) de 300 familias, calcula el coeficiente
de kurtosis para conocer cómo es la forma de la curva de distribución:
Ingreso (miles de $) f
1.50 – 2.999 25
3.00 – 4.999 31
5.00 – 6.999 42
7.00 – 8.999 45
9.00 – 10.999 52
11.00 – 12.999 42
13.00 – 14.999 35
15.00 – 16.999 28
Σ 300
Distribución de salarios.