0% encontró este documento útil (0 votos)
141 vistas39 páginas

Estadística: Tendencia y Dispersión

Este documento describe medidas de tendencia central y dispersión. Explica que las medidas de tendencia central como la media, mediana y moda sirven para representar un conjunto de datos con un solo valor. También describe medidas de dispersión como rango, varianza y desviación estándar que analizan cómo se dispersan los datos alrededor del valor central. Finalmente, ofrece ejemplos del cálculo de la media aritmética para conjuntos de datos.

Cargado por

Rosa Ornelas
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
141 vistas39 páginas

Estadística: Tendencia y Dispersión

Este documento describe medidas de tendencia central y dispersión. Explica que las medidas de tendencia central como la media, mediana y moda sirven para representar un conjunto de datos con un solo valor. También describe medidas de dispersión como rango, varianza y desviación estándar que analizan cómo se dispersan los datos alrededor del valor central. Finalmente, ofrece ejemplos del cálculo de la media aritmética para conjuntos de datos.

Cargado por

Rosa Ornelas
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

Medidas de tendencia central y dispersión

Introducción
En esta Unidad conocerás tres conceptos muy importantes en cualquier estudio estadístico: la moda,
la media aritmética y la mediana, los cuales sirven para representar un conjunto de datos mediante
un valor único y se conocen como medidas de tendencia central.

Otros conceptos que estudiarás son las medidas de dispersión: rango, varianza, desviación
media y desviación estándar, encargadas de analizar el comportamiento de los datos desde la
perspectiva de cómo se dispersan y cuyo objetivo es representar la variabilidad de un conjunto de
datos, es decir, cómo se dispersan en torno a un valor central: la media aritmética.

1. Medidas de tendencia central


1.1 Moda
1.2 Media aritmética
1.3 Mediana
Las medidas de tendencia central, como lo indica su nombre, buscan encontrar el valor medio de un
grupo de datos y por ello con frecuencia son utilizadas en la vida diaria.

Al final del año, en las escuelas dan las calificaciones de cada una de las materias cursadas. Un alumno
tomó sólo cuatro materias y obtuvo lo siguiente:

Matemáticas para Administradores 9.2

Gestión de la Calidad 7.3

Introducción a Visión de Negocios 8.5

Contabilidad Financiera 9.4


Para determinar su desempeño académico en general, en la escuela obtienen el promedio o media
aritmética de esas cifras. El procedimiento para hallar el promedio es sumar todas sus calificaciones y
luego dividir el resultado entre el número de calificaciones:

Concepto Clave

Las medidas de tendencia central sirven para calcular el valor medio de una serie de datos y son las
siguientes:

 Media
 Mediana
 Moda

Cuando se trabaja con todos los datos de una población se les llama parámetros, pero si se trabaja sólo
con una muestra de la población se llaman estadísticos y su simbología es diferente.

Medidas de tendencia central

Las medidas de tendencia central dirigen su interés al


comportamiento de los datos en relación con un valor central.
En estadística a la palabra promedio se le conoce como media aritmética. Calcular la media aritmética
para pocos datos es cosa sencilla, pero se complica cuando el número de datos se incrementa de manera
considerable.

Antes de iniciar con la descripción de las fórmulas que se utilizan para el cálculo de las medidas de
tendencia central (media, mediana y moda), es conveniente recordar que en estadística se trabaja con dos
conjuntos: población y muestra.

Si el cálculo se realiza sobre datos muestrales, a los resultados se les conoce como estadísticos; mientras
que si los cálculos se realizan sobre toda la población, se les conoce como parámetros.

Calculando promedios
Juan es un productor de cerdos y piensa vender seis de ellos a un comprador que le ofrece $10,000 por los
seis cerdos, pero el comprador no está dispuesto a pesarlos; dice que si los pesan, seguramente le pagará
más dinero a Juan porque el kilo de cerdo está en 22 pesos. Juan le pide que lo espere dos días mientras
se decide.

Juan piensa que criar seis cerdos no es tan sencillo y no quiere entregarlos sin obtener una ganancia. Tan
pronto se fue el comprador de cerdos, Juan pesó a los seis animales, obteniendo los siguientes registros:
87, 96, 102, 81, 93 y 105 kilos.

 ¿Debe aceptar Juan el trato?


No, porque la suma del peso de los cerdos es: 564 kilogramos y esto le representaría no ganar por
la venta $2,408.

 ¿Cuánto dinero pierde o gana Juan si acepta el trato del comprador?


El total de dinero que debe recibir Juan es 564 x 22 = 12,408 pesos.

 ¿Cuál es el promedio del peso de los seis cerdos que tiene Juan?
El promedio del peso de los seis cerdos es 564/6 = 94, es decir, 94 kilogramos

Media aritmética
Imagina que un panadero quiere saber si sus conchas tienen el tamaño adecuado de acuerdo al precio que
cobra por ellas. Para saberlo, tomó ocho conchas de un lote de 50 y pesó cada una por separado.

El peso en gramos de cada una de las conchas fue: 50, 52, 58, 56,48, 62, 39 y 42 gramos.

Dado un conjunto de datos 𝑥1, 𝑥2, . . . , 𝑥𝑛, se define la media aritmética muestral 𝒙 de ese conjunto de datos
como:

Σ 𝑥!
𝑥=
𝑛

El símbolo ∑ se lee como ‘sumatoria de’ y significa que lo que esté enfrente se debe de sumar.
De la misma manera, se define la media aritmética poblacional µ como:

Σ 𝑥!
µμ = 𝑁

La media aritmética muestral 𝑿 se emplea cuando estamos hablando de muestras y la media aritmética
poblacional µμ cuando estamos estudiando poblaciones. Otra distinción es la n minúscula para muestras y N
mayúscula para poblaciones.

Los valores para nuestro conjunto de datos son el peso de cada concha:

𝑥1 = 50 𝑥2 = 52, 𝑥3 = 58, 𝑥4 = 56, 𝑥5 = 48, 𝑥6 = 62, 𝑥7 = 39, 𝑦 𝑥8 = 42

Sustituyendo en la fórmula de la media aritmética muestral 𝒙 obtenemos:

Z 𝑥i 50!52!58!56!48!62!39!42 407
𝑥 = = = = 50.87
𝑛 8 8

Es decir, el peso promedio de las conchas es 50.87 gramos. ¿Notaste que hubo una pieza de pan que pesó
más de 60 gramos y otra que pesó menos de 40?, ¿qué piensas?

En los ejemplos anteriores, calculamos la media aritmética de pocos datos que, además, no estaban
organizados. Cuando los datos están organizados en una distribución de frecuencias simple o de intervalos,
la media aritmética se calcula con la expresión:

Σ 𝑓! ∙ 𝑥!
𝑥=
𝑛

En donde el término 𝑓i 𝑥i es el producto de cada valor multiplicado por su respectiva frecuencia y el símbolo
Σ (sumatoria) significa que se deben sumar estos productos. Veamos cómo se calcula.

Ejemplo

Si consideramos la distribución de frecuencias que se muestra en la figura 1 para calcular la media


aritmética de los datos, primero se determina la columna 𝑓i 𝑥i cuando se tiene completa la columna, se
suma (como lo indica la fórmula) y este resultado se divide entre 𝑛, que es el número total de
observaciones o datos
Calificaci Frecuen 𝒇𝒊
ón cia 𝒙𝒊
𝒙𝒊 𝒇𝒊
2 0 0
3 2 6
4 5 2
0
5 7 3
5
6 8 4
8
7 10 7
0
8 8 6
4
9 6 5
4
10 4 4
0
50 33
7
Figura 1. Tabla de frecuencia.

En la figura 1 se observa que Σ 𝑓i𝑥i = 337 y que n = 50. Por lo tanto, la media aritmética del conjunto de
observaciones es:
Σ𝑓! ∙ 𝑥! 337
𝑥= = = 6.74
𝑛 50

Cuando los datos están agrupados en clases, como en la tabla 1, la media aritmética se calcula con la
misma expresión, sólo que ahora x representa la marca de clase.

Σ𝑓! ∙ 𝑥!
𝑥= 𝑛

Clases Marca Frecuenc 𝒇𝒊𝒙𝒊


de ia
clase 𝒇𝒊
𝒙
42-46 44 2 8
8
47-51 49 9 441
52-56 54 31 1674
57-61 59 50 2950
62-66 64 51 3264
67-71 69 30 2070
72-76 74 7 518
180 11005
En la tabla 1 se observa que Σ 𝑓i. 𝑥i = 11005 y que 𝑛 = 180. Por tanto, la media aritmética de los datos
de la tabla 1 es:
Σ 𝑓!𝑥! 11005
𝑥= = = 61.14
𝑛 180

Ahora que ya has estudiado la media aritmética, que es uno de los parámetros más útiles de la estadística,
revisarás la moda.

La moda
¿A qué te suena la palabra moda?

Ésta se usa normalmente para referirnos a lo que la gente usa: vestidos, pantalones, bolsos, gorras, lentes
o cualquier otro accesorio. Entonces, ¿qué es la moda?, ¿es una forma de vestir?, ¿cuándo se considera
que algo está de moda o que ya pasó de moda?

Una respuesta puede ser que lo que está de moda es lo que más prefiere la gente. Lo que ya pasó de
moda puede ser algo que se usó pero que actualmente ya no. ¿Se te ocurre algo más?

Por ejemplo, en el conjunto: 5,5,6,7,7,7,7,7,8,9,10,11,11,12

El número que más se repite es el 7, ya que aparece 5 veces. En este caso decimos que la moda de este conjunto de
datos es Mo = 7.

La moda (Mo) es una medida de tendencia central, igual al valor


que se repite más veces, es decir, el que tiene mayor frecuencia
(Levin, 1988).
Veamos la siguiente distribución de frecuencias:

Marca
Frecuenc
Clases de 𝒇𝒊𝒙𝒊
ia
clase
𝒇𝒊
𝒙𝒊
42-46 44 2 88
47-51 49 9 441
52-56 54 31 167
4
57-61 59 50 295
0
62-66 64 51 326
4
67-71 69 30 207
0
72-76 74 7 518
180 110
05

La clase con la frecuencia mayor es 62-66 con f = 51. Sin embargo, nota que la clase 57 – 61 tiene una
frecuencia f = 50, por lo que son las dos clases de mayor frecuencia (f), pero en este caso sólo la clase 62-
66 tiene el mayor número y, por lo tanto, esa es la moda.

En distribuciones de frecuencias con intervalos, la moda es la marca de clase con la mayor frecuencia por
lo que, si consideramos las dos modas:

Mo1 = 59 y Mo2 = 64

Es importante notar que una distribución puede tener más de una moda o puede no tener moda. Cuando un
conjunto de datos no tiene moda significa que ningún dato u observación se está presentando más que los
demás de manera significativa.

Si recordamos el peso de las conchas del panadero: 50, 52, 58, 56, 48, 62, 39 y 42, ningún dato aparece
más que los demás. Por lo tanto, este conjunto de datos no tiene moda. Sencillo, ¿no?

A diferencia de la moda, el cálculo de la tercera medida de tendencia central, la mediana, es un poco más
complicado... pero sólo un poco, así que no hay de qué preocuparse.

La mediana
La mediana (𝑥) es la última de las medidas de tendencia central que analizaremos. ¿Alguna idea del
significado de la mediana? Suena a que es algo que está en medio, ¿o no?
Es el valor medio de una serie de datos ordenados (en forma
creciente o decreciente), que debajo de él tiene el
50 % de las observaciones y arriba de él otro 50 % (Colegio24hs,
2004).

Una consideración importante para la determinación de la mediana es que los datos deben estar ordenados
por magnitud, es decir, de menor a mayor. Después de esto se debe encontrar la posición en la que se
ubica la mediana, a través de la fórmula:
2(𝑛 − 1)
𝑃𝑜𝑠𝑖𝑐𝑖ó𝑛 𝑑𝑜𝑛𝑑𝑒 𝑠𝑒 𝑢𝑏𝑖𝑐𝑎 𝑙𝑎 𝑥 = +1
4

Ejemplo

Encontrar la mediana para el siguiente conjunto de datos:

4 5 5 6 6 7 9
0 0 2 0 2 0 0

Como tenemos siete datos, la mediana es el dato que ocupa la...

27−1 2 6 12
𝑃𝑜𝑠𝑖𝑐𝑖ó𝑛 𝑑𝑜𝑛𝑑𝑒 𝑠𝑒 𝑢𝑏𝑖𝑐𝑎 𝑙𝑎 𝑥 = +1= +1= +1= 3+1=4
4 4 4
40 50 52 60 62 70 90
Posición 1 Posición 2 Posición 3 Posición 4


Valor central

Por lo tanto, concluimos que la mediana del conjunto de datos es 𝑥 = 60.

En caso de que el valor de la posición tenga un decimal de 0.5 (por ejemplo: 5.5, 9.5 o 10.5) se sacará el
promedio del número que ocupe la posición inmediata anterior y la del número que ocupe la posición
inmediata superior.

Ejemplo

Para el conjunto

2 3 3 3 4 4 4 5
7 0 1 4 0 1 4 4

Se obtiene la posición en la cual se ubica la mediana usando la fórmula:

28−1 2 7 14
𝑃𝑜𝑠𝑖𝑐𝑖ó𝑛 𝑑𝑜𝑛𝑑𝑒 𝑠𝑒 𝑢𝑏𝑖𝑐𝑎 𝑙𝑎 𝑥 = +1= +1= + 1 = 3.5 + 1 = 4.5
4 4 4

Entonces la mediana se encuentra sacando el promedio de los valores que ocupen la


posición 4 y 5.

2 3 3 3 4 4 4 5
7 0 1 4 0 1 4 4
↑ ↑
Valores centrales

34 + 40 74
𝑥= = = 37
2 2

Por lo tanto, el valor de la mediana es 𝑥 = 37.


Los cálculos anteriores sirven para datos no agrupados. Cuando los datos están agrupados,
ya sea en una distribución de frecuencias simple o en una distribución de frecuencias con
intervalos, el procedimiento es algo distinto.

Mediana de un conjunto de datos en una distribución de frecuencia simple


n1

La posición de la mediana la determinamos con la fórmula: 2


Tomemos como ejemplo la distribución de frecuencias simple de la tabla 3.

Calificació Frecuenc
nX ia f
2 0
3 2
4 5
5 7
6 8
7 10
8 8
9 6
10 4
50
Tabla 3. Tabla de distribución de frecuencias.
Como 𝑛 = 50, la mediana será el valor que ocupa el lugar
50!1
= 25.5

Con el propósito de visualizar el dato que ocupa la posición 25.5 en nuestra distribución de frecuencias
simple, a continuación se muestra nuevamente la tabla 3, ahora como tabla 4, agregando la columna de
la frecuencia acumulada:

Calificaci Frecuen Frecuen


ón X cia cia
f acumula
da
2 0 0
3 2 2
4 5 7
5 7 14
6 8 22
Aquí está ubicado el 25.5, ya que los 10 datos
7 10 32
iguales a 7 ocupan desde la posición 23 a la
32.
8 8 40
9 6 46
10 4 50
50
Tabla 4. La mediana en una tabla de distribución de frecuencias.

Por lo tanto, la mediana es:


𝑥=7
Lo anterior es debido a que el lugar 25.5 se encuentra entre la posición 23 y la 32.

¿Por qué si hay un número par de datos no se calculó la media aritmética de los valores centrales?

Porque en este caso, los dos valores centrales son ambos el número 7 y, al calcular, la media aritmética
sigue siendo 7.

Mediana de un conjunto de datos en una distribución de frecuencia con intervalos


El cálculo de la mediana en una distribución de frecuencias con intervalos implica la serie de pasos que se
describen a continuación:

1. Determina la clase que contiene a la mediana. Esta clase se llama clase de la mediana y es la
𝑛

que contiene el valor que ocupa el lugar , en donde n es el número total de datos.
2
2. Calcula la frecuencia acumulada que corresponde a la clase inmediata inferior a la clase de la
mediana.
3. Determina la frecuencia de la clase de la mediana.
4. Determina el ancho de la clase.
5. Determina el límite inferior de la clase de la mediana.
6. Aplica la fórmula:

𝑛
− 𝑓𝑎
2
𝑃𝑜𝑠𝑖𝑐𝑖ó𝑛 𝑑𝑒 𝑙𝑎 𝑥 = 𝐿 + ×𝑖
𝑓

En donde:

L = límite inferior de la clase de la mediana


N = número total de datos
fa = frecuencia acumulada en la clase inmediata inferior a la clase de la mediana
f = frecuencia en la clase de la mediana
i = la longitud del intervalo o clase de la mediana

Utilizaremos la tabla 5 para calcular la mediana aplicando los pasos indicados.

Valor Frecuenc
Clases fa
medio ia
x f
42-46 44 2 2 Datos de la
posición 1 al 2
47-51 49 9 11 Datos de la
posición 3 al 11
52-56 54 31 42 Datos de la
posición 12 al 42
57-61 59 50 92 Datos de la
posición 43 al
92
62-66 64 51 143 Datos de la
posición 93 al
143
67-71 69 30 173
72-76 74 7 180
n = 180
Tabla 5. La mediana en una tabla de distribución de frecuencias.

1. Lo primero es determinar la clase de la mediana.


Calcula
n
 90
180

2 2
Como la clase de la mediana es la clase que contiene el dato que ocupa la posición 90, en este caso
la clase de la mediana es 57 – 61 porque en esa clase se encuentra el dato que ocupa la posición
90. En la última columna de la tabla se indica que los datos de esta clase van desde el dato en la
posición 43 hasta el dato en la posición 92.

2. Luego se necesita determinar la frecuencia acumulada (fa) de la clase inmediata inferior a la clase
de la mediana. Esto se puede determinar inspeccionando la tabla 6 (la cual ya incluye la frecuencia
acumulada).

Valor Frecuenc
Clas medio ia fa
es x f
42-46 44 2 2
47-51 49 9 11
Clase inmediata 52-56 54 31 42
inferior
Clase de la mediana 57-61 59 50 92
62-66 64 51 143
67-71 69 30 173
72-76 74 7 180
180
Tabla 6.Determinar la mediana en una tabla de frecuencias.

Esto es, el valor de fa es 42.

3. Luego, es necesario determinar la frecuencia de la clase de la mediana, que es 𝑓 = 50

4. El ancho de la clase es 61-56=5, por lo que 𝑖 = 5

5. Encuentra el límite inferior de la clase de la mediana. Este número es 𝐿 = 57.

6. Ahora sólo falta sustituir los valores encontrados en la fórmula:

𝑛
− 𝑓𝑎
2
𝑀𝑑𝑛 = 𝐿 + ×𝑖
𝑓

180
2 − 42
𝑀𝑑𝑛 = 57 + ×5
50
𝑀𝑑𝑛 = 61.8

La media ponderada y la media geométrica

Además de la media aritmética, existen la media ponderada y la media geométrica, las cuales son muy
útiles en situaciones específicas. La tabla 7 muestra la fórmula que se utiliza para calcularlas. Se incluye
también la media aritmética para tenerla de referencia.

Fórmula
Media aritmética 𝑥i
𝑥=
𝑛
Media ponderada 𝑥i𝑊i
𝑥w = i
𝑊

Media geométrica MG  n X 1 X 2 X 3 !X n

Tabla 7. Fórmulas para determinar diferentes tipos de media.

La media ponderada es utilizada cuando, al calcular un promedio, algunos de los datos a considerar
tienen un peso mayor que los demás. Vamos a ver de qué se trata.

Ayudando a Raúl a calcular su promedio


Raúl estudia bachillerato en la UVEG y en las políticas de uno de sus cursos se le informó que la forma de
evaluarlo es la que se muestra en la tabla 8:

Rubro Ponderaci
ón
Promedios 40 %
parciales
Examen final 50 %
Trabajo final 10 %
Tabla 8. Ponderaciones.

Si Raúl obtuvo un promedio parcial de 83, 75 en su examen final y 92 en el trabajo final, ¿cuál es la
calificación que aparecerá en su boleta?

Para resolver el problema, debemos tomar en cuenta que las calificaciones no tienen el mismo peso, es
decir, el examen final es la calificación con el mayor peso en la calificación (50 %) mientras que el trabajo
final es la de menor peso (10 %). Por ello, para calcular la media ponderada es necesario incluir dos
columnas más: la columna peso (𝑊i) y la columna del producto 𝑥i𝑊i.

Rubro Calificació Peso 𝒙𝒊𝑾𝒊


n (𝑾𝒊)
Promedios 83 4 332
parciales
Examen final 75 5 375
Trabajo final 92 1 92
ΣWi = 10 ΣxiWi = 799
Tabla 9. Registro de calificaciones.

Si ahora sustituimos el valor de ΣWiy ΣxiWi en la fórmula, obtenemos:

Σ !!!!
𝑥𝖶 =
Σ𝖶!

799
𝑥𝖶 = = 79.9
10
La media ponderada es utilizada cuando, al calcular un promedio, algunos de
los datos a considerar tienen un peso mayor que los demás.

Σ!!!!
𝑥𝖶 = Σ𝖶!

Raúl tiene una calificación final de 79.9.

Sin embargo, la media ponderada no se utiliza sólo para obtener promedios. Veamos el siguiente ejemplo.

Tienda de abarrotes La Veracruzana


La tienda de abarrotes La Veracruzana vende cuatro diferentes tipos de escobas y algunas de ellas le dan
a ganar más al dueño que otras. En la tabla 10 se muestra la utilidad de cada escoba y el número de
escobas vendidas.

Marca de Utilidad en Número de escobas XW


la pesos por vendidas en un
escoba escoba mes (W)
(X)
Limpia $3.0 7 21.0
todo
Plasti- $2.4 6 14.4
limpia
Escobón $5.2 12 62.4
D’zacate $7.4 4 29.6
$18 Σ𝖶! = Σ𝑥!𝖶! =
29 127.4
Tabla 10.Tabla de registro de ventas.

Se puede calcular la media de las utilidades dividiendo la suma


de las utilidades entre el número de marcas de escoba, esto es,
18/4 = 4.5. Este resultado no es completamente cierto porque
vende más escobas de una marca que de otras.
La media ponderada es:

𝑥 127.4
= 29
𝖶
𝑥𝖶 = 4.393

Esto significa que la utilidad promedio de La Veracruzana en la venta de sus escobas es de $4.393.

Eduardo y sus quesos


Eduardo Negrete es un conocido empresario del estado de Hidalgo y productor de quesos. Él destina
gran parte de sus ingresos en campañas publicitarias para incrementar sus utilidades. Quiere determinar
la tasa promedio de aumento de sus ingresos de los últimos 5 años y evaluar si continúa o no con la
misma compañía de publicidad. La tasa promedio del estado de Hidalgo es del 13 %.

En la tabla 11 se muestra los ingresos de la empresa de Eduardo de los últimos 5 años:

Año Ingreso
(en pesos)
2002 142,000
2003 152,000
2004 168,000
2005 223,000
2006 262,000
Tabla 11. Ingresos del empresario Negrete.

Para determinar la media geométrica, primero es necesario calcular el porcentaje de aumento de los
ingresos por cada año. En otras palabras, ¿qué incremento tuvieron los ingresos de 2002 a 2003? Este
incremento se calcula dividiendo el ingreso del año 2003 entre el ingreso del año 2002, es decir:

152,000
142,000 = 1.07

Lo anterior significa que el incremento fue de 0.07 o del 7 %. De la misma manera se calculan los
demás incrementos. Los resultados de los cálculos se muestran en la tabla 12.

Año Ingreso Porcentaje


(en pesos)
2002 142,000
2003 152000 1.070
2004 168000 1.105
2005 223000 1.327
2006 262000 1.174
Tabla 12. Porcentajes.

Estos resultados se sustituyen en la fórmula para calcular la media geométrica.

La media geométrica (MG) se determina calculando la enésima raíz del producto de n números
mediante la fórmula:
MG  nX1 X
2X 3!

Sustituyendo tenemos: Xn

MG 1.1649
4

Lo anterior significa que el incremento promedio 1.070 1.105


porcentual   
de los ingresos de Eduardo es 0.1649 (o 16.49
%).
1.3271.174
¿Cuál hubiese sido el resultado si se hubiera utilizado la media aritmética? Observa:

1.070 1.105 1.327 1.174


X   1.169
4

El error o diferencia entre los resultados parece no ser significativo. Antes de llegar a una conclusión al
respecto, analiza la tabla 13 que compara ambos resultados.

Usando X Usando X M

142000x1.169=165998 142000x1.1649=165415
165998x1.169=194051 1655415x1.1649=192691
164862x1.169=226845 192691x1.1649=224465
226845x1.169=265181 224465x1.1649=261479≈262000
265181 es mayor que 262000 261479 es prácticamente igual que 262000
Tabla 13. Comparación de ambos métodos.

En este ejemplo viste la forma de calcular la media geométrica. Queda de manifiesto que, en ocasiones,
es más apropiado utilizarla que la media aritmética. Por último, debido a que el incremento promedio
porcentual de los ingresos de Eduardo es de 16.49 % y es superior al promedio estatal (13 %), él ha
decidido no cambiar de compañía de publicidad.
La media geométrica (MG) es muy recurrida en economía y
negocios, pues muestra los cambios en porcentaje de una serie de
números positivos. Por ejemplo: el cambio porcentual en ventas, en
ingresos, en utilidades, entre otros, se determina calculando la
enésima raíz del producto de n números mediante la fórmula:

MG  MG  n X X X !X n
n X1 X 2 X 13 !X2n 3

Comparación entre media, mediana y moda


De las medidas de tendencia central, la media es la de uso más común, ya que su manipulación e
interpretación es más sencilla. Desafortunadamente, la media se ve afectada por valores extremos. Para
el conjunto de datos 3, 5, 8, 12, 17 y 18, la media es 10.5 y la mediana es 10. Ambos representan de
buena manera al conjunto de datos. Sin embargo, si cambiamos el 18 por un 68, por ejemplo, la media es
18.83, mientras que la mediana sigue siendo 10. Debido a que el valor de la mediana no cambia con el
valor extremo representa de mejor forma al conjunto de datos.

Por otro lado, el inconveniente de la moda es que en ocasiones no existe y cuando hay más de una
moda su existencia puede no ser de gran ayuda.

El anterior análisis no significa que una medida de tendencia central sea mejor que la otra, sólo te invita
a utilizar la más adecuada para un conjunto de datos en específico.

2. Medidas de dispersión
2.1 Rango
2.2 Varianza
2.3 Desviación estándar
Muchas veces nos encontramos ante la situación de identificar qué tan dispersos se encuentran los
datos. Por ejemplo, en la siguiente figura se puede observar que los datos están muy dispersos
respecto a su valor central.
Figura 1. Datos dispersos respecto al valor central.

Mientras que en el siguiente caso, se puede observar que la dispersión de los datos es menor.

Figura 2. Datos centrados.

Para evitar la subjetividad de las percepciones respecto al grado de dispersión se deben aplicar las
medidas de dispersión.

Concepto Clave

Las medidas de dispersión, como su nombre lo indica, sirven para calcular qué tan alejados o
dispersos se encuentran los datos con respecto a su media. Al igual que las medidas de tendencia
central son conocidas como parámetros si se trabaja con una población, o estadístico si se trabaja
con una muestra.

Existen diferentes medidas de dispersión y entre las más importantes se encuentran:

 Rango
 Varianza
 Desviación estándar

La simbología de algunas de las principales medidas de dispersión


varía, dependiendo si son parámetros o estadísticos.
Medidas de dispersión
Las medidas de tendencia central dirigen su interés al comportamiento de los datos con relación a un valor

central, pero se olvidan de la forma en la que los datos varían o se dispersan.

Las medidas de dispersión se encargan de estudiar el


comportamiento de todos los datos y cómo se distribuyen
alrededor de un valor central: la media aritmética.

Dentro de las medidas de dispersión se encuentran: el rango, la desviación media, la desviación estándar y
la varianza.

Observa a qué se refieren.

Rango
En León, Guanajuato, una familia de fabricantes de calzado se dedica a producir exclusivamente zapatos
para adulto. Las tallas (longitud del pie en centímetros) que maneja en zapato para mujer son las
siguientes:
Talla
(en
centímetros)
21.5
22
22.5
23
23.5
24
24.5
25
25.5
26
26.5
27
Tabla 1. Tallas de zapato de mujer.

De esta lista de tallas de calzado, ¿cuál es la menor?, ¿cuál es la mayor? Al observar la tabla te podrás
percatar de que la talla menor que maneja esta familia de fabricantes de calzado es 21.5 y la talla mayor es
27.

A partir de esta información se puede decir que la variación en las tallas de los zapatos, desde la menor
hasta la mayor es:
27 - 21.5=5.5

A la variación o diferencia entre el dato mayor y el dato menor de un conjunto de datos u observaciones se
le llama Rango.

Como puedes ver, con sólo identificar el valor mayor y el menor, es posible calcular el rango.

El Rango (R) se define como:

“La diferencia entre los datos mayor y menor del conjunto” (Kazmier,
Díaz y Eslava, 1991, p. 50).

Observa otro ejemplo


La siguiente distribución de frecuencias con intervalos muestra información acerca de personas que
acuden a un club deportivo en una ciudad fronteriza de acuerdo a sus edades.

Intervalos Número de
de edades personas
𝑓i
42-46 2
47-51 9
52-56 31
57-61 50
62-66 51
67-71 30
72-76 7
180
Tabla 2. Tabla de intervalos de clase.

De los datos de la tabla 2 se aprecia que el valor mayor es 76 y el menor es 42, por lo que el rango es:

Rango  76  42  34
Esto quiere decir que la diferencia entre las edades de las personas que acuden al club deportivo es de 34
años.
Ejemplo

Uno de los problemas que aquejan a la juventud es el consumo de drogas o alcohol a temprana edad.

En una comunidad con una población no mayor a 3000 personas se realizó una encuesta a 85 habitantes y
se les peguntó si consumían alcohol. Para el análisis de los datos, los encuestados fueron agrupados por
edades; el resultado se presenta en la tabla 3:

Edades Personas que


consumen
alcohol
12 – 15 8
16 – 19 13
20 – 23 15
24 – 27 21
28 – 31 16
32 – 35 12
85
Tabla 3. Tabla de intervalos de personas que consumen alcohol.

¿Cuál es rango de edades que se consideró para la encuesta?


35-12

Desviación media
Como viste, el rango sólo considera dos datos: el dato mayor y el dato menor. Sin embargo, es conveniente
contar con otra medida de dispersión de los datos respecto a la media en la que se tomen en cuenta todas
las observaciones.

Para Kazmier, Díaz y Eslava (1991) la desviación media es igual al


promedio del valor absoluto de la diferencia de cada uno de los elementos del
conjunto respecto a la media aritmética (ya sea muestral o poblacional).

Para una muestra:

D.M   x 
n
x
Para una población:

D.M   x 
N

Ejemplo

Se tiene el conjunto 5, 10, 15, 20, 25, 30, 35,


cuya
x  20
Una desviación media menor a 8.57 (por ejemplo el dato 25, cuya diferencia con la media es 5) nos indicaría
que los datos se encuentran más cercanos a su media aritmética. Si la desviación media fuera cero (como el
dato 20) significaría que todas las observaciones son idénticas a la media aritmética. La desviación media
obtenida indica que los datos de la variable se separan 8.57 en promedio de la media aritmética.

Esta medida de dispersión cada vez se utiliza menos, pero aún puede ayudar a comprender el significado de
las siguientes medidas de dispersión: la varianza y la desviación estándar.

Varianza

La varianza muestral es el promedio de los cuadrados de las diferencias de cada dato del conjunto respecto a
su media aritmética y se representa con el símbolo s2 (Kazmier, Díaz y Eslava, 1991).
Matemáticamente se representa:


s 2  x1  x   x
2 2 x   x
2 3  
 x 2  ! n x
n1
x 2
Si usamos la notación de sumatorias, la varianza se calcula con:

2
n

x i 
s2  i1
n 1 x 
La varianza poblacional se representa con el símbolo  2 y su expresión matemática es

 2  x1     2x  


3 x    !  Nx 
2 2 2

N
 2
En forma abreviada queda:
N 2

x i 
 2  i 1
 N

Fabiola, una estudiante de la UVEG, obtuvo en el cuatrimestre las siguientes calificaciones: 9.2, 8.3,
7.6, 8.9 y 7.5. ¿Cuál es la varianza de sus calificaciones?

Primero debes calcular la media aritmética:


En este caso la varianza de las calificaciones de Fabiola es 0.575 unidades cuadradas. ¿Qué significado
tiene? Si habláramos de kilogramos, ¿la varianza estaría en kilogramos cuadrados? Lo anterior es cierto:
una desventaja de la varianza es que se trata de un estadístico cuyas unidades se encuentran elevadas al
cuadrado. Para solucionar este inconveniente se recurre a la desviación estándar, que es simplemente la
raíz cuadrada de la varianza por lo que las unidades de esta medida de dispersión no están elevadas al
cuadrado.

La desviación estándar

La desviación estándar es la raíz cuadrada de la varianza (Kazmier, Díaz y Eslava,


1991).

La desviación estándar muestral es:

s2
s

n 2

x  i
s i1


x n 1
De la misma forma, la desviación estándar poblacional es:

 2

N 2

x i 
 2  i 1
 N

La desviación estándar, por definición, es la raíz cuadrada de la varianza de tal manera que si se conoce ésta, para
calcular la desviación, simplemente se le extrae raíz a la varianza.

Ejemplo

Volvamos al caso de Fabiola, quien obtuvo un promedio de calificaciones de 8.3 con una varianza de 0.575.
La desviación estándar de las calificaciones de Fabiola es:

s 0  0.758
.
5
Es decir, las calificaciones de Fabiola varían en promedio 0.758 puntos.
7
5
Ejemplo

Arturo es un agricultor que cosecha sandías, pesó 6 sandías y sus resultados fueron: 4.5, 5.2, 4.8, 6.1, 5.8
y 6.3 kilogramos. ¿Cuál es la varianza y la desviación estándar de los pesos de las sandías de Arturo?

Lo primero que debes calcular es la media aritmética:

4.5  5.2  4.8  6.1 5.8  6.3 32.7


x   5.45
6 6
Luego la varianza:

4.5  5.452  5.2  5.452  4.8  5.452  6.1 5.452  5.8  5.452  6.3  5.452
s2 
5
2.655
s2   0.531
5

Nuevamente para calcular la desviación estándar sólo determinamos la raíz cuadrada de la varianza.

s  0.531  0.728
Tanto la varianza como la desviación estándar miden la forma en que se dispersan los datos alrededor de
la media aritmética. Sin embargo, una de las desventajas de la varianza es que sus resultados son
unidades al cuadrado. En el caso de Arturo, la varianza fue 0.531 kilogramos al cuadrado. La desviación
estándar en cambio fue 0.728 kilogramos, que tiene más sentido en el caso de las sandías.

Ejemplo

Rafael pretende vender algunas cabezas de ganado por lo que decidió pesar cinco de ellas. Los pesos en
kilogramos de los cinco animales registrados por Rafael fueron:

385, 396, 405, 398 y 415

¿Cuál es el peso promedio de los cinco animales?, ¿cuál es la desviación estándar de los pesos de los
cinco animales?

La media aritmética es:

385  396  405  398   399.8Kilogramos



x415
5
La varianza se calcula mediante:

385  399.82  396  399.82  405  399.82  398  399.82  415 


399.8
2
s2
  123.7
4

La desviación estándar, por tanto es de:

s s2  123.7  11.12

Después de terminar los cálculos, estás listo(a) para responder las preguntas que se
formularon en un principio:

 ¿Cuál es el peso promedio de los


cinco animales? El peso
promedio fue de 399.8
kilogramos

 ¿Cuál es la desviación estándar de los pesos de los


cinco animales? La desviación estándar es 11.12

Otra implicación importante de la desviación estándar es el hecho de que la mayoría de los


datos se
encuentra en un intervalo de x  s , esto indica que la mayor parte de los pesos de los
animales se
encuentra entre 399.8 − 11.12 = 388.68 y 399.8 + 11.12 = 410.92

De hecho, dos de los cinco pesos de los animales se encuentra en este rango: 385 y 415.

Varianza y desviación estándar de una distribución de frecuencias

¿Recuerdas el cambio que sufrió la fórmula de la media aritmética de datos no ordenados


cuando se utilizó para datos organizados en distribuciones de frecuencia?
De la misma
manera, las fórmulas de la desviación media, la varianza y la desviación estándar se verán afectadas por la
frecuencia absoluta (𝑓).

Para datos Para distribuciones


no de
agrupados frecuencia
Media aritmética x
 f x
i
x i i
n x
n
Desviación media D.M  xi D.M 
 x
 
fi 

x x
n n
n 2 2
Varianza n

 x i x   f  x i i  x
2
s  i1 2
s  i 1
n 1 n 1
2 2
Desviación n n
estándar
 x i x   f  x i i  x
s
i1 s i 1
n 1  n 1

Ejemplo

A partir de los datos de la tabla 5, calcula la desviación media, la varianza y la desviación estándar en una
distribución de frecuencias con intervalos.

Marca Frecuenc
Clas de ia
es clase 𝑓i
𝑥i
42- 44 2
46
47- 49 9
51
52- 54 31
56
57- 59 50
61
62- 64 51
66
67- 69 30
71
72- 74 7
76
180

Tabla 5. Tabla de distribución.

Para calcular x es necesario generar la columna fi  xi . Sin embargo, la media aritmética de esta
distribución de frecuencia ya la has resuelto en páginas anteriores.

x
 f x  11005  61.14
i i

n 180

x  x 2
Para encontrar la varianza es conveniente calcular la columna i y luego simplemente sumarla.
Todos estos cálculos pueden llevarse a cabo en Excel para facilitarlos y evitar errores.

Clas
Marca
de
Frecuenc
ia i
x  x 2 f  x  x 
i i
2

es clase 𝒇𝒊




42-46 44 2 (44-61.14)2 = (2)
293.77 (293.77)=587.5592
47-51 49 9 (49-61.14)2= (9)
147.37 (147.37)=1326.4164
52-56 54 31 50.97 1580.3676
57-61 59 50 4.57 228.98
62-66 64 51 8.17 417.1596
67-71 69 30 61.77 1853.388
72-76 74 7 165.37 1157.6572
180 7151.528
Tabla 6. Tabla de distribución para calcular la Varianza

7151.528
s2   39.952
179

s 3  6.32
9.
9
5
2
Usos frecuentes de la desviación estándar
Teorema de Chebyshev

Este teorema fue formulado por el matemático ruso Pafnuty Ivóvich Chebyshev.

El teorema de Chebyshev establece que, sin importar la distribución que tenga un conjunto
de datos, se puede encontrar el porcentaje de observaciones contenidas dentro de
𝑘 desviaciones estándar alrededor de la media usando la siguiente fórmula:
11%
k2

Donde 𝑘 es cualquier número mayor que uno (Monroy, 2008).


1  1  0.75%
22

¿Qué significa este resultado?, para el caso de Arturo, el agricultor que cosecha sandías, la media
aritmética fue x  5.45 con una desviación estándar de s  0.728 . Los límites del intervalo serán:

x  2(0.728)  5.45  0.728  6.906


x  2(0.728)  5.45  0.728  3.994
Es decir, el 75% de los pesos de las sandías cosechadas por Arturo estarán en el intervalo:

3.994  6.906
Coeficiente de variación
Aunque la desviación estándar es una medida de dispersión bastante útil, una de sus limitantes es que
cuando se trabaja con dos o más distribuciones de datos con medias distintas las conclusiones en torno a
la dispersión pueden no ser ciertas. Para estos casos se prefiere usar el coeficiente de variación.

Para Monroy (2008) el coeficiente de variación se define como la


expresión porcentual que representa la relación entre la desviación
estándar y la media aritmética. Y se obtiene usando la siguiente fórmula:

CV  
 xs


100%

El coeficiente de variación para el caso de los pesos de las sandías de Arturo, tomando en cuenta que
x  5.45y s  0.728 , sería entonces:

 0.728
 
CV  100%  13.36%
 
5.45
Por otra parte, si la media del peso de las conchas en una panadería es de
x  50.87 y la desviación
estándar (no calculada en el ejercicio) de 7.84, el coeficiente de variación de las conchas es entonces:
 
CV  7.8 100%  15.41%
4
 
50.87
 

Al comparar los coeficientes de variación anteriores es posible determinar que la variabilidad del peso de
las conchas fue mayor que la variabilidad del peso de las sandías. Nota que el peso de las sandías está
dado en kilogramos y el peso de las conchas en gramos y esto no fue impedimento para que se llevara a
cabo la comparación.

Más adelante en el Módulo se analiza la distribución de probabilidad normal, que es otra aplicación
importante de la desviación estándar.

En esta Unidad estudiaste las medidas de tendencia central que tienen como objetivo calcular el
valor medio de un conjunto de datos. Estas medidas son:

Mediana
Moda aritmética o Mediana
promedio

Es un valor Es el dato tal que,


Es el dato u
típico o antes y después de
observación que
promedio él, se encuentra el
más veces se
alrededor del 50 % del total de
presenta en el
cual se los datos
experimento o
agrupan los previamente
situación.
datos. ordenados.

La elección de su aplicación dependerá de la naturaleza de los datos o de la forma en que se utilicen.


Sin embargo, aunque al usar las medidas de tendencia central se puede obtener el valor medio de los
datos, éstos no arrojan información acerca de qué tan dispersos se encuentran los datos respecto al
valor medio. Esta característica estadística se obtiene aplicando las medidas de dispersión, cuyo
objetivo es representar la variabilidad de un conjunto de datos, es decir, cómo se dispersan en torno a
un valor central: la media aritmética. Las medidas de dispersión que revisaste son el rango, la
desviación media, la varianza y la desviación estándar.

Desviación Desviación
Rango Varianza
media estándar

Es la Significa el Es el Representa
diferencia promedio de promedio la raíz
que existe las diferencias de los cuadrada
entre el entre los datos cuadrados de la
dato mayor
y el dato
u de las
menor, es
observaciones diferencias
decir,
del conjunto de los
representa varianza.
respecto a la datos con
qué tanto
media respecto a
variaron los
aritmética. la media.
datos del
conjunto.

También podría gustarte