Unidad 3.
Medidas de tendencia central, posición y de dispersión
3.1 Medidas de tendencia central
En ocasiones de la vida cotidiana nos encontramos con que los datos proporcionan
una gran cantidad de información. Por ejemplo, cuando se dice que el costo
promedio de una habitación en diferentes hoteles es de 500 pesos, se están
resumiendo todos los precios obtenidos.
Las medidas de tendencia central son medidas estadísticas que pretenden resumir
en un solo valor a un conjunto de valores. Representan un centro en torno al cual
se encuentra ubicado el conjunto de los datos. Las medidas de tendencia central
más utilizadas son: media, mediana y moda.
Los Parámetros de tendencia central con menos uso, pero que vale la pena
mencionar, estas son: Media ponderada, media geométrica y media armónica.
Aunque son poco usadas, igual son importantes cuando definimos el para qué
sirven las medidas de tendencia central, ya que nos permiten tener estadísticas más
exactas, pues no todas los valores y series estadísticos tienen la misma importancia.
3.2 Calculo de medidas de tendencia central.
Los procedimientos para obtener las medidas estadísticas difieren levemente
dependiendo de la forma en que se encuentren los datos. Si los datos se encuentran
ordenados en una tabla estadística diremos que se encuentran “agrupados” y si
los datos no están en una tabla hablaremos de datos “no agrupados”.
Según este criterio, haremos primero el estudio de las medidas estadísticas para
datos no agrupados y luego para datos agrupados.
I. Para datos no agrupados
Las medidas de tendencia central pueden calcularse tanto para una población,
como para una muestra. Las medidas numéricas que se calculan sobre los datos
de la población se conocen como parámetros y cuando se refieren a la muestra se
conocen como estadísticos. Entre las medidas de tendencia central se encuentran:
a) Media.
La media aritmética o promedio de un conjunto de n mediciones es igual a la suma
de las mediciones dividida entre n. Como es frecuente que las fórmulas estadísticas
comprendan la suma de números o “sumarlos”, usamos un símbolo para indicar el
proceso de sumar. Suponga que hay n mediciones en la variable x y que las
llamamos x1, x2, …, xn. Para sumar las n mediciones, usamos esta notación
abreviada:
La letra griega mayúscula (Σ) pide sumar los términos que aparezcan a su derecha,
empezando con el número debajo de la sigma (i = 1) y terminando con el número
arriba (i = n).
Una medida de tendencia central que comúnmente se usa es la media, también
conocida como valor promedio o simplemente promedio. Se calcula de esta manera:
Ejemplo: Si bien llevar un registro de la precipitación pluvial es muy importante en
muchas actividades del ser humano, es particularmente valiosa para los
agricultores. Por ello, resulta de interés elaborar todos los años un historial de
cuanta lluvia ha caído. En México, hay una temporada de lluvias que ocurre entre
los meses de mayo y agosto. Pero, aunque se tiene el registro de lluvias de varios
años, aquí solo se considerara un periodo de 8 años, correspondientes al mes de
julio.
Llevar un registro de la precipitación pluvial nos permite planear muchas
actividades, como son la siembra, la limpieza de bordos para captar agua, el
desasolve del alcantarillado en grandes ciudades para evitar inundaciones,
etcétera. La media aritmética es una medida adecuada para saber la cantidad de
lluvia que cae en cierta zona. También nos permite conocer si en una región llueve
mas que en otra o comparar entre varios meses la cantidad de lluvia que cae en un
año.
Año 1992 1993 1994 1995 1996 1997 1998 1999
Julio 125.3 98.0 119.2 87.4 92.7 108.0 162.6 149.8
Tabla: Registro de datos de lluvia en mm.
La media se obtiene sumando los ocho valores que indican el registro de la
precipitación pluvial durante el mes de julio. El total se divide entre las
observaciones realizadas, que en este caso es de ocho. La media es:
125.3 + 98 + 119.2 + 87.4 + 92.7 + 108 + 162.6 + 149.8
𝑀𝑒𝑑𝑖𝑎 = = 117.875
8
b) Mediana.
La mediana m, es el valor que se encuentra exactamente a la mitad de un arreglo
ordenado de menor a mayor. De lo anterior se deduce que la mitad de las
observaciones son menores o iguales a la mediana.
Para determinar el valor de la mediana primero se obtiene el arreglo ordenado de
los datos con los que estemos trabajando y luego se identifica la mediana. Para
calcular la mediana debemos considerar dos casos:
a) Si el número de datos (n) es impar, la mediana es el valor de en medio.
b) Si el número de datos (n) es par, la mediana es el promedio de las dos
observaciones de en medio.
Al contrario de la media, a la mediana no la afectan valores extremos o aberrantes,
ya que sólo considera la posición del valor central.
Ejemplo 1: Encuentre la mediana para el conjunto de mediciones 2, 9, 11, 5, 6.
Solución Ordene las n = 5 mediciones de menor a mayor:
2 5 6 9 11
La observación de en medio, marcada en color, es el centro del conjunto, o sea:
m=6
Ejemplo 2: Encuentre la mediana para el conjunto de mediciones 2, 9, 11, 5, 6, 27.
Ordene las mediciones de menor a mayor:
2 5 6 9 11 27
Ahora hay dos observaciones “de en medio”, vistas en la caja. Para hallar la
mediana, escoja un valor a la mitad entre las dos observaciones de en medio:
6+ 9
𝑀𝑒 = = 7.5
2
c) Moda.
La moda es el valor que más se repite en una lista de datos, es decir, el que se
presenta con mayor frecuencia. Puede darse el caso que haya dos modas en una
lista de datos, lo que recibe el nombre de bimodal. Si hay más de dos modas, se
denomina multimodal.
Calcular la moda de un conjunto de datos puede realizarse a través de varios
métodos, dependiendo de la naturaleza de los datos y la herramienta estadística
utilizada. Los métodos más comunes incluyen el método del conteo, el método de
la fórmula y el método de la tabla de frecuencias.
El método del conteo implica identificar el valor que aparece con mayor frecuencia
al observar directamente los datos. Este enfoque es útil cuando se trabaja con
conjuntos de datos pequeños y fácilmente legibles, ya que se puede determinar
visualmente el valor que se repite con mayor frecuencia. Por ejemplo supongamos
que tenemos el siguiente conjunto de datos: 3, 5, 2, 3, 8, 3, 4, 6, 3. Al observar los
datos, podemos identificar que el valor 3 aparece con mayor frecuencia, por lo que
la moda es 3.
El método de la fórmula para calcular la moda implica el uso de una fórmula
matemática específica que puede aplicarse a conjuntos de datos más extensos.
Esta fórmula permite determinar la moda sin la necesidad de observar cada valor
individual en el conjunto de datos, lo que lo hace eficiente para conjuntos de datos
grandes. Por ejemplo para un conjunto de datos más extenso, como las
calificaciones de un examen en una clase, el método de la fórmula puede ser más
eficiente. Al aplicar la fórmula correspondiente, el cálculo de la moda se puede
realizar de manera sistemática y rápida.
El método de la tabla de frecuencias es especialmente útil cuando se trabaja con
conjuntos de datos que exhiben una amplia gama de valores. Consiste en organizar
los datos en una tabla que muestra la frecuencia de cada valor, lo que facilita la
identificación de la moda al observar las frecuencias relativas. Por ejemplo en un
escenario donde se recopilan datos de encuestas con múltiples opciones de
respuesta, la construcción de una tabla de frecuencias facilita la identificación de la
moda al observar las frecuencias relativas de las diferentes respuestas.
Ejemplo 3. Doce oficinistas cobran $5.96, $5.96, $4.52, $5.96, $5.28, $11.20,
$5.28, $5.96, $5.28, $5.75, $5.96, y $5.75 por hora de trabajo. Hallar:
a) La mediana
b) La media de esas cantidades
c) La moda
a) Para determinar la mediana, ordenamos los datos de menor a mayor:
$4.52, $5.28, $5.28, $5.28, $5.75, $5.75, $5.96, $5.96, $5.96, $5.96, $5.96, $11.20
Como hay un número par, determinamos el promedio de los 2 datos:
5.75 + 5.96
𝑀𝑒 = = $5.86
2
b) Determinamos la media
4.52 + 5.28 + 5.28 + 5.28 + 5.75 + 5.75 + 5.96 + 5.96 + 5.96 + 5.96 + 5.96 + 11.2
𝜇=
12
= $6.07
c) Ordenando los datos observamos cual se repite:
$4.52, $5.28, $5.28, $5.28, $5.75, $5.75, $5.96, $5.96, $5.96, $5.96, $5.96, $11.20
Por lo tanto, la moda es $5.96
Nota: Nótese que la mediana no se ve afectada por el valor extremo de $11.20, mientras
que la media sí. En este caso, la mediana da mejor indicación del salario medio que la
mediana.
II. Para datos agrupados
El término datos agrupados se refiere a cuando tenemos los datos divididos por
clases y contamos únicamente con la frecuencia de cada una de ellas, es decir,
cuando tenemos una tabla de frecuencias. En esta sección se explican tres medidas
de tendencia central para datos agrupados: la media, la mediana y la moda
aproximadas.
La media o promedio aproximada se obtiene al sumar todos los productos de la
frecuencia por la marca de clase y dividir entre el total de datos, es decir,
Donde:
xa es la media aproximada.
fi es la frecuencia absoluta de la clase i.
xi es la marca de clase i.
n es el número de observaciones.
Para determinar la mediana de un conjunto de datos agrupados, es necesario
utilizar la fórmula de interpolación:
Donde:
Li-1 es el límite inferior del intervalo donde se encuentra la mediana.
Fi-1 es la frecuencia acumulada anterior al intervalo del a mediana.
fi es la frecuencia absoluta del intervalo donde se encuentra la mediana.
N es el número de observaciones.
a es la amplitud del intervalo
Finalmente, la moda aproximada es la marca de clase con la frecuencia más alta.
En un conjunto de datos se puede presentar el caso que haya dos modas, lo que
se llama distribución bimodal. Si tiene más de dos modas, recibe el nombre de
multimodal.
Ejemplo. Considere los salarios de 65 empleados de una empresa, mostrado en la
tabla y determine:
Salarios (pesos) No. de empleados
250-259.99 8
a) La media 260-269.99 10
b) La mediana 270-279.99 16
280-289.99 14
290-299.99 10
300-309.99 5
310-319.99 2
Total: 65
𝟏 𝟏𝟖𝟏𝟖𝟒.𝟔𝟕𝟓
a) = 𝟔𝟓 ∑𝟕𝒊=𝟏 𝑭𝒊 ∗ 𝑿𝒊 = = 𝟐𝟕𝟗. 𝟕𝟔𝟒𝟐
𝑿𝒂 𝟔𝟓
Salarios No. Emp. (Fi) Marca (Xi) Fi*Xi FA_ac
250>>259.99 8 254.995 2039.96 8
260>>269.99 10 264.995 2649.95 18
270>>279.99 16 274.995 4399.92 34
280>>289.99 14 284.995 3989.93 48
290>>299.99 10 294.995 2949.95 58
300>>309.99 5 304.995 1524.975 63
310>>319.99 2 314.995 629.99 65
Total 18184.675
b) Primero necesitamos determinar el punto de interés, en este caso
la mitad por tanto calculamos:
𝑵 𝟔𝟓
= = 𝟑𝟐. 𝟓
𝟐 𝟐
𝑵
−𝑭𝒊−𝟏 𝟑𝟐.𝟓−𝟏𝟖
𝟐
𝑴𝒆 = 𝑳𝒊−𝟏 + ∗ 𝑨𝒏𝒄𝒉𝒐 = 𝟐𝟔𝟗. 𝟗𝟗𝟓 + (𝟏𝟎)
𝒇𝒊 𝟏𝟔
Me = 279.057𝟓
3.3 Medidas de Posición
a) Cuartiles
Aquellos valores que dividen al conjunto de datos en cuatro partes iguales
denotados como C1, C2 y C3, se llaman primer, segundo y tercer cuartiles,
respectivamente. El C2 coincide con la mediana.
𝒌𝑵
− 𝑭𝒂𝒏𝒕
𝑪𝒌 = 𝑳𝒊𝒏𝒇 + 𝟒 ∗𝑨
𝒇𝒌
Donde:
Linf = Límite real inferior de la clase del cuartil k.
N = Número de datos.
Fant = Frecuencia acumulada de la clase que antecede a la clase del cuartil k.
fk = Frecuencia de la clase del cuartil k.
A = Longitud del intervalo de la clase (ancho) del cuartil k.
b) Deciles
Aquellos valores que dividen al conjunto de datos en diez partes iguales denotados
como D1, D2, …, D9, se llaman deciles. El D5 coincide con la mediana y con C2.
Los deciles, al igual que los cuartiles, son ampliamente utilizados para fijar el
aprovechamiento académico.
Para datos agrupados los deciles se calculan mediante la fórmula.
𝒌𝑵
− 𝑭𝒂𝒏𝒕
𝑫𝒌 = 𝑳𝒊𝒏𝒇 + 𝟏𝟎 ∗𝑨
𝒇𝒌
Donde:
K = 1,2,3,... 9
Linf = Límite real inferior de la clase del decil k
N = Número de datos
Fant = Frecuencia acumulada de la clase que antecede a la clase del decil k.
fk = Frecuencia de la clase del decil k
A = Longitud del intervalo de la clase(ancho), del decil k
c) Percentiles
Los percentiles son, tal vez, las medidas más utilizadas para propósitos de ubicación
o clasificación de las personas cuando atienden características tales como peso,
estatura, etc.
Aquellos valores que dividen al conjunto de datos en cien partes iguales denotados
como P1, P2,…, P99, se llaman percentiles. El P50 coincide con la mediana.
Cuando los datos están agrupados en una tabla de frecuencias, se calculan
mediante la fórmula:
𝒌𝑵
− 𝑭𝒂𝒏𝒕
𝑷𝒌 = 𝑳𝒊𝒏𝒇 + 𝟏𝟎𝟎 ∗𝑨
𝒇𝒌
Donde:
K = 1,2,3,..., 99.
Linf = Límite real inferior de la clase del percentil k.
N = Número de datos.
Fant = Frecuencia acumulada de la clase que antecede a la clase del percentil k.
fk = Frecuencia de la clase del percentil k.
A = Longitud del intervalo de la clase del percentil k.
Ejemplo. Considere los salarios de 65 empleados de una empresa, mostrado en la
tabla y determine:
a) C1
b) D2
c) P40
a) El primer cuartil es el salario contando N/4 = 65/4 = 16.25 de los casos,
comenzando con la primera clase, (la más baja). Como la primera clase contiene 8
casos, debemos tomar 8.25 obtenidos de (16.25 - 8), de los 10 casos de la segunda
clase. Por interpolación lineal se tiene:
Salarios No. Emp. (fk) FA_ac
(𝟏)(𝟔𝟓) 250>>259.99 8 8
− 𝑭𝒂𝒏𝒕
𝑪𝟏 = 𝑳𝒊𝒏𝒇 + 𝟒 ∗𝑨 260>>269.99 10 18
𝒇𝒌 270>>279.99 16 34
280>>289.99 14 48
𝟏𝟔. 𝟐𝟓 − 𝟖 290>>299.99 10 58
𝑪𝟏 = 𝟐𝟓𝟗. 𝟗𝟗𝟓 + ∗ 𝟏𝟎 = 𝟐𝟔𝟖. 𝟐𝟒𝟓
𝟏𝟎 300>>309.99 5 63
310>>319.99 2 65
b) El segundo decil es el salario contando 2N/10 = 65/5 = 13 de los casos,
comenzando con la primera clase, (la más baja). Como la primera clase contiene 8
casos, debemos tomar 5 obtenidos de (13-8), de los 10 casos de la segunda clase.
Por interpolación lineal se tiene:
Salarios No. Emp. (fk) FA_ac
(𝟐)(𝟔𝟓) 250>>259.99 8 8
− 𝑭𝒂𝒏𝒕
𝑫𝟐 = 𝑳𝒊𝒏𝒇 + 𝟏𝟎 ∗𝑨 260>>269.99 10 18
𝒇𝒌 270>>279.99 16 34
280>>289.99 14 48
𝟏𝟑 − 𝟖
𝑫𝟐 = 𝟐𝟓𝟗. 𝟗𝟗𝟓 + ∗ 𝟏𝟎 = 𝟐𝟔𝟒. 𝟗𝟗𝟓 290>>299.99 10 58
𝟏𝟎 300>>309.99 5 63
310>>319.99 2 65
c) El percentil cuarenta es el salario contando 40N/100 = 2(65)/5 = 26 de los casos,
debemos tomar 26 obtenidos de (13-18), de los 16 casos de la segunda clase. Por
interpolación lineal se tiene:
Salarios No. Emp. (fk) FA_ac
(𝟒𝟎)(𝟔𝟓) 250>>259.99 8 8
− 𝑭𝒂𝒏𝒕
= 𝑳𝒊𝒏𝒇 + 𝟏𝟎𝟎
260>>269.99 10 18
𝑷𝟒𝟎 ∗𝑨
𝒇𝒌 270>>279.99 16 34
280>>289.99 14 48
𝟐𝟔 − 𝟏𝟖 290>>299.99 10 58
𝑷𝟒𝟎 = 𝟐𝟔𝟗. 𝟗𝟗𝟓 + ∗ 𝟏𝟎 = 𝟐𝟕𝟒. 𝟗𝟗𝟓
𝟏𝟔 300>>309.99 5 63
310>>319.99 2 65
Ejercicios en clase: Considere el ejemplo anterior y determine:
a) C2
b) D3 y D7
c) P80 y P90