UNIVERSIDAD FRANCISCO DE PAULA SANTANDER
DEPARTAMENTO DE MATEMATICAS Y ESTADISTICA
CAPÍTULO 4: MEDIDAS DE TENDENCIA CENTRAL Y DE DISPERSIÓN
OBJETIVO: Determinar e interpretar algunas medidas de posicionamiento central y de dispersión
para contextualizarla en el entorno de un problema real.
Estadística Descriptiva
Se ha considerado en capítulos anteriores, que la estadística tenía como finalidad, entre otras, la
de describir el comportamiento de un hecho o de un conjunto de observaciones, mediante la
elaboración de distribuciones de frecuencia y de gráficas, ahora en esta unidad se adicionaran el
cálculo de las llamadas medidas de tendencia central y de dispersión.
Una vez que se han recogido los valores que toman las variables en un estudio (datos), se
procede al análisis descriptivo de los mismos. Para variables categóricas, como el género, se
quiere conocer el número de casos en cada una de las categorías, reflejando habitualmente el
porcentaje que representan del total, y expresándolo en una distribución de frecuencias.
Para variables numéricas, en las que puede haber un gran número de valores observados
distintos, se ha de optar por un método de análisis distinto, respondiendo a las siguientes
preguntas:
a. ¿Alrededor de qué valor se agrupan los datos?
b. Supuesto que se agrupan alrededor de un número, ¿cómo lo hacen? ¿muy concentrados?
¿muy dispersos?
Medidas de Tendencia Central o de Posicionamiento, permiten determinar la posición de un
valor respecto a un conjunto de datos, el cual se considera representativo para el total de las
observaciones. Cuando en una investigación se afirma que en cierto barrio de la ciudad el
consumo promedio de refresco a la semana es de 2,5 litros, se está representando una gama de
consumos que van desde familias que no consumen nada hasta aquellas cuyo consumo es
superior a los 2,5 litros. Con dicha información se hace referencia al consumo de refresco en dicha
parte de la ciudad, pero a su vez dicho valor se puede comparar con el obtenido en otro barrio o en
otra ciudad.
Dentro de las medidas de Tendencia Central mas utilizadas son las siguientes:
La Media Aritmética , es la medida de posición más utilizada, la más conocida y sencilla de
calcular, de gran estabilidad en el muestreo y sus fórmulas admiten tratamientos algebraicos. Su
desventaja principal es el de ser muy sensible a los cambios que se haga en algunos de sus
valores, o cuando los valores extremos son demasiado grandes o pequeños.
Como ejemplo, considere 10 pacientes de edades 21 años, 32, 15, 59, 60, 61, 64, 60, 71, y 80. La
media de edad de estos sujetos será de:
Más formalmente, si se denota por (X1, X2,...,Xn) los n datos recogidos de la variable en cuestión, el
valor medio vendrá dado por:
Media datos no agrupados Media datos agrupados =
Media poblacional
Donde,
UNIVERSIDAD FRANCISCO DE PAULA SANTANDER
DEPARTAMENTO DE MATEMATICAS Y ESTADISTICA
Xi = representa cada uno de los datos recolectados
n = representa el tamaño de la muestra
ci = representa marca de clase
ni = representa la frecuencia absoluta de cada intervalo
= representa la sumatoria de todos los resultados
La Mediana Me , se define como aquel valor de la variable que supera a no más de la mitad de las
observaciones y al mismo tiempo es superado por no más de la mitad de las observaciones , es
decir, la mediana es el valor central.
La mediana del ejemplo anterior sería el valor que deja a la mitad de los datos por encima de dicho
valor y a la otra mitad por debajo. Si ordenamos los datos de mayor a menor observamos la
secuencia:
15, 21, 32, 59, 60, 60,61, 64, 71, 80.
Como quiera que en este ejemplo el número de observaciones es par (10 individuos), los dos
valores que se encuentran en el medio son 60 y 60. Si realizamos el cálculo de la media de estos
dos valores nos dará a su vez 60, que es el valor de la mediana.
Si la media y la mediana son iguales, la distribución de la variable es simétrica. La media es muy
sensible a la variación de las puntuaciones. Sin embargo, la mediana es menos sensible a dichos
cambios. Las expresiones que permiten calcular el valor de la mediana son las siguientes:
ci
Mediana datos no agrupados Mediana datos agrupados
Donde,
ni + 1 = representa el número total de observaciones más uno
Xi – 1 = representa el valor inicial del intervalo que contiene en su frecuencia absoluta acumulada el
valor n / 2
ni = representa la frecuencia absoluta del intervalo que contiene en su frecuencia absoluta
acumulada el valor n / 2
Ni – 1 = representa la frecuencia absoluta acumulada anterior al intervalo que contiene al valor n / 2
en su frecuencia absoluta acumulada
ci = representa la marca de clase del intervalo que contiene el valor n / 2 en su frecuencia absoluta
acumulada
La Moda o Modo Md , se define como aquel valor de la variable que contiene a la mayor frecuencia
absoluta. En el ejemplo anterior el valor que más se repite es 60, que es la moda.
Medidas de localización cuando la distribución contiene un número alto de intervalos y se
requiere obtener un promedio de una parte de ella, se puede dividir la distribución en cuatro, en
diez o en cien partes. En el primer caso se habla de Cuartiles, en el segundo se denomina Deciles
y en el último caso Percentiles. Las expresiones que permiten calcular dichos valores son las
siguientes:
ci
Cuartiles datos no agrupados Cuartiles datos agrupados
UNIVERSIDAD FRANCISCO DE PAULA SANTANDER
DEPARTAMENTO DE MATEMATICAS Y ESTADISTICA
ci
Deciles datos no agrupados Deciles datos agrupados
ci
Percentiles datos no agrupados Percentiles datos agrupados
En el caso de datos no agrupados se hace necesario antes de la aplicación de la fórmula realizar el
proceso de ordenamiento bien sea en forma ascendente o descendente. Para datos agrupados, se
realiza la aplicación de las expresiones definidas anteriormente.
Medidas de dispersión tal y como se adelantaba antes, otro aspecto a tener en cuenta al describir
datos continuos es la dispersión de los mismos. Existen distintas formas de cuantificar esa
variabilidad. De todas ellas, la Varianza (S2) de los datos es la más utilizada. Es la media de los
cuadrados de las diferencias entre cada valor de la variable y la media aritmética de la distribución.
Esta varianza muestral se obtiene como la suma de las de las
diferencias de cuadrados y por tanto tiene como unidades e
medida el cuadrado de las unidades de medida en que se mide la variable estudiada. En el ejemplo
anterior la varianza sería:
Sx2=
La Desviación Típica o Estándar (S) es la raíz cuadrada de la varianza. Expresa la dispersión de
la distribución y se expresa en las mismas unidades de medida de la variable. La desviación típica
es la medida de dispersión más utilizada en estadística.
Aunque esta fórmula de la desviación típica muestral es correcta, en la práctica, la estadística nos
interesa para realizar inferencias poblacionales, por lo que en el denominador se utiliza, en lugar de
n, el valor n-1.
Por tanto, la medida que se utiliza es la cuasidesviación típica, dada por:
Aunque en muchos contextos se utiliza el término de desviación típica para referirse a ambas
expresiones.
En los cálculos del ejercicio previo, la desviación típica muestral, que tiene como denominador n, el
valor sería 20.678. A efectos de cálculo lo haremos como n-1 y el resultado seria 21,79. El haber
cambiado el denominador de n por n-1 está en relación al hecho de que esta segunda fórmula es
una estimación más precisa de la desviación estándar verdadera de la población y posee las
propiedades que necesarias para realizar inferencias a la población.
UNIVERSIDAD FRANCISCO DE PAULA SANTANDER
DEPARTAMENTO DE MATEMATICAS Y ESTADISTICA
Como medidas de variabilidad más importantes, conviene destacar algunas características de la
varianza y desviación típica:
Son índices que describen la variabilidad o dispersión y por tanto cuando los datos están
muy alejados de la media, el numerador de sus fórmulas será grande y la varianza y la
desviación típica lo serán.
Al aumentar el tamaño de la muestra, disminuye la varianza y la desviación típica. Para
reducir a la mitad la desviación típica, la muestra se tiene que multiplicar por 4.
Cuando todos los datos de la distribución son iguales, la varianza y la desviación típica son
iguales a 0.
Para su cálculo se utilizan todos los datos de la distribución; por tanto, cualquier cambio de
valor será detectado.
Otra medida que se suele utilizar es el coeficiente de variación (CV). Es una medida de
dispersión relativa de los datos y se calcula dividiendo la desviación típica muestral por la media y
multiplicando el cociente por 100. Su utilidad estriba en que nos permite comparar la dispersión o
variabilidad de dos o más grupos. Así, por ejemplo, si tenemos el peso de 5 pacientes (70, 60, 56,
83 y 79 Kg) cuya media es de 69,6 kg. y su desviación típica (s) = 10,44 y la TAS de los mismos
(150, 170, 135, 180 y 195 mmHg) cuya media es de 166 mmHg y su desviación típica de 21,3. La
pregunta sería: ¿qué distribución es más dispersa, el peso o la tensión arterial? Si comparamos las
desviaciones típicas observamos que la desviación típica de la tensión arterial es mucho mayor; sin
embargo, no podemos comparar dos variables que tienen escalas de medidas diferentes, por lo
que calculamos los coeficientes de variación:
CV de la variable peso =
CV de la variable TAS =
A la vista de los resultados, se observa que la variable peso tiene mayor dispersión.
EJERCICIOS
Con la información de los siguientes ejercicios, determinar las medidas de tendencia dentral, de
localización y de dispersión.
1. Los datos representan el precio en centavos para una muestra de 20 marcas de agua mineral
en recipientes de 8 onzas de venta en supermercados de la ciudad de Nueva York.
31 35 36 34 40 38 68 46 28 33 31 34
30 42 32 34 63 22 38 28 30 24 10 58
47 30 47 56 24 12 16 18 32 28 29 38
20 10 64 59 42 43 61 53 52 50 49 48
2. Los datos representan el precio al menudeo de una muestra de diferentes grabadoras de muy
buena calidad.
899 799 799 1199 700 900 850 1500 580 1000 629 850
600 899 700 1195 1150 799 750 889 1200 1595 629 729
1050 999 899 1200 650 450 356 874 685 1200 1033 564
546 789 540 682 268 426 879 975 364 842 605
1065
3. La siguiente tabla muestra el número de bodas en Colombia para hombres y mujeres de
distintos grupos de edad durante el año 2003.
UNIVERSIDAD FRANCISCO DE PAULA SANTANDER
DEPARTAMENTO DE MATEMATICAS Y ESTADISTICA
Calcule todas las medidas de tendencia central y de dispersión.