Distribución de frecuencias
Las distribuciones de frecuencias son tablas en que se dispone las modalidades
de la variable por filas. En las columnas se dispone el número de ocurrencias por
cada valor, porcentajes, etc. La finalidad de las agrupaciones en frecuencias es
facilitar la obtención de la información que contienen los datos.
Ejemplo: Quieren conocer si un grupo de individuos está a favor o en contra de la
exhibición de imágenes violentas por televisión, para lo cual han recogido los
siguientes datos:
La inspección de los datos originales no permite responder fácilmente a
cuestiones como cuál es la actitud mayoritaria del grupo, y resulta bastante más
difícil determinar la magnitud de la diferencia de actitud entre hombres y mujeres.
Podemos hacernos mejor idea si disponemos en una tabla los valores de la
variable acompañados del número de veces (la frecuencia) que aparece cada
valor:
X: Símbolo genérico de la variable.
f: Frecuencia (también se simboliza como ni).
La distribución de frecuencias de los datos del ejemplo muestra que la actitud
mayoritaria de los individuos del grupo estudiado es indiferente.
La interpretación de los datos ha sido facilitada porque se ha reducido el número
de números a examinar (en vez de los 20 datos originales, la tabla contiene 5
valores de la variable y 5 frecuencias).
Generalmente las tablas incluyen varías columnas con las frecuencias relativas
(son el número de ocurrencias dividido por el total de datos, y se simbolizan "fr" o
"pi"), frecuencias acumuladas (la frecuencia acumulada es el total de frecuencias
de los valores iguales o inferiores al de referencia, y se simbolizan "f a" o "na". No
obstante la frecuencia acumulada también es definida incluyendo al valor de
referencia), frecuencias acumuladas relativas (la frecuencia acumulada relativa es
el total de frecuencias relativas de los valores iguales o inferiores al de referencia,
y se simbolizan "fr" o "pa")
Ejemplo: Consideremos el siguiente grupo de datos:
La distribución de freciemcias es:
La reducción de datos mediante el agrupamiento en frecuencias no facilita su
interpretación: La tabla es demasiado grande. Para reducir el tamaño de la tabla
agrupamos los valores en intervalos, y las frecuencias son las de los conjuntos de
valores incluidos en los intervalos:
Ahora es más sencillo interpretar los datos. Por ejemplo, podemos apreciar
inmediatamente que el intervalo con mayor número de datos es el 34-39, o que el
75% de los datos tiene valor inferior a 46.
Este tipo de tabla es denominado "tabla de datos agrupados en intervalos".
Elementos básicos de las tablas de intervalos:
Intervalo: Cada uno de los grupos de valores de la variable que ocupan una
fila en una distribución de frecuencias
Límites aparentes: Valores mayor y menor del intervalo que son observados
en la tabla. Dependen de la precisión del instrumento de medida. En el
ejemplo, los límites aparentes del intervalo con mayor número de
frecuencias son 34 y 39.
Límites exactos: Valores máximo y mínimo del intervalo que podrían
medirse si se contara con un instrumento de precisión perfecta. En el
intervalo 34-39, estos límites son 33.5 y 39.5
Punto medio del intervalo (Mco Marca de clase): Suma de los límites
dividido por dos. Mc del intervalo del ejemplo= 36.5
Amplitud del intervalo: Diferencia entre el límite exacto superior y el límite
exacto inferior. En el ejemplo es igual a 6.
Medidas de tendencia central
Promedio o media
La medida de tendencia central más conocida y utilizada es la media
aritmética o promedio aritmético. Se representa por la letra griega µ
cuando se trata del promedio del universo o población y por Ȳ (léase Y
barra) cuando se trata del promedio de la muestra. Es importante
destacar que µ es una cantidad fija mientras que el promedio de la
muestra es variable puesto que diferentes muestras extraídas de la
misma población tienden a tener diferentes medias. La media se
expresa en la misma unidad que los datos originales: centímetros,
horas, gramos, etc.
Si una muestra tiene cuatro observaciones: 3, 5, 2 y 2, por definición el
estadígrafo será:
Tamaño completo
Estos cálculos se pueden simbolizar:
Tamaño completo
Donde Y1 es el valor de la variable en la primera observación, Y2 es el
valor de la segunda observación y así sucesivamente. En general, con
“n” observaciones, Yi representa el valor de la i-ésima observación. En
este caso el promedio está dado por
Tamaño completo
De aquí se desprende la fórmula definitiva del promedio:
Tamaño completo
Desviaciones: Se define como la desviación de un dato a la diferencia
entre el valor del dato y la media:
Tamaño completo
Ejemplo de desviaciones:
Tamaño completo
Una propiedad interesante de la media aritmética es que la suma de las
desviaciones es cero.
Mediana
Otra medida de tendencia central es la mediana. La mediana es el valor
de la variable que ocupa la posición central, cuando los datos se
disponen en orden de magnitud. Es decir, el 50% de las observaciones
tiene valores iguales o inferiores a la mediana y el otro 50% tiene
valores iguales o superiores a la mediana.
Si el número de observaciones es par, la mediana corresponde al
promedio de los dos valores centrales. Por ejemplo, en la muestra 3, 9,
11, 15, la mediana es (9+11)/2=10.
Moda
La moda de una distribución se define como el valor de la variable que
más se repite. En un polígono de frecuencia la moda corresponde al
valor de la variable que está bajo el punto más alto del gráfico. Una
muestra puede tener más de una moda.
Medidas de dispersión
Las medidas de dispersión entregan información sobre la variación de la
variable. Pretenden resumir en un solo valor la dispersión que tiene un
conjunto de datos. Las medidas de dispersión más utilizadas son: Rango
de variación, Varianza, Desviación estándar, Coeficiente de variación.
Rango de variación
Se define como la diferencia entre el mayor valor de la variable y el
menor valor de la variable.
Tamaño completo
La mejor medida de dispersión, y la más generalizada es la varianza, o
su raíz cuadrada, la desviación estándar. La varianza se representa con
el símbolo σ² (sigma cuadrado) para el universo o población y con el
símbolo s2 (s cuadrado), cuando se trata de la muestra. La desviación
estándar, que es la raíz cuadrada de la varianza, se representa por σ
(sigma) cuando pertenece al universo o población y por “s”, cuando
pertenece a la muestra. σ² y σ son parámetros, constantes para una
población particular; s2 y s son estadígrafos, valores que cambian de
muestra en muestra dentro de una misma población. La varianza se
expresa en unidades de variable al cuadrado y la desviación estándar
simplemente en unidades de variable.
Fórmulas
Donde µ es el promedio de la población.
Tamaño completo
Donde Ȳ es el promedio de la muestra.
Tamaño completo
Consideremos a modo de ejemplo una muestra de 4 observaciones
Según la fórmula el promedio calculado es 7, veamos ahora el cálculo de
las medidas de dispersión:
Tamaño completo
s2 = 34 / 3 = 11,33 Varianza de la muestra
La desviación estándar de la muestra (s) será la raíz cuadrada de 11,33
= 3,4.
Interpretación de la varianza (válida también para la desviación
estándar): un alto valor de la varianza indica que los datos están
alejados del promedio. Es difícil hacer una interpretación de la varianza
teniendo un solo valor de ella. La situación es más clara si se comparan
las varianzas de dos muestras, por ejemplo varianza de la muestra igual
18 y varianza de la muestra b igual 25. En este caso diremos que los
datos de la muestra b tienen mayor dispersión que los datos de la
muestra a. esto significa que en la muestra a los datos están más cerca
del promedio y en cambio en la muestra b los datos están más alejados
del promedio.
Coeficiente de variación
Es una medida de la dispersión relativa de los datos. Se define como la
desviación estándar de la muestra expresada como porcentaje de la
media muestral.
Tamaño completo
Es de particular utilidad para comparar la dispersión entre variables con
distintas unidades de medida. Esto porque el coeficiente de variación, a
diferencia de la desviación estándar, es independiente de la unidad de
medida de la variable de estudio.
Medidas de tendencia central y de dispersión en datos agrupados
Se identifica como datos agrupados a los datos dispuestos en una
distribución de frecuencia. En tal caso las fórmulas para el cálculo de
promedio, mediana, modo, varianza y desviación estándar deben incluir
una leve modificación. A continuación se entregan los detalles para cada
una de las medidas.
Promedio en datos agrupados
La fórmula es la siguiente:
Tamaño completo
Donde ni representa cada una de las frecuencias correspondientes a los
diferentes valores de Yi.
Consideremos como ejemplo una distribución de frecuencia de madres
que asisten a un programa de lactancia materna, clasificadas según el
número de partos. Por tratarse de una variable en escala discreta, las
clases o categorías asumen sólo ciertos valores: 1, 2, 3, 4, 5.
Tamaño completo
Tamaño completo
Entonces las 42 madres han tenido, en promedio, 2,78 partos.
Si la variable de interés es de tipo continuo será necesario determinar,
para cada intervalo, un valor medio que lo represente. Este valor se
llama marca de clase (Yc) y se calcula dividiendo por 2 la suma de los
límites reales del intervalo de clase. De ahí en adelante se procede del
mismo modo que en el ejercicio anterior, reemplazando, en la formula
de promedio, Yi por Yc.
Mediana en datos agrupados
Si la variable es de tipo discreto la mediana será el valor de la variable
que corresponda a la frecuencia acumulada que supere inmediatamente
a n/2. En los datos de la tabla 1 Me=3, ya que 42/2 es igual a 21 y la
frecuencia acumulada que supera inmediatamente a 21 es 33, que
corresponde a un valor de variable (Yi) igual a 3.
Si la variable es de tipo continuo es necesario, primero, identificar la
frecuencia acumulada que supere en forma inmediata a n/2, y luego
aplicar la siguiente fórmula:
Tamaño completo
Donde:
Tamaño completo
Moda en datos agrupados
Si la variable es de tipo discreto la moda o modo será al valor de la
variable (Yi) que tenga la mayor frecuencia absoluta ( ). En los datos de
la tabla 1 el valor de la moda es 3 ya que este valor de variable
corresponde a la mayor frecuencia absoluta =16.
Más adelante se presenta un ejemplo integrado para promedio,
mediana, varianza y desviación estándar en datos agrupados con
intervalos.
Varianza en datos agrupados
Para el cálculo de varianza en datos agrupados se utiliza la fórmula
Tamaño completo
Con los datos del ejemplo y recordando que el promedio (Y) resultó ser
2,78 partos por madre,
Tamaño completo
Tamaño completo
Cuando los datos están agrupados en intervalos de clase, se trabaja con
la marca de clase (Yc), de tal modo que la fórmula queda:
Tamaño completo
Donde Yc es el punto medio del intervalo y se llama marca de clase del
intervalo
Yc= (Límite inferior del intervalo + limite superior del intervalo)/2.
Percentiles
Los percentiles son valores de la variable que dividen la distribución en
100 partes iguales. De este modo si el percentil 80 (P80) es igual a 35
años de edad, significa que el 80% de los casos tiene edad igual o
inferior a 35 años.
Su procedimiento de cálculo es relativamente simple en datos
agrupados sin intervalos.
Retomemos el ejemplo de la variable número de partos:
Tamaño completo
El percentil j (Pj) corresponde al valor de la variable (Yi ) cuya
frecuencia acumulada supera inmediatamente al “j” % de los casos
(jxn/100).
El percentil 80, en los datos de la tabla, será el valor de la variable cuyo
Ni sea inmediatamente superior a 33,6 ((80x42) /100).
El primer Ni que supera a 33,6 es 39. Por lo tanto al percentil 80 le
corresponde el valor 4. Se dice entonces que el percentil 80 es 4 partos
(P80=4). Este resultado significa que un 80% de las madres estudiadas
han tenido 4 partos o menos.
Si los datos están agrupados en una tabla con intervalos, el
procedimiento es levemente más complejo ya que se hace necesaria la
aplicación de una fórmula.
Tamaño completo
Se aplica a los datos del intervalo cuya frecuencia acumulada ( Ni ) sea
inmediatamente superior al “j” % de los casos (jxn/100).
En la siguiente tabla se muestra la distribución de 40 familias según su
ingreso mensual en miles de pesos. Nótese que para calcular el centro
de clase se usaron los límites reales de cada intervalo.
Tamaño completo
1. El ingreso mensual promedio será:
Tamaño completo
2. La mediana será:
Tamaño completo
Esto significa que un 50% de las familias tiene ingreso mensual igual o
inferior a $127.270.
3. El percentil 78 será:
Tamaño completo
Por lo tanto se puede decir que 78% de las familias tienen ingreso igual
o inferior a $174.660.
4. Los percentiles 10 y 90 serán:
Tamaño completo
Tamaño completo
A base de los valores de los percentiles 10 y 90 se pueden hacer tres
afirmaciones:
El 10% de las familias tiene ingreso igual o inferior a $90.000.
El 90% de las familias tiene ingreso igual o inferior a $210.000.
El 80% central, de las familias, tiene ingreso entre $90.000 y $210.000
5. - La varianza será:
Conclusión:
Referencias
Distribución de frecuencias. (2022). Www.uv.es.
https://www.uv.es/webgid/Descriptiva/3_distribucin_de_frecuencias.html
Fernando Quevedo Ricardi. (2011, March 2). Medidas de tendencia central y dispersión.
Medwave.cl.
https://www.medwave.cl/series/MBE04/4934.html#:~:text=Las%20medidas%20de%
20tendencia%20central,%3A%20media%2C%20mediana%20y%20moda.