Estadística Descriptiva Mario Luque Bernabé
3. DISTRIBUCIONES DE FRECUENCIAS
Entes para la obtención de datos
Los datos provienen de observaciones reales o de documentos que se conservan para
usos ordinarios. Por ejemplo, El Instituto Nacional de Estadística tiene una gran cantidad
de datos que corresponden a diferentes Áreas de la actividad humana, Sin embargo, los
datos estadísticos también se pueden extraer del proceso de encuesta y entrevista, que
un investigador realiza para propósitos específicos.
Cualquiera que sea el procedimiento para obtener datos estadísticos éstos deberán ser
confiable, para su posterior aplicación en la toma decisiones y la investigación.
Entes primarias y secundarias
Las fuentes primarias de datos estadísticos son aquellas instituciones que se ocupan
de obtener datos en forma permanente. Por ejemplo, en nuestro país se constituye en
fuente primaria el INE (instituto nacional de estadística). Los datos que obtiene un
investigador sobre la base de encuestas se constituyen en fuente primaria.
Las fuentes secundarias son aquellas que procesan información a partir de las fuentes
primarias. Se dice también que son fuentes de segunda mano. Por ejemplo, las revistas
que muestran información estadística tomando datos del INE Los datos estadísticos que
se obtiene mediante Internet deben ser cuidadosamente analizados si corresponden a
fuentes primarias o secundarias.
Base de datos
Una vez que se obtienen los datos, se construye una BASE DE DATOS, conformada
por todas las variables de estudio para luego clasificar para realizar un análisis que
permita alcanzar los objetivos propuestos.
Existen diferentes formas de clasificar los datos. Si las observaciones corresponden a
variables cuantitativas entonces los valores numéricos se pueden listar por orden
ascendente o descendente. Si los datos tienen el carácter cualitativo, se clasifican
utilizando categorías. Ejemplo: Se desea realizar un estudio económico social de los
Docentes que trabajan en Primer y segundo año de la carrera de Administración de
Empresas de la UMSA.
Para el efecto se obtiene una muestra de docentes, se definen las variables y se tiene
la Base de Datos:
Ingreso Gasto Estado Lugar Tenencia N° de miembros
N° Edad Genero
Bs. Bs. Civil de Nac. de Vivienda de la familia
1 45 M 2250 1800 C LP Propia 2
2 28 F 5000 2500 D SC Alquiler 4
3 35 F 3500 2300 C CO Anticrético 3
4 30 M 10000 2700 D OR Propia 5
5 40 M 3400 3000 V BE Propia 6
6 50 F 2900 2400 S PA Alquiler 4
7 55 M 4000 3500 C PO Propia 7
8 47 F 8000 1900 C LP Anticrético 2
9 36 M 7000 2300 S SC Propio 3
10 33 F 7500 2500 C CO Propio 4
Estadística Descriptiva Mario Luque Bernabé
Presentación de datos estadísticos
Cuando se realiza una investigación, donde es importante realizar una aplicación
estadística, se comienza por la recopilación de datos, luego, se pasa a la organización
de los mismos y luego se realiza una tarea importante que constituye la presentación de
datos estadísticos.
Cuadros estadísticos
Los cuadros (tablas) estadísticos tienen el propósito de brindar información permanente.
Se elaboran para todo momento, no se construyen para un momento específico.
Las tablas o cuadros estadísticos que se construyen en organismos gubernamentales,
son considerados fuentes primarias.
Por ejemplo, las tablas estadísticas del Banco Central de Bolivia Las publicaciones del
Instituto Nacional de Estadística. (INE)
En las tablas estadísticas, se agrupan los valores que corresponden a una variable y se
registra el número de valores observados.
Los datos que todavía no han sido organizados se denominan datos brutos, porque no
se los clasificados utilizando frecuencias.
Cuando las tablas estadísticas van acompañadas de sus respectivas frecuencias
reciben el nombre de cuadro de distribución de frecuencias
Construcción de cuadros de distribución de frecuencias
A) primer caso: la variable asume pocos valores
Se dispone en la primera columna todos los valores
EJEMPLO: Muestra: Grupo de Estudiantes de la Carrera de Administración de
Empresas de la UMSA. Se desea construir un cuadro de distribuciones de frecuencias
con respecto a la variable X: EDAD
BASE DE DATOS
22 23 26 24 25 23 24 25 21 23 20
24 22 23 24 26 24 26 22 21 25 20
25 23 25 23 25 25 24 22 22 26 27
24 23 25 24 22 23 21 25 22 25 27
25 26 23 21 23 25 26 24 21 22
Cuadro de distribución de frecuencias
𝑿𝒊 𝒇𝒊 𝑭𝒊 𝒉𝒊 𝑯𝒊 𝒉𝒊 % 𝑯𝒊 %
20 2 2 0.0370 0.0370 3.7 3.7
hi=fi/n 21 5 7 0.0926 0.1296 9.26 12.96
22 8 15 0.1481 0.2777 17.81 27.77
23 10 25 0.1853 0.4630 18.53 46.30
24 9 34 0.1667 0.6297 16.67 62.97
25 12 46 0.2222 0.8519 22.22 85.19
26 6 52 0.1111 0.9630 11.11 96.30
27 2 54 0.0370 1 3.7 100
54 100
Estadística Descriptiva Mario Luque Bernabé
Frecuencia absoluta: fi
Es el número de veces que se repite un determinado valor de una variable. Se designa
mediante el símbolo: fi
Frecuencia relativa: h,
Es una relación que expresa la división o cociente de la frecuencia absoluta de un valor
entre el número total de observaciones correspondientes a la población o a la muestra.
Esta frecuencia permite calcular el porcentaje que corresponde a cada valor que toma
la variable. Se designa mediante el símbolo: h,
𝑓𝑖
Población ℎ𝑖
𝑛
𝑓𝑖
Muestra ℎ𝑖
𝑁
Frecuencia absoluta acumulada: Fi
Es la suma de frecuencias absolutas hasta una determinada frecuencia relativa que
corresponde a un valor de la variable.
Se simboliza de la siguiente manera: Fi
Frecuencia relativa acumulada: H.
Es la suma de frecuencias relativas, hasta una determinada frecuencia relativa que
corresponde a un valor de la variable.
Se define de la siguiente manera: Ni
Relaciones entre las frecuencias
1) La suma de las frecuencias absolutas (9 es igual al total de datos observados, sea
población (N) o muestra (n).
𝑓1 + 𝑓2 + 𝑓3 + 𝑓4 + ⋯ 𝑓𝑘 = 𝑁
𝑘
∑ 𝑓1 = 𝑁
𝑖=1
Para el caso de la muestra n en lugar de N
2) La suma de las frecuencias relativas es 1 ó bien 100%
ℎ1 + ℎ2 + ℎ3 + ℎ4 + ⋯ + ℎ𝑘 = 1
∑𝑘𝑖=1 ℎ1 = 𝑁 ∑𝑘𝑖=1 ℎ1 = 100%
Estadística Descriptiva Mario Luque Bernabé
B) segundo caso: la variable asume muchos valores.
En este caso se debe agrupar los datos en intervalos, y el número de intervalos no
deben exceder de 10 preferentemente.
Los intervalos constituyen un conjunto de valores ordenados de tal manera que se tiene
un valor límite inferior y otro límite superior: (𝐿𝑖−1 , 𝐿𝑖 ), respectivamente
Dónde: 𝐿𝑖−1 , es el límite inferior y 𝐿𝑖 límite superior
Los intervalos que se utilizan en una tabla estadística que corresponde al segundo caso,
se construye con la ayuda de ciertas fórmulas.
La construcción de un cuadro de distribución de frecuencias se realiza utilizando
diferentes métodos. El método que se emplea en este libro requiere de los siguientes
PASOS:
Primer paso: Rango Específico: (Re) o también (R).
𝑹 = 𝑽𝑺 − 𝑽𝒊
VS: Valor superior o máximo valor que sume la variable.
Vi: Valor inferior o mínimo valor que asume la variable.
Segundo paso: Número de Intervalos: (K).
𝐾 = √𝑁
N: Tamaño de la población n: Tamaño de la muestra
NOTA: Para muestras grandes y poblaciones grandes no es recomendable utilizar la
relación propuesta para K, debido a que se tendrá más de 10 intervalos en algún caso
y lo recomendable para usos prácticos es considerar un máximo de 10 intervalos.
Luego: en estos casos se asumen K = 10
𝑹𝒆
𝒄=
𝑲
Tercer paso: Amplitud de un Intervalo
Por otra parte, si se conocen los limites inferior y superior de cada intervalo entonces se
puede utilizar la fórmula:
𝐶 = 𝐿𝑖 , 𝐿𝑖−1
• 𝐿𝑖 : Límite superior del intervalo
• 𝐿𝑖−1 : Límite inferior del intervalo
El siguiente ejemplo ilustrará la forma de emplear el método descrito:
Ejemplo: Los siguientes son los salarios (en $us.) que reciben un grupo de trabajadores
en Salud en forma mensual, y que constituye una muestra del total de trabajadores de
Sector Salud.
Estadística Descriptiva Mario Luque Bernabé
BASE DE DATOS
198 234 300 175 199 238 288
183 200 240 205 251 206 253
210 258 211 259 218 260 261
263 268 269 261 240 110 115
320 270 230 190 150 120 160
158 197 231 279 350
El cuadro de distribución de frecuencias, se construye utilizando el proceso que
comprende el cálculo del rango específico, determinación del número de intervalos y la
obtención de la amplitud.
Primer paso:
Rango específico: Re = VS - Vi
Calculamos: Re = 350-110 = 240
Segundo paso:
Ahora determinamos el número de intervalos con:
𝑲 = √𝑵 = √𝟒𝟎 = 6.32 = 6
Lo cual implica que se deben tomar 6 intervalos.
Tercer paso:
Pasamos ahora a determinar la amplitud del intervalo con:
C = Re / k
C = 240/6
C = 40
Entonces se torna con amplitud c = 40
Para construir el cuadro se debe considerar los límites nominales y los exactos
Limites nominales:
Con el propósito de establecer límites de tal manera que un mismo valor no se repita en
dos intervalos sucesivos, se puede transformar los límites exactos en límites nominales.
Límites exactos Límites nominales
109,5 149,5 110 150
149,5 189,5 150 190
189,5 229,5 190 230
229,5 269,5 230 270
269,5 309,5 270 310
309,5 349,5 310 350
Pero es posible sustituir a los decimales por valores enteros considerando que en la
construcción de intervalos o clases se considere que cada intervalo es cerrado por
izquierda y abierto por la derecha:
𝐿𝑦−1 , 𝐿𝑖
Estadística Descriptiva Mario Luque Bernabé
CUADRO DE DISTRIBUCIÓN DE FRECUENCIAS
𝑳𝒊−𝟏 𝑳𝒊 𝑿𝒊 𝒇𝒊 𝑭𝒊 𝒉𝒊 𝑯𝒊 𝒉𝒊 % 𝑯𝒊 %
110 150 130 3 3 0.075 0.075 7.5 7.5
150 190 170 5 8 0.125 0.200 12.5 20
190 230 210 10 18 0.250 0.450 25 45
230 270 250 16 34 0.400 0.850 40 85
270 310 290 4 38 0.100 0.950 10 95
310 350 330 2 40 0.050 1.000 5 100
40 1.000 100
En el cuadro anterior se ha conformado la segunda columna utilizando el concepto de
marca de clase.
Marca de clase:
Es el valor que representa al intervalo respectivo, se calcula mediante la fórmula:
𝐿𝑖−1 + 𝐿𝑖
𝑋𝑖 =
2
𝑋𝑖 : Marca de clase cuando los datos están agrupados en intervalos.
C) tercer caso:
Todos los valores tienen frecuencia unitaria.
En este caso los valores (en millones de dólares) que toman la variable son únicos
(sin repetición). Por lo general están asociados a otra variable que es el tiempo
Ejemplo:
Años Exportaciones
2018 9.110,4
2019 8.933,3
2020 7.092,6
2021 11.079,8
2022 13.603,7
Fuente: INE
Representaciones gráficas
Las gráficas o diagramas se utilizan para representar los datos en forma de figuras y
trazos, ya sean bidimensionales, tridimensionales: Sirven para efectuar comparaciones
entre conjuntos de datos
Tipos de gráficas
Los diferentes programas de Estadística para Computadora contienen diversos
modelos y tipos de gráficas.
Las principales gráficas son:
Estadística Descriptiva Mario Luque Bernabé
a) Diagrama de Barras
En este tipo de presentación, cada barra rectangular corresponde a una modalidad. Todas las
barras tienen base de igual longitud y altura proporcional a la frecuencia (fi) o frecuencia relativa
(hi) que presen modalidad. Tomemos la distribución de frecuencias de la variable grado de
instrucción, obtenida de una muestra de 178 estudiantes. Se considerará que cada estudiante
pertenece al mayor grado de instrucción que ha concluido.
Modalidad fi fi%
Primer año 73 41%
Segundo año 51 29%
Tercer año 54 30%
178
Gráfico de Barras
80
NÚMERO DE ESTUDIANTES
60 73
40 51 54
20
0
Primer año Segundo año Tercer año
GRADO DE INSTRUCCIÓN
b) Diagrama de barras de componentes
Se aplica para mostrar la variable en función de los tipos toma la variable. Es decir, se
aplica para representar una variable que está en función de otra.
Ejemplo: Se tienen los datos que corresponden a las exportaciones de ARROZ de tres
tipos diferentes I, II y III. Las exportaciones son en Toneladas métricas
AÑOS TIPO I TIPO II TIPO III TOTAL
2018 20 35 20 75
2019 35 20 15 70
2020 20 10 10 40
2021 10 15 20 45
Gráfico de componentes
100% 20 15 10
80% 20
20 10
60% 35
40% 15
35 20
20% 20 10
0%
2018 2019 2020 2021
TIPO I TIPO II TIPO III
Estadística Descriptiva Mario Luque Bernabé
d) Histograma
En esencia es un gráfico compuesto por una sucesión de rectángulos adyacentes, cada
uno de los cuales representa a una categoría, con la condición de que el área de cada
uno de ellos es igual o proporcional a la frecuencia de la categoría que representa. La
variable de estudio se ubica en el eje horizontal y la frecuencia de clase (absoluta,
relativa o porcentual) se ubica en el eje vertical. Cuando los intervalos de clase son
iguales para todas las categorías, la altura de cada rectángulo es igual a la frecuencia
de clase.
Tipo de gráfico es representativo de las distribuciones de frecuencia cuya variable de
estudio es de tipo cuantitativa continua; como ya sabemos las clases o categorías de
estas distribuciones están formadas mediante intervalos. Al utilizar el asistente de
gráficos de Excel, se escoge la opción de “diagramas de columnas” y seguidamente se
opta por un subtipo de diagrama donde aparezcan los rectángulos juntos y no separados
como en las columnas. Como valores representativos de la variable de estudio se ubican
en el eje horizontal las marcas de clase.
Si el estudio comprende todo el proceso desde la creación de la distribución de
frecuencias, entonces podemos utilizar la herramienta “Histograma” de la opción de
análisis de datos, como ya vimos en páginas anteriores para la creación del gráfico
respectivo.
Gastos Xi Nº De Familias
0 - 500 500 10
500 - 1000 750 26
1000 - 1500 1250 24
1500 - 2000 1750 17
2000 - 2500 2250 13
2500 - 3000 2750 8
3000 – 3500 3250 2
TOTAL 100
Gráfico de Histograma
30
Número de familias
25
20
15
10
5
0
500 750 1250 1750 2250 2750 3250
Gastos
e) Polígono de frecuencias
Uniendo los puntos medios de los lados superiores de cada barra rectangular del
histograma se obtiene un gráfico llamado polígono de frecuencias. El conocimiento del
polígono de frecuencias ayudará más adelante en la búsqueda del modelo teórico que
mejor describa a los elementos de la población de acuerdo con la variable que se
estudia.
Estadística Descriptiva Mario Luque Bernabé
Gráfico de Poligono
30
Número de familias
25
20
15
10
5
0
500 750 1250 1750 2250 2750 3250
Gastos
f) Gráfico de área
Se utiliza para mostrar en forma de área o superficie la frecuencia de una variable
Ejemplo:
Antigüedad de años en el trabajo
Antigüedad en Años Xi fi
2—4 3 6
4—6 5 5
6—8 7 7
8 —10 9 4
10 —12 11 2
12 —14 13 9
14 -16 15 10
Gráfico de área
12
10
Frecuencia
8
6
4
2
0
3 5 7 9 11 13 15
Años de antiguedad
g) Gráfico de línea
Los resultados de la producción de arroz en quintales de una microempresa, determiné
el comportamiento, indicando.
o En qué meses la producción descendió.
o Que mes representa la mayor producción.
o Que mes representa la menor producción.
Estadística Descriptiva Mario Luque Bernabé
MES PRODUCCIÓN (Quintales)
ENERO 85
FEBRERO 65
MARZO 94
ABRIL 40
MAYO 72
JUNIO 60
Gráfico de Línea
100
80
Producción
60
40
20
Meses
h) Ojiva y curva ojiva
Permite observar las frecuencias acumuladas, sean estas absolutas o relativas.
EJEMPLO:
Se debe construir la columna que contiene a las frecuencias absolutas acumuladas (Fi)
Puntaje obtenido
Puntaje Obtenido Xi fi Fi
10-12 11 22 22
12-14 13 15 37
14-16 15 8 45
16-18 17 15 60
18-20 19 3 63
20-22 21 9 72
22-24 23 18 90
Gráfico de Ojiva
100
N° de estudiantes
80
60
40
20
0
11 13 15 17 19 21 23
Edad
Estadística Descriptiva Mario Luque Bernabé
i) Diagrama de segmentos o torta
Se utiliza para mostrar los elementos de una variable, cuando el número de valores es
reducido.
En la torta o pastel los valores por lo general se consideran en porcentajes, donde el
total debe ser 100%
EJEMPLO: Los siguientes datos corresponden a la votación obtenida por tres
candidatos
Candidatos fi Hi
A 12 33.33%
B 20 55.56%
C 4 11.11%
Total 36 100%
Resultados de una elección
11%
33% A
B
C
56%
j) Diagrama de la telaraña o radial
Se utiliza para mostrar dos o más momentos de una variable. Por ejemplo, cuando se
quiere observar el comportamiento de 5 estudiantes en su evolución del primer al
segundo parcial
Estudiantes 1er. Parcial 2do.Parcial
ATM 25 20
DNM 5 25
JER 10 25
CCI 15 20
RPD 15 30
Gráfico de Telaraña o Radial
ATM
30
20
RPD 10 DNM
1er. Parcial
0
2do.Parcial
CCI JRR