0% encontró este documento útil (0 votos)
18 vistas13 páginas

Organización de Datos Estadísticos

El documento aborda la organización y presentación de datos estadísticos, enfatizando la importancia de seleccionar muestras representativas para estimar características de una población. Se discuten las diferencias entre variables cuantitativas y cualitativas, así como la utilidad de las tablas de frecuencias para resumir y facilitar la interpretación de datos. Además, se ofrecen pautas para la construcción de tablas de frecuencias, destacando la necesidad de un número adecuado de clases para mantener un balance entre detalle y claridad.

Cargado por

grabacioneseg241
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
18 vistas13 páginas

Organización de Datos Estadísticos

El documento aborda la organización y presentación de datos estadísticos, enfatizando la importancia de seleccionar muestras representativas para estimar características de una población. Se discuten las diferencias entre variables cuantitativas y cualitativas, así como la utilidad de las tablas de frecuencias para resumir y facilitar la interpretación de datos. Además, se ofrecen pautas para la construcción de tablas de frecuencias, destacando la necesidad de un número adecuado de clases para mantener un balance entre detalle y claridad.

Cargado por

grabacioneseg241
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

1

ORGANIZACIÓN Y PRESENTACIÓN DE DATOS


1] Datos estadísticos

El proceso de reunir, organizar y describir datos es motivado por el deseo de conocer una
característica en los elementos que componen una población. Usualmente, esas características de
interés no pueden ser medidas en todas las unidades de la población que se está investigando. Por
lo tanto, seleccionamos un sub-conjunto de elementos de dicha población, y en cada uno de esos
elementos medimos la característica de interés. El conjunto de estas mediciones generan lo que
se denomina una variable. A ese sub-conjunto de elementos sobre los cuáles se mide la variable
se lo llama muestra. Con los datos obtenidos en la muestra, pretendemos tener una estimación
de la característica de interés (variable) en todos los objetos de la población. De este modo
habitualmente nos manejamos con información incompleta, y por lo tanto incertidumbre, ya
que solo conocemos los valores que tomó la variable en la muestra pero queremos estimar o
inferir esa característica en la población. Por ejemplo, nos podría interesar conocer cuál es, en
promedio, la longitud de la vara floral de un cultivo de Polianthes tuberosa (nardo) que ocupa 10
surcos de 70 m de largo cada uno, con un total de 2015 varas. Medir todas las varas demandará
mucho trabajo, por lo que se elegirá al azar un subconjunto de 50 varas y se medirá la longitud
de cada una. La población es el conjunto de las 2015 varas, la muestra está formada por 50 varas,
y la variable de interés es el conjunto de 50 mediciones de longitud. Si la muestra fue
correctamente obtenida y por lo tanto es representativa de la población, las conclusiones podrán
generalizarse a toda la población, que en este caso son todas las flores de esa especie y variedad.

Las variables pueden ser cuantitativas o cualitativas. Una variable cuantitativa asume valores
numéricos que poseen un orden inherente, tal como el diámetro de un tallo o la edad de un grupo
de empleados. A su vez, una variable cuantitativa puede ser cuantitativa discreta (e.g. número
de hojas por planta, cantidad de pétalos por flor) o cuantitativa continua (e.g. longitud de una
vara floral, diámetro de un tallo, peso de una semilla). Las variables cuantitativas continuas
pueden asumir cualquier valor dentro del rango de medición, a diferencia de las variables
cuantitativas discretas, que solo pueden adoptar números enteros. Por ejemplo tratándose del
peso de una semilla, entre una que pesa 1,230 mg y otra semilla que pesa 1,245 mg puede haber
semillas que pesen 1,231 mg o 1,241 mg. En cambio, las variables cuantitativas discretas no
pueden asumir otro valor entre medio de dos valores sucesivos enteros. Por ejemplo, en una flor
podrían contarse 3 o 4 pétalos; no existe la posibilidad de contar 3,6 pétalos.

Una variable cualitativa o categórica es aquella cuyos valores corresponden a una u otra
categoría de un conjunto de categorías que son mutuamente excluyentes. Por ejemplo, sana o
enferma podrían ser las únicas dos posibles categorías en un examen de la sanidad de un cultivo.
Igualmente, para la variable color de los pétalos, tres posibles categorías podrían ser rojo,
amarillo o blanco.

Los datos obtenidos de la observación o la medición suelen ser registrados en el orden en que se
recogen. Si bien esta es la mejor manera de organizar el registro de la información, no siempre es
la más adecuada para interpretarla, sobre todo cuando se trata de muestras grandes. Los datos
pueden contener información relevante pero no siempre son transparentes, generalmente no
revelan sus secretos a los observadores casuales. Esto es así porque existe variabilidad en lo que
medimos (la longitud de las varas difiere entre una y otra), y también porque nuestra medición
agrega su propia inexactitud. Para facilitar el análisis de la información y la interpretación, se
suele realizar un resumen de los datos mediante tablas y gráficos, como los que se presentarán a
continuación.
2
2] Tablas de distribuciones de frecuencias

Una vez recolectados los datos, puede presentárselos en bruto como los de la Tabla 1, que
representan los diámetros en cm de cada una de 100 corolas florales (una variable clave en la
evaluación objetiva de la calidad ornamental). Los datos registrados provienen de una muestra de
100 flores, tomada al azar de un total de 3000 flores de Catharantus roseus.

Antes de seguir con los datos, deténgase un minuto a pensar en lo siguiente: una vez terminado
el estudio ¿a qué población podrán extrapolarse los resultados y conclusiones acerca de la
tamaño de la corola de las flores de Catharanthus roseus?

En la tabla 1, las cifras han sido ordenadas según la secuencia en la cual fueron realizadas las
mediciones y por lo tanto son difíciles de interpretar. Quien posea capacidad para investigar un
conjunto de cifras podrá descubrir después de unos minutos y con considerable esfuerzo, los
valores máximo y mínimo en la tabla. También podrá obtener un “promedio” sumando los
valores individuales y dividiendo la suma por el número de unidades de la serie. Pero es probable
que esta sea toda la información que pueda reunir de la tabla.
Para obtener una síntesis más rápidamente, se necesitan organizar los datos en alguna forma
sistemática. La forma más sencilla de hacerlo es ordenarlos según su magnitud, de manera
ascendente o descendente. En la Tabla 2, las 100 mediciones de la Tabla 1 han sido dispuestas
por orden ascendente.

Tabla 1. 100 mediciones del diámetro Tabla 2. 100 mediciones del diámetro
(cm) de la corola floral de (cm) de la corola de Catharanthus
Catharanthus roseus en el orden cómo roseus, ordenadas de manera ascendente.
fueron realizadas.
3,63 3,86 3,96 4,04 4,12
3,86 3,71 3,77 3,83 4,22 3,69 3,87 3,96 4,04 4,13
3,63 3,90 3,92 3,95 4,08 3,70 3,88 3,97 4,05 4,14
3,96 3,97 3,98 4,03 4,01 3,71 3,89 3,97 4,05 4,14
4,04 4,05 4,07 4,11 3,94 3,71 3,90 3,97 4,05 4,15
4,12 4,15 4,16 4,28 3,82 3,73 3,90 3,97 4,06 4,15
4,13 4,06 4,07 4,26 3,81 3,74 3,91 3,97 4,06 4,16
4,04 4,15 4,16 4,10 3,94 3,76 3,91 3,98 4,07 4,16
3,96 3,97 3,99 4,02 4,00 3,77 3,92 3,98 4,07 4,16
3,87 3,90 3,93 3,95 4,08 3,79 3,93 3,99 4,07 4,16
3,69 3,73 3,79 3,83 4,20 3,80 3,93 3,99 4,07 4,17
3,70 3,74 4,35 3,83 4,18 3,81 3,94 4,00 4,08 4,18
3,88 3,91 4,12 3,95 4,08 3,81 3,94 4,00 4,08 4,20
3,97 3,97 4,04 4,02 4,00 3,82 3,94 4,01 4,08 4,22
4,05 4,06 3,96 4,09 3,94 3,82 3,95 4,02 4,09 4,23
4,14 4,16 3,85 4,24 3,81 3,83 3,95 4,02 4,09 4,24
4,14 4,16 3,84 4,23 3,80 3,83 3,95 4,02 4,10 4,26
4,05 3,98 3,96 4,09 3,93 3,83 3,95 4,03 4,11 4,28
3,97 4,07 4,03 4,02 3,99 3,84 3,96 4,03 4,11 4,29
3,89 3,91 4,11 3,95 4,07 3,85 3,96 4,04 4,12 4,35
3,71 3,76 4,29 3,82 4,17
3

Tal ordenamiento tiene claras ventajas sobre los datos en bruto. De los datos ordenados pueden
observarse muchas características de la variable, fácil y rápidamente. Un primer vistazo nos dice
que la amplitud de diámetros de la muestra es de 0,72 cm (surge de la diferencia entre el máximo
y mínimo valor, 3,63 y 4,35 cm respectivamente). Además vemos claramente una gran
concentración de valores cerca de los 4,00 cm, si bien también vemos que hay algunos valores
alejados o extremos.

Sin embargo, este ordenamiento es todavía una forma muy engorrosa de organizar los datos,
especialmente cuando se trata de una muestra grande. Por tanto, es conveniente condensar los
datos. Condensar y simplificar datos sin perder mucha información es el objetivo de la tabla de
frecuencias: una disposición de los datos que muestra la frecuencia de ocurrencia de valores en
cada una de las clases elegidas (Tabla 3).

Tabla 3. Tabla de frecuencias de las 100 mediciones del diámetro de la corola floral (cm) de
Catharantus roseus.

Punto medio Frecuencia de


Clase
(mi) clase (fi)
[3,595 – 3,695] 3,645 2
(3,695 – 3,795] 3,745 8
(3,795 – 3,895] 3,845 14
(3,895 – 3,995] 3,945 27
(3,995 – 4,095] 4,045 25
(4,095 – 4,195] 4,145 16
(4,195 – 4,295] 4,245 7
(4,295 – 4,395] 4,345 1
Total 100

La tabla de frecuencias condensa la información ya que, ahora, sólo se conocen los intervalos
de clase de los datos, y no los valores individuales. Por ejemplo en la Tabla 3, la corola más
grande se encuentra en algún lugar entre 4,295 y 4,395 cm; ya no sabemos que mide
exactamente 4,35 cm. A pesar de esta pérdida, se ha ganado mucho en visualización rápida de
tendencias importantes en los datos. La información que revela la tabla ordenada puede ser
obtenida con mayor facilidad de la tabla de frecuencias, aunque con menor detalle. Además, en
la tabla de frecuencias podemos observar: a) entre cuáles valores se encuentra la mayor
concentración de diámetros florales: más de la mitad (27+25= 52) de las flores observadas
presentan diámetros entre 3,895 cm y 4,095 cm, b) que hubo igual número de flores con corolas
más pequeñas (las tres primeras clases) y más grandes (las últimas tres clases) , el cual a su vez
fue menor que las de los diámetros de mayor concentración, c) que hay gradualmente menos
flores hacia las categorías de diámetros de corolas más extremos. Además, con datos organizados
en una tabla de frecuencias, las comparaciones entre dos o más series pueden hacerse más
fácilmente. Como se verá más adelante, tales comparaciones son facilitadas aún más cuando las
distribuciones de frecuencias son presentadas en formas de gráficos.

Las agrupaciones 3,595 – 3,695; 3,695 – 3,795, etc., se llaman clases. Los valores extremos de
cada intervalo de clase son los límites inferior y superior del intervalo. Debemos notar que el
valor del límite superior de una clase puede coincidir con el del límite inferior de la siguiente,
pero el dato correspondiente a ese valor debe pertenecer a una o a otra de las clases, no a ambas.
Para eludir esta ambigüedad se utiliza el símbolo “]” para indicar inclusión y el símbolo “(“ para
indicar exclusión. La media aritmética de los límites de clase se llama punto medio o marca de
clase y se representa mediante el símbolo mi. El punto medio de la i-ésima clase se obtiene
4
simplemente dividiendo la suma de los límites de dicha clase por 2. Este valor es de considerable
importancia teórica y práctica, y se usa como valor típico de los datos de dicha clase. La
diferencia entre los límites de una clase se llama intervalo de clase. Cuando el mismo intervalo
es usado para todas las clases estamos ante una distribución o tabla de frecuencias con intervalos
de clase uniformes, como el caso de la Tabla 3. El número de ocurrencias en cada clase se llama
frecuencia de clase (fi) yi

f i = n , donde significa “sumatoria” y n es el número total de

observaciones en la muestra (siguiendo con el ejemplo, n=100 flores de Catharanthus roseus).


Para el caso de un censo, tendríamos: f i = N donde N es el número total de observaciones en
i
la población (N=3000 flores de Catharanths roseus).

Pautas para la construcción de una tabla de frecuencias

Primero, el número de clases usadas no debe ser muy grande ni muy pequeño. Un gran número
de clases puede que no condense los datos lo suficiente como para ser de valor práctico; un
número pequeño de clases tiende a resumir demasiado los datos, por lo que se pierde mucha
información valiosa. Una regla empírica es que el número de clases debería variar entre 5 y 15.
Obviamente el número real de clases que debe emplearse depende del número de unidades de la
muestra y de la amplitud de los valores observados. También depende del uso al que se
destinarán los datos. Si solo se desea un patrón amplio de los datos, pueden usarse unas pocas
clases. Si se desea un patrón detallado se requerirán más clases. Si se desea una gran precisión en
los cálculos posteriores de la tabla de frecuencias deberán usarse muchas clases.
En los datos de nuestro ejemplo hay 100 unidades y la amplitud es de 4.35 cm – 3.63 cm = 0.72
cm. Para estos datos hemos escogido un valor de 0.10 cm como intervalo de clase. En general,
cuando sea posible a los intervalos de clase se les deben asignar valores enteros o múltiplos de 5
o de 10 para comodidad en los cálculos posteriores. En la práctica, se permite que el límite
inferior de la primera clase (3,595 cm; Tabla 3) tenga un valor más bajo al del mínimo de la serie
de datos (3,63; Tabla 2) y que el límite superior de la última clase (4,395 cm; Tabla 3) tome un
valor más alto al del máximo en la serie (4,35; Tabla 2).

Segundo, a veces puede formarse una distribución sin el límite inferior para la primera clase o sin
el límite superior para la última clase, o sin ambos límites. Se dice entonces que esas clases son
de extremo abierto.

Tercero, no es obligatorio que los intervalos de clase sean uniformes. Pueden usarse con ventaja
clases de extremo abierto y distintos intervalos de clase en situaciones en las que hay pocos
valores extraordinariamente pequeños o extraordinariamente grandes, o ambas cosas, y en las
que los datos poseen grandes vacíos. Por ejemplo, la Tabla 4, que contiene la distribución de
ingresos anuales de todos los empleados de una gran empresa, se obtiene empleando ambas
prácticas.

Tabla 4. Distribución de los empleados de una corporación por sueldos anuales

Clase Frecuencia Densidad de Frecuencia


Menos de $5000 100 20,00
[5000 – 6000) 150 150,00
[6000 – 7000) 223 223,00
[7000 – 8000) 451 451,00
[8000 – 9500) 764 509,33
[9500 – 11000) 912 608,00
5
[11000 – 12500) 807 538,00
[12500 – 14000) 764 509,33
[14000 – 16000) 810 405,00
[16000 – 18000) 653 326,50
[18000 – 20000) 421 210,50
[20000 – 23000) 82 27,33
[23000 – 26000) 53 17,67
[26000 – 30000) 21 5,25
30000 o más 19 0,00
Total 6230 -------

Cuando se usan intervalos de clase no uniformes, se debe calcular lo que se conoce como
densidad de frecuencias. Hacemos esto estimando cuáles serían las frecuencias de clase si se
usaran intervalos de clase uniformes. Así, en la columna 3 de la Tabla 4, las densidades de
frecuencia se calculan en el supuesto de un intervalo de clase uniforme de $1000. Por ejemplo, el
intervalo de clase para la 5ª clase es igual a 1,5 veces el intervalo de clase uniforme de 1000 y,
por tanto, la densidad de frecuencias para esta clase es (764/1,5)  509,33 (usamos el símbolo
“” para significar “aproximadamente igual”). La densidad de frecuencias es el número de casos
por unidad de tamaño de clase. Es un promedio - la frecuencia de clase dividida por el ancho del
verdadero intervalo de clases. De esta manera, las frecuencias de las diferentes clases de la Tabla
4 ya son comparables entre sí.

3] Gráficos de distribuciones de frecuencias

Las distribuciones de frecuencia son representadas comúnmente mediante histogramas o


polígonos de frecuencias. Por ejemplo, un histograma para los datos de la Tabla 3 podría ser:

Figura 1. Histograma del diámetro de corola floral de Catharanthus roseus (n=100).

Pautas en la construcción de un histograma


a) Las frecuencias de clase suelen representarse gráficamente en el eje y, y los límites de
clase en el eje x. A veces se rotula la escala x colocando el valor medio de cada clase en
el centro de la base de la barra.
6
b) En cada extremo del eje x se deja un espacio igual a la mitad del tamaño del intervalo de
clase (más adelante se verá por qué).
c) Las barras deben ser contiguas, sin brechas, excepto para clases vacías.
Cuando los intervalos de clase son uniformes (Tabla 3), la escala x debe ser equi-
espaciada. En una distribución variable de intervalos de clase (Tabla 4), la escala x debe
ser ajustada apropiadamente. Por ejemplo, si se usan dos intervalos de clase, 100 y 500,
el espacio sobre el eje x para las clases que tienen intervalos de 500 debe ser 5 veces más
ancho que el espacio para los intervalos de 100.
d) Los ejes deben estar claramente rotulados. El rotulo del eje y debe dejar claro que
representa frecuencias o número de observaciones, y el eje x la variable o característica
de interés, y sus unidades.
e) El área de las barras de un histograma tiene un diferente significado si representa
frecuencia que si representa densidad de frecuencia. Si representa frecuencia, el área de
cada barra carece de significado. Se observa simplemente dónde se encuentra la barra
sobre el eje x y qué altura tiene. Por el contrario, si el eje y muestra densidad de
frecuencia, el área de cada barra representa la frecuencia de dicha clase. Por ejemplo,
volviendo a la 5ª línea de la Tabla 4, la frecuencia de esa clase es igual a 764, pero si en
el eje y del histograma se representara densidad de frecuencia, la frecuencia se obtendría
multiplicando 509,33 (densidad de frecuencia de esa clase) por 1500/1000, que es el
ancho de la base de la barra.

Otra forma de representar gráficamente una distribución de frecuencias es dibujar un polígono


de frecuencias. Hacemos esto si disponemos de un histograma (usando frecuencias, no densidad
de frecuencias), marcando simplemente un punto sobre el punto medio del lado superior de cada
barra del histograma y uniendo estos puntos con líneas rectas:

Diámetro [cm]
Figura 2. Histograma y polígono de frecuencia del diámetro de corola floral de Catharanthus roseus (n=100).
.

Se acostumbra cerrar el polígono prolongando ambos extremos de la curva hasta los puntos
medios de las dos clases hipotéticas situadas en los extremos de la distribución que tienen
frecuencia 0 (motivo de la pauta “b” anteriormente mencionada). En nuestro ejemplo de los
diámetros (Tabla 3), serían las clases 3,495 – 3,595 y 4,395 – 4,495.
7
Hay por lo menos dos razones importantes para usar el polígono de frecuencias. Primero, cuando
se desean comparar varias distribuciones sobre el mismo gráfico, es mucho más claro superponer
los polígonos de frecuencia que superponer histogramas, especialmente cuando todas las
distribuciones tienen los mismos límites de clases. Segundo, el polígono de frecuencias sugiere
el uso de una curva suave como representación idealizada de la distribución de frecuencias de la
población. Una muestra consta de solo un número limitado de unidades, por lo que su
distribución se caracterizaría por irregularidades. Sin embargo, si se aumenta la cantidad de
unidades de la muestra y disminuyen continuamente los intervalos de clase, podemos esperar que
la distribución sea cada vez más suave, porque las irregularidades accidentales que afectan a un
pequeño número de unidades serían eliminadas gradualmente.
Existen también otras formas de representar gráficamente una distribución de frecuencias como
el diagrama de caja y bigotes, que será explicado en el capítulo siguiente.

4] Modelos de población

La curva suave adquiere importancia porque se considera que representa la verdadera


distribución de frecuencias de la población de la que se extrajo la muestra. Pero ampliar la
muestra para generar una curva suavizada es generalmente una imposibilidad práctica. Lo que
solemos hacer es aproximar la distribución de frecuencias de la población sobre la base de los
datos de la muestra. Esto podemos hacerlo introduciendo una curva suave a los datos de la
muestra con alguna fórmula matemática.

Las curvas suaves son llamadas alternativamente modelos de población. Se las llama así porque
describen las características importantes de las distribuciones de población. El término modelo
de población también sugiere generalizaciones de las formas de las distribuciones de población
(simétrica, asimétrica, en forma de J invertida, etc). Estas generalizaciones son de gran utilidad
en el análisis estadístico porque proporcionan métodos simplificados de describir las
características básicas de las poblaciones. Además, un modelo de población representado por una
curva suave a veces se presta más fácilmente a un tratamiento matemático. En los siguientes
párrafos introduciremos algunos modelos de población que se encuentran más frecuentemente.

La curva (a) de la figura es un modelo de población de


(a) (b) especial interés e importancia en estadística. Observe que
esta curva de distribución tiene forma de campana
(proponga usted mismo las magnitudes correspondientes
al eje de abscisas y al eje de ordenadas). Tanto si
medimos el peso de semillas de una determinada variedad
como si medimos la estatura de personas o la longitud de
granos de arroz, la curva de distribución a menudo tiene
Figura 3. (c) (d)
Modelos de población. forma de campana. Un modelo en forma de campana muy
(a) Curva Normal, (b) Curva Bimodal, (c) utilizada en estadística es la curva de distribución
Curva Asimétrica, (d) Curva J Invertida normal o, simplemente, curva normal.

La curva (b) representa lo que se conoce como


distribución bimodal, lo que significa que tiene dos
máximos, en contraste con una distribución unimodal
(curvas a y c), que solo tiene un máximo.
Este tipo de distribución aparece cuando una población contiene elementos que pueden ser
divididos en dos grupos que difieren entre sí en las características que se miden. Podemos decir
también que la población no es homogénea. Por ejemplo, la distribución de las estaturas de
estudiantes en una escuela debería asumir este modelo. En tal distribución encontraríamos un
máximo destacado en un valor relativamente bajo para el caso de las mujeres y otro máximo
8
distinto a un valor relativamente alto para los varones. A veces sucede que se desconoce la
verdadera razón de una distribución bimodal.

La curva (c) es un modelo de distribución asimétrica en contraste con la curva (a) que
representa una distribución simétrica. Generalmente, una distribución asimétrica solo tiene un
máximo situado en el extremo inferior o en el extremo superior de la curva -en el ejemplo de la
figura (c), está en el extremo inferior -. Cuando la cola más larga de la curva está hacia la
derecha - como la figura (c) - decimos que la distribución es asimétrica positiva; cuando está
hacia la izquierda, decimos que es asimétrica negativa. El modelo asimétrico positivo es muy
común en datos económicos y comerciales. Por ejemplo, la distribución de los sueldos suele ser
asimétrica positiva indicando que algunos empleados (relativamente pocos en comparación con
el grupo general) reciben sueldos mucho más altos que los recibidos por la mayoría de los
empleados. Igualmente, la distribución del número de negocios minoristas por importe de las
ventas sería asimétrica positiva porque hay muchos negocios pequeños y pocos grandes. Un
ejemplo de modelo asimétrico negativo sería el número de empresas distribuidas según la razón
de costo de ventas a ventas netas en una industria. El modelo asimétrico negativo describe bien
una población cuyas variables tienen un límite superior. Por ejemplo, en la práctica el límite
superior de la razón de costo de compras a ventas debería ser 1, o sea 100%. Una empresa
raramente permanece en el negocio mucho tiempo si su razón de costo de compras a ventas
supera la unidad, aunque esto podría suceder por un corto período.

Una población también podría adoptar la curva en forma de J invertida como la curva (d) de la
figura, en la que las frecuencias de ocurrencia disminuyen continuamente a medida que aumenta
el valor en la escala horizontal. Este tipo de curva sería una buena aproximación para la
distribución de tamaños de plantas cultivadas en densidades excesivamente altas.

Así, aunque la distribución normal ocupa un lugar muy importante en la práctica estadística, hay
variables que no están normalmente distribuidas. Entonces debemos poseer conocimiento de
varios modelos de población. Habitualmente no conocemos la verdadera distribución de
frecuencias de la población y aproximamos un modelo trazando una curva suave a los datos de la
muestra.

5] Distribuciones de frecuencias relativas

Hasta ahora nos hemos ocupado de lo que se llama distribuciones de frecuencias absolutas, ya
que las frecuencias de clase se dan en números absolutos. Cuando las frecuencias de clase se
expresan en términos de proporciones, tenemos lo que se llama una distribución de frecuencias
relativas. Las frecuencias relativas se obtienen dividiendo la frecuencia absoluta de cada clase
por el número total de observaciones; es decir, la frecuencia relativa es igual a:

fi f
o i
n N

según se trate de una muestra o de una población, respectivamente. En la siguiente Tabla se


presenta la distribución de frecuencias absolutas y relativas de los datos de diámetro de corola
originalmente presentados en la Tabla 3.
9
Tabla 5: frecuencia absoluta y relativa de los diámetros de corola floral
Frecuencia Frecuencia
Clase
absoluta (fi) relativa (fi/n)
[3,595 – 3,695] 2 0,02
(3,695 – 3,795] 8 0,08
(3,795 – 3,895] 14 0,14
(3,895 – 3,995] 27 0,27
(3,995 – 4,095] 25 0,25
(4,095 – 4,195] 16 0,16
(4,195 – 4,295] 7 0,07
(4,295 – 4,395] 1 0,01
Total 100 1,00

Una distribución de frecuencias relativas puede desempeñar muchas funciones útiles. Nuestro
interés inmediato por este concepto es que el gráfico de una distribución relativa (el histograma,
el polígono o la curva suave) se presta más fácilmente a la comparación de diferentes
distribuciones, especialmente si difieren mucho en el número total de observaciones, como se
ilustra en las dos distribuciones de la siguiente Tabla:

Tabla 6: Ingresos (en miles de pesos) para médicos y corredores de bolsa

Ingresos en miles Médicos Corredores de


de bolsa
pesos fi fi/n fi fi/n
[20,00 – 30,00) 0 0,000 11 0,003
[30,00 – 40,00) 0 0,000 135 0,042
[40,00 – 50,00) 1 0,001 247 0,077
[50,00 – 60,00) 24 0,024 466 0,145
[60,00 – 70,00) 150 0,150 658 0,205
[70,00 – 80,00) 322 0,322 596 0,185
[80,00 – 90,00) 185 0,185 579 0,180
[90,00 – 100,00) 120 0,120 379 0,118
[100,00 – 110,00) 78 0,078 115 0,036
[110,00 – 120,00) 66 0,066 25 0,008
[120,00 – 130,00) 22 0,022 3 0,001
[130,00 – 140,00) 17 0,017 0 0,000
[140,00 – 150,00) 15 0,015 0 0,000
Total 1000 1,000 3214 1,000
10
Este punto es revelado claramente comparando las dos siguientes figuras:

700
Corredores

nº de observaciones
600
500
400
Médicos
300
200
100
0
0 20 40 60 80 100 120 140 160
Ingreso ($)

0.35
0.30 Médicos
Frecuencia relativa

0.25
0.20
0.15 Corredores
0.10
0.05
0.00
0 20 40 60 80 100 120 140 160
Ingreso ($)

Figura 4. Polígonos de frecuencias absolutas (arriba) y frecuencias relativas (abajo) de los ingresos de los médicos y
de los corredores de bolsa.

La primera contiene los polígonos de las frecuencias absolutas de la Tabla 6 y es muy difícil
descubrir a partir de este gráfico las similitudes o diferencias entre las dos distribuciones. Más
grave es el hecho de que pueden obtenerse algunas impresiones incorrectas. Pero cuando se
inspeccionan los polígonos de frecuencias relativas (segunda figura) pueden extraerse varias
conclusiones fácil y precisamente. Primera, la distribución para los corredores de bolsa tiende a
localizarse en valores más bajos que para los médicos. Segunda, el grado de asimetría para los
médicos es mayor. Tercera, la distribución de los médicos está más concentrada alrededor del
máximo mientras que la de los corredores de bolsa semeja una cima más plana. Cuarta, una
mayor proporción de médicos que de corredores tienen ingresos medios entre $60 y $100,
mientras que una mayor proporción de médicos que de corredores tienen ingresos medios
superiores a $100. La comparación de frecuencias relativas resulta aún más reveladora cuando
tratamos con distribuciones cuyos valores mínimo o máximo, o ambos, difieren mucho entre sí.

6] Distribuciones de frecuencias acumuladas

Para ciertos fines es conveniente disponer los datos acumulados. Normalmente, tenemos que
contestar preguntas como: ¿Cuántas flores tienen diámetros iguales o superiores a 4 cm?,
¿Cuántas flores tienen diámetros de entre 4 y 5 cm? Las respuestas pueden hallarse fácilmente si
las distribuciones de frecuencias son ordenadas en forma acumulada.

Pueden obtenerse frecuencias acumuladas crecientes o decrecientes. La Tabla siguiente ilustra


estos dos tipos de frecuencias para los datos de diámetro (Tabla 3). Fi designa frecuencias
11
acumuladas absolutas y Fi/n, frecuencias acumuladas relativas. En el caso de las frecuencias
acumuladas absolutas crecientes, las frecuencias se acumulan comenzando por la clase de menor
valor y continuando por la inmediatamente mayor, y así sucesivamente. Puede observarse que la
frecuencia acumulada absoluta (Fi) creciente de la primera clase coincide con su frecuencia
absoluta sin acumular (fi). Para la obtención de las siguientes frecuencias acumuladas siempre se
realiza la sumatoria de la frecuencia absoluta sin acumular de la clase en cuestión, más la
frecuencia acumulada absoluta de la clase inmediatamente inferior.

Tabla 7: frecuencias acumuladas absolutas y acumuladas relativas del diámetro de corola

Creciente Decreciente
(fi) Fi Fi/n Fi Fi/n
Clase
[3,595 – 3,695] 2 2 0,02 100 1,00
(3,695 – 3,795] 8 10 0,10 98 0,98
(3,795 – 3,895] 14 24 0,24 90 0,90
(3,895 – 3,995] 27 51 0,51 76 0,76
(3,995 – 4,095] 25 76 0,76 49 0,49
(4,095 – 4,195] 16 92 0,92 24 0,24
(4,195 – 4,295] 7 99 0,99 8 0,08
(4,295 – 4,395] 1 100 1,00 1 0,01

Veremos aquí dos tipos de representaciones gráficas de distribuciones de frecuencias


acumuladas: el diagrama escalonado y la ojiva.

En el diagrama escalonado los ejes x e y son trazados de la misma forma que para un histograma.
Sin embargo, en este diagrama se traza una línea horizontal (en vez de una barra) para el valor de
cada intervalo de clase. Los puntos finales de las líneas horizontales pueden ser o no unidos por
líneas verticales. En el siguiente diagrama escalonado se presentan los datos acumulados de
forma creciente de la tabla anterior:

Figura 5. Diagrama escalonado de las frecuencias acumuladas absolutas y relativas del diámetro de corola floral.

La ojiva une mediante una línea continua los valores de frecuencia de todos los intervalos de
clase. Esos puntos a unir son la intersección del valor de frecuencia (eje y) de cada intervalo de
12
clase con el límite superior de esa misma clase (eje x). En cambio, el polígono de frecuencias
presentado anteriormente une los puntos al nivel de la marca de clase en el eje x. La siguiente
figura es la ojiva para los datos de diámetro de corola de la Tabla 7:

Figura 6. Ojiva de las frecuencias acumuladas absolutas y relativas del diámetro de corola floral.

La ojiva se usa, principalmente, para interpolaciones, que pueden hacerse de dos modos.
Primero, si se escoge un punto de la escala horizontal, el número o proporción correspondiente
de observaciones cuyos valores son iguales o menores que el valor indicado por el punto
escogido en el eje x, puede encontrarse en la escala vertical. Por ejemplo, si elegimos el punto
3,938 cm de la escala horizontal, trazamos luego una línea vertical hasta cortar la ojiva, y desde
esta intersección trazamos una línea horizontal hasta la escala vertical de la izquierda, obtenemos
un valor de Fi 32. Esto significa que aproximadamente 32 observaciones de la muestra tienen
valores iguales o menores de 3,938 cm.

La segunda forma de interpolación es inversa. Esta vez nos desplazamos desde el eje vertical
hacia el horizontal para hallar el valor debajo del cual encontraremos una proporción o número
dado de observaciones. Para ilustrar esto, usemos la escala vertical de la derecha de la figura.
Supongamos que trazamos una línea horizontal desde el punto 0,50 para que corte la ojiva y
luego bajamos una perpendicular desde la intersección hasta la escala horizontal; entonces
hallamos el valor 3,995 cm. Esto significa que el 50% de las observaciones de la muestra tienen
valores iguales o menores a 3,995 cm. Este resultado también significa que el 50% de las
observaciones de la muestra tienen valores mayores a 3,995 cm. Un valor como éste que divide
toda la serie de datos en dos partes iguales se denomina mediana, una medida de tendencia
central que veremos más adelante.

7] Distribuciones categóricas

Una distribución de frecuencias categóricas muestra el número, o la proporción de observaciones


que corresponde a cada una de las clases cualitativas mutuamente exclusivas. La siguiente Tabla
contiene los resultados de una encuesta donde se le pidió al público su impresión sobre un
producto recientemente salido a la venta:
13
Tabla 8: frecuencias absolutas y relativas de la variable categórica “impresión sobre el producto”

Frecuencia
Absoluta Relativa
Muy favorable 55 0,275
Favorable 85 0,425
Indiferente 35 0,175
Desfavorable 20 0,100
Muy desfavorable 5 0,025
Total 200 1,000

Una distribución categórica puede ser representada por un diagrama de barras verticales como
el de la siguiente figura para los datos de la Tabla anterior:

Los anchos de las barras son


enteramente arbitrarios y no
tienen significado práctico,
aunque deben ser iguales entre sí.
Las barras también podrían ser
horizontales en vez de verticales.
A diferencia del histograma, en el
diagrama de barras no es
requisito que las barras sean
contiguas; pueden quedar
espacios entre ellas porque la
variable es categórica.
Figura 7. Diagrama de barras para “impresión sobre el producto”.

También podría gustarte