1
Estadística descriptiva
1.1 Clasificación de las variables
La estadística descriptiva consiste en recopilar, organizar y resumir datos, ya sea en forma tabular,
gráfica o numérica.
Población es cualquier colección ya sea de un número finito o virtualmente infinito de mediciones
acerca de algo de interé[Link] es un subconjunto representativo seleccionado de una población.
Una buena muestra es aquella que refleja las características esenciales de la población de la cual se
obtuvo.
A toda característica, cuantificable de alguna forma, que posee la población se le conoce como
variable, se representan con letras mayúsculas \ , ] , ^ , á y se clasifican en cualitativas y
cuantitativas. A su vez, cada valor particular de la variable se llama dato, corresponde a números o
medidas recopiladas como resultado de las observaciones y se denotan por letras minúsculas y
subíndice aB3 , C4 , D5 , á b.
Las variables cualitativas son aquellas que se refieren a atributos, cualidades o características, se
dividen en nominales y ordinales. Las nominales se emplean para diferenciar los objetos o distintas
categorías que corresponden a nombres o códigos. Las ordinales se utilizan para diferenciar el orden de
supremacía de acuerdo con cierto criterio jerárquico, sus categorías pueden ser nombres o números no
cuantificables.
Las variables cuantitativas son aquellas cuyas observaciones resultantes pueden medirse por medio de
un instrumento, se dividen en discretas y continuas. Las discretas corresponden, en general, a
recuentos de unidades asociadas con la población en estudio, con valores en el conjunto Ö0, 1, 2, 3,
á ×. Las continuas son las que teóricamente pueden tomar cualquier valor dentro de un cierto
intervalo, esto es, entre dos mediciones consecutivas de la variable, siempre será posible obtener otra
medición.
1.2 Presentación tabular y gráfica de los datos
Diagrama de puntos consiste en ubicar los datos en una recta numérica por medio de puntos, es útil
para visualizar un conjunto pequeño de datos o para comparar dos o más conjuntos de datos.
Diagrama de tallo y hoja consiste en ubicar los datos aredondeados a enteros o amplificadosb en dos
columnas: un tallo formado por uno o más de los primeros dígitos del dato y una hoja que contiene los
demás. Debe elegirse un número pequeño de tallos aentre 5 y 20b comparado con el número de datos.
Otra técnica, la distribución ao tablab de frecuencias ofrece un resumen más compacto y general de
los datos que las recién descritas, es un arreglo tabular de las frecuencias anúmero de observacionesb
con que ocurre cada característica en que se han dividido los datos. La característica puede estar
determinada por una cualidad o categoría o por un intervalo
allamado también clase o intervalo de claseb.
La frecuencia o frecuencia absoluta de la 4-ésima categoría o intervalo está dada por 04 , 4 œ 1, 2,
á , 5 ; donde 5 − MR representa el número total de categorías o intervalos. Análogamente, las
0 0
frecuencias relativas se denotan y calculan por 04< œ 84 Šo 04< a%b œ 100 84 ‹, 8 − MR es el
número total de datos.
Para una variable cualitativa, su distribución de frecuencias está dada por la siguiente tabla:
Categorías de la variable estudiada Frecuencia absoluta 04 Frecuencia relativa 04< ˆo 04< a%b‰
Categoría 1 01 01<
ã ã ã
Categoría 5 05 05<
Total 8 1 aó 100 %b
2
La distribución de frecuencias para una variable cuantitativa además depende de la siguiente
información:
El recorrido o rango V es la diferencia entre el dato mayor y el menor, esto es, V œ Bmayor Bmenor .
Lo más importante es el número de intervalos a utilizar, depende de la cantidad, naturaleza y propósito
de los datos a resumir. En la práctica se obtienen buenos resultados al emplear 5 ¸ È8, pero es más
usada la fórmula de Sturges 5 ¸ 1 3.322 loga8b, redondear al entero más cercano, pues 5 − MR
a5 Ÿ 5 Ÿ 20b.
Los extremos de cada intervalo se llaman límite inferior de clase, 63, al izquierdo y límite superior de
clase, 6=, al derecho. Si un intervalo carece de un extremo se llama intervalo de clase abierto. En
forma análoga, se obtienen las fronteras de clase o límites reales de clase: frontera inferior, 0 3, y
frontera superior, 0 =, son el promedio entre el límite superior de una clase y el límite inferior de la
siguiente. La diferencia entre la frontera de clase superior e inferior se llama longitud o ancho del
intervalo de clase.
Se debe destacar que si todos los intervalos de clase de una distribución de frecuencias tienen el
mismo ancho, éste se denomina amplitud denotado y calculado por - ¸ V 5 , que debe tener tantos
decimales como la observación que posee más decimales, redondeando al número superior en caso
necesario.
Independiente de la forma en que se obtuvo el ancho de cada intervalo, el primer intervalo debe
contener al menor de los datos aBmenor b y el último intervalo debe contener al mayor aBmayor b.
La marca de clase 74 del 4-ésimo intervalo, es el punto medio de dicho intervalo, para 4 œ 1, 2, á ,
5.
La frecuencia acumulada absoluta J4 y la frecuencia acumulada relativa J4< del 4-ésimo
intervalo, es la suma de las 4 primeras frecuencias absolutas o relativas, respectivamente, para 4 œ 1,
2, á , 5 .
Así, para una variable cuantitativa, su distribución de frecuencias está dada por la siguiente tabla:
Intervalos ao Fronterasb 04 04< ˆo 04< a%b‰ J4 J4< ˆo J4< a%b‰ 74
631 6=1 Î 0 31 0 =1 Ñ 01 01< J1 J1< 71
ã ã ã ã ã ã ã
635 6=5 0 35 0 =5 Ò
Ï 05 05< J5 J5< 75
Total 8 1 aó 100 %b
Observación
Una variable cuantitativa discreta se trabaja como una variable continua si los datos son numerosos y
muy diferentes. En otro caso, cada observación distinta se considera como una clase y su distribución
de frecuencias es como la anterior: en la primera columna van las diferentes clases y sin la última
columna.
Redondeo de datos
El resultado de redondear 59.6 a enteros aunidadesb es 60, pues 59.6 está más cerca de 60 que de 59.
Análogamente, 2.9735 se redondea en décimas aun decimalb a 3.0; en centésimas ados decimalesb a
2.97; pero al redondearlo en milésimas atres decimalesb se presenta un dilema, pues está equidistante
de 2.973 y de 2.974. La costumbre es redondear al entero par que precede al dígito 5, esto es,
redondear a 2.974.
Los dígitos empleados, sin considerar los ceros necesarios para localizar el punto decimal, se
denominan cifras o digitos significativos del número. Así, 2.310 y 0.004760 tienen cuatro dígitos
significativos.
3
Ejemplo.
Las temperaturas, en grados Celcius, del fluido de descarga de una planta para el tratamiento de aguas
negras durante varios días consecutivos están registradas en la tabla adjunta. Identifique y clasifique la
variable en estudio. Construya un diagrama de puntos, un diagrama de tallo hoja y una distribución
de frecuencias que represente los datos registrados.
48.8 50.6 49.8 50.8 48.6 47.9 51.7 49.7 50.7 49.0 50.7 48.7 50.9 51.2 50.0
48.5 51.1 49.9 52.1 47.7 51.8 48.4 50.3 52.0 50.1 49.6 48.0 50.5 51.0 52.3
Desarrollo Diagrama de puntos
47.5 48.0 48.5 49.0 49.5 50.0 50.5 51.0 51.5 52.0 52.5
Diagrama de tallo y hoja
Tallo Hoja Hojas Ordenadas
47 9 7
48 8 6 7 5 4 0
49 8 7 0 9 6
50 6 8 7 7 9 0 3 1 5
51 7 2 1 8 0
52 1 0 3
Bmenor œ 47.7; Bmayor œ 52.3; V œ 4.6; 8 œ 30; 5 ¸ È30 œ 5.477225575 ¸ 5, o bien,
5 ¸ 1 3.322 loga30b œ 5.906996808 ¸ 6 Ö5œ5 (datos concentrados); así,
- ¸ 0.92 Ö - œ 1.0
Distribución de frecuencias
Temperatura (º Celcius) 04 04< a%b J4 J4< a%b 74
47.7 48.6 6 20.0 6 20.0 48.15
48.7 49.6 4 13.3 10 33.3 49.15
49.7 50.6 8 26.7 18 60.0 50.15
50.7 51.6 7 23.3 25 83.3 51.15
51.7 52.6 5 16.7 30 100.0 52.15
Total 30 100.0
La representación gráfica de una distribución de frecuencias depende de la información que se maneje.
El gráfico de barras simples, el gráfico sectorial y el gráfico de barras divididas aagrupadasb se
utilizan para variables cualitativas. El histograma y el polígono se utilizan para variables cuantitativas.
El gráfico de barras simples consiste en una serie de rectángulos abarrasb del mismo ancho, uno por
cada categoría, se dibujan separados para enfatizar la diferencia cualitativa existente, ya sea horizontal
o verticalmente. La longitud de la barra indica la frecuencia asociada a la categoría respectiva.
El gráfico sectorial o circular consiste en un círculo dividido en sectores circulares cuyas áreas
representan la proporción de cada una de las categorías. Como un círculo encierra un total de 360°,
entonces a la categoría 4 le corresponde un ángulo de centro dado por )4 œ 3.6 04< a%b º, 4 œ 1, 2, á ,
5.
4
El gráfico de barras divididas aagrupadasb compara en un mismo gráfico dos o más características
relacionadas, para diferentes categorías. Tales características se representan en barras contiguas (en
una misma barra) y distinguible una de otra. La altura indica la frecuencia asociada a la categoría
respectiva.
El histograma de frecuencias consiste en una serie de rectángulos adyacentes, uno por cada clase, con
bases en un eje horizontal, centros en las marcas de clase y ancho igual al del intervalo de clase. Si
todos los intervalos tienen el mismo ancho, las alturas de los rectángulos se toman iguales a las
frecuencias de clase, de lo contrario, el área de cada rectángulo es proporcional a la frecuencia de clase
aajustar alturas!b.
El polígono de frecuencias es un gráfico de líneas acerradob en coordenadas cartesianas. Se construye
colocando un punto sobre cada marca de clase a una altura igual a la frecuencia asociada a esa clase;
luego dichos puntos se unen por segmentos de recta. Para cerrar el polígono se consideran intervalos al
inicio y al final con frecuencia cero. El área del polígono así formado es equivalente a la del
histograma.
El histograma y el polígono también pueden estar referidos a frecuencias relativas y a acumuladas:
La forma del histograma de frecuencias relativas es similar al de frecuencias, sólo hay diferencia en la
escala del eje vertical, la cual es sustituida por la escala de frecuencias relativas. Se acostumbra utilizar
un mismo histograma para representar ambas frecuencias, empleando dos ejes verticales; uno a la
izquierda para registrar las frecuencias absolutas y otro a la derecha para representar las frecuencias
relativas. En cuanto al polígono se hace una consideración semejante a la indicada para el histograma.
Los histogramas de frecuencias acumuladas se construyen con el mismo procedimiento establecido en
la confección del histograma de frecuencia. El polígono que se obtiene al unir por segmentos de recta
los puntos situados a una altura igual a la frecuencia acumulada a partir de la marca de clase como se
hizo con el polígono de frecuencia recibe el nombre de ojiva. La frecuencia acumulada relativa
también se ilustra con el empleo del mismo histograma de frecuencia acumulada; igual situación
sucede con la ojiva.
Las representaciones gráficas de datos deben ser autoexplicativas, es decir, deben tener un
título, escalas apropiadas y rótulos adecuados en los ejes acuando correspondab.
Ejemplo.
Construya todos los gráficos que estime pertinentes para los datos del ejemplo 2.
Distribución diaria del fluido de descarga de una Distribución acumulada diaria del fluido de
planta según su temperatura descarga de una planta según su temperatura
8 30 100%
25%
7 25
[Link]
80%
frec. acum. rel.
frec. relativas
6 20%
frecuencias
5 20
15% 60%
4 15
3 10% 40%
10
2 20%
5% 5
1
0 0% 0 0%
47.15 48.15 49.15 50.15 51.15 52.15 53.15 47.15 48.15 49.15 50.15 51.15 52.15 53.15
temperatura (º Celcius) temperatura (º Celcius)
Fuente: Autor del Apunte. Fuente: Autor del Apunte.