UNIDAD II
Estadística Descriptiva
Objetivos
Qué deberían saber al terminar esta SEGUNDA PARTE:
Qué queremos significar por distribución de frecuencias
Cómo construimos una tabla de frecuencias.
Cómo se organizan los datos agrupados o no agrupados.
Qué son los métodos gráficos
Distinguir cuándo se utilizan los diferentes tipos de gráficos
2.1. Presentaciones en tablas:
Las tablas son arreglos de doble entrada donde con base en los datos
capturados de acuerdo a las categorías o dimensiones de nuestra o
nuestras variables de análisis presentamos de una manera conjunta,
ordenada y totalizada las sumas o frecuencias totales del fenómeno de
interés, de una manera más práctica, las tablas permiten al analista (o
investigador) tener sintéticamente una visión cuantitativa y general del
fenómeno observado.
2.1.1. Tabla de entrada de datos
En este tipo de arreglo tabular solo aparecen los datos del diseño
experimental o del fenómeno que se esta observando con un interés
investigativo. Es la tabla más elemental y la utilizamos cuando no es
menester una información muy exhaustiva de los datos
Con los datos de esta tabla pueden hacerse diversas representaciones
gráficas y calcularse determinadas características numéricas como la
media, la mediana, la moda, la varianza, la desviación estándar. (Estas
características se discutirán con más detalle en la tercera parte del
presente modulo)
Ejemplo : Agrupar en una tabla de datos
10, 1, 6, 9, 2, 5, 7, 4, 3, 8
X 1 2 3 4 5 6 7 8 9 10
2.1.2. Tablas de frecuencias (distribución de frecuencias)
Las tablas de frecuencias informan al analista estadístico los valores de
la variable (si es una investigación, la categoría de análisis) y sus
respectivas frecuencias.
La distribución de frecuencias permite presentar los valores de una
variable o varias variables de una forma sistemática y ordenada.
La distribución de frecuencias de una variable viene definida por los
valores de la variable (Xi) y el número de veces que se repite cada valor
(ni).
2.2. Distribución de frecuencias para datos no agrupados
En es5te caso, la variable, de naturaleza discreta o continua, toma
valores concretos: X1, X2,……….Xi
Ordenando los valores de la variable de menor a mayor, la distribución
de frecuencias puede representarse mediante una tabla de frecuencias o
tabla estadística.
Frecuencias absolutas
Xi ni Ni
X1 n1 N1
X2 n2 N2
Xi ni Ni
XI nI NI
Frecuencias relativas
Xi fi Fi
X1 f1 F1
X2 n2 F2
Xi fi Fi
Donde: XI fI FI
ni = frecuencia absoluta: es el número de veces que se repite cada
valor de la variable
Ni = frecuencia absoluta acumulada: es el número de veces que se
repite un valor inferior o igual a Xi es decir que
Ni = n1 + n2 +…………+ ni
fi = frecuencia relativa: es la proporción de veces que se repite cada
valor de la variable. Lo podemos ver como el cociente entre cada una de
las frecuencias absolutas y el número total de observaciones, es decir,
ni
fi
N
Fi = frecuencia relativa acumulada: es la proporción de veces que se
repite un valor inferior o igual a Xi, es decir,
Fi = F1 + F2 +……..+ Fi
Ejemplo1: Agrupar en una tabla: 4, 5, 6, 5, 6, 4, 7, 8, 9, 9
Xi ni Ni
4 2 2
5 2 4
6 2 6
7 1 7
8 1 8
9 2 10
N = 10
Xi ni Fi
4 0.2 0.2
5 0.2 0.4
6 0.2 0.6
7 0.1 0.7
8 0.1 0.8
2 0.2 1
Σ = 1.0
Ejercicios
2.3. Distribución de frecuencias para datos agrupados
Este tipo de análisis se usa generalmente debido al elevado número de
valores distintos que toma la variable. En esta situación los valores se
agrupan en intervalos.
Supóngase que los valores de la variable han sido agrupados en I
intervalos. La distribución de frecuencias puede representarse como
sigue:
Intervalos ni Ni fi Fi
L i-1, Li
[ Lo, L1[ n1 N1 f1 F1
[ L1, L2[ n2 N2 f2 F2
[ Li-1, Li[ ni Ni fi Fi
[ LI– 1, LI] nI NI fI FI
Σ=N Σ=1
Los extremos del i-ésimo intervalo se denotan por Li-1, Li, donde Li-1 es
su extremo inferior y Li es su extremo superior. Obsérvese que el
extremo superior de un intervalo coincide con el inferior del intervalo
siguiente.
El problema al construir la tabla de frecuencias surge cuando existen
valores de la variable que coinciden con el límite superior de un intervalo
y el inferior del siguiente. En este caso ¿a que intervalo hay que asignar
la unidad observada?
Para resolver el conflicto se seguirá el criterio de considerar que el
intervalo es cerrado por su extremo inferior y abierto por el superior, a
excepción del último intervalo que será cerrado por ambos extremos.
Cuando se trabaja con una distribución de frecuencias de valores
agrupados es importante determinar:
1 La amplitud del intervalo que se denota por ci y es la diferencia
entre el extremo superior e inferior del intervalo.
ci Li 1 Li
2 La marca de clase, que se denota por xi, es el valor medio del i-
ésimo intervalo y representa a los valores de la variable
contenidos en el.
Li 1 Li
xi
2
Cuando la muestra consta de 30 o más datos, lo aconsejable es agrupar
los datos en clases y a partir de estas determinar las características de
la muestra y por consiguiente las de la población de donde fue tomada.
2.4. ¿Cómo se agrupan los datos?
Procedimiento para agrupar los datos
a. Determinar el rango o recorrido de la variable.
Rango = Xmax – Xmin
b. Establecer el número de clases (k) en que se van a agrupar los datos
tomando como base para esto la siguiente tabla.
Tamaño de muestra o No. De datos Número de clases
Menos de 50 5a7
50 a 99 6 a 10
100 a 250 7 a 12
250 en adelante 10 a 20
El uso de esta tabla es uno de los criterios que se puede tomar en cuenta
para establecer el número de clases en las que se van a agrupar los datos,
existen otros para hacerlo:
K N
Fórmula de Sturges
log N
K 1, cuando N es muy grande
log 2
c. Determinar la amplitud de clase para agrupar (C).
Rango
C
k
d. Formar clases y agrupar datos.
Para formar la primera clase, se fija el límite inferior de la primera clase.
Puede tomarse como límite inferior del primer intervalo o primera clase el
mínimo valor de la variable. Fijado este y sumando la amplitud, se obtiene el
resto de intervalos
Ejemplo:
Los siguientes datos se refieren al diámetro en pulgadas de un lote de
piezas para una máquina.
6.75 7.00 7.00 6.75 6.50 6.50 7.15 7.00
6.50 6.50 6.50 6.25 6.25 6.50 6.65 7.00
7.25 6.70 5.97 6.75 6.00 6.75 6.75 7.10
7.00 6.70 6.50 6.75 6.25 6.65 6.75 7.10
7.25 6.75 6.25 6.25 7.00 6.75 7.00 7.15
a) Agrupe datos, considere k=6. (Con base en la tabla)
b) Obtenga: Histograma, polígono de frecuencias, ojiva (mirar métodos
gráficos)
Solución:
a) Agrupando datos;
1. R = XM - Xm = 7.25 – 6.00 = 1.25
2. k=6
R 1.25
C 0.2083 0.21
3. k 6
4. Formando clases.
Para formar la primera clase se toma la observación de menor valor (5.97)
que constituirá el límite inferior del primer intervalo (cerrado en ese extremo)
y se le suma el valor de la amplitud (0.21) para obtener el límite superior de
ese intervalo o clase. De este modo la primera clase serña `[5.97 – 6.18[
La segunda clase tendra comó límite inferior el valor del límite superior de
la clase anterior para nuestro caso 6.18 y el límite superior se obtiene
sumándole el valor de la amplitud al límite inferior (6.18 + 0.21
Li-1, Li Frecuencia Marca de Frecuencia Frecuencia
(ni) clase (xi) relativa (fi) Relativa
acumulada (Fi)
[5.97 – 6.18[ 2 6.075 2/40 = 0.05 0.05
[6.18 – 6.39[ 5 6.285 5/40=0.125 0.175
[6.39 – 6.60[ 7 6.495 0.175 0.350
[6.60 – 6.81[ 13 6.705 0.325 0.675
[6.81 – 7.02[ 7 6.915 0.175 0.850
[7.02 – 7.23 ] 6 7.125 0.15 1.000
Total 40 1.000
Observe con detalle cuando los intervalos son semiabiertos o cerrados.
Ejercicio
Ahora intente con la siguiente situación:
Una empresa de comercio electrónico ha recogido datos sobre el tiempo
(digamos en minutos) que un día cualquiera, los usuarios que acceden a su
web permanecen conectados y los ha registrado en la siguiente tabla:
13 54 24 27 39 19 32 35 25 40
5 42 22 28 38 17 30 34 23 38
8 45 23 29 39 18 31 33 24 40
16 55 20 28 38 21 34 37 27 44
12 48 20 29 36 17 34 33 27 43
10 45 22 25 36 18 30 34 28 43
12 48 24 28 38 18 33 31 26 44
14 50 23 26 38 15 31 32 29 42
10 44 24 25 35 19 32 32 25 40
15 55 22 27 35 20 33 36 26 40
Construya la tabla de frecuencias siguiendo los pasos del ejercicio anterior.
2.5. Tablas de contingencia o de doble entrada
son aquellas tablas de datos referentes a dos variables, formada, en las
cabeceras de las filas, por las categorías o valores de una variable y en
las de las columnas por los de la otra, y en las casillas de la tabla, por
las frecuencias o número de elementos que reúnen a la vez las dos
categorías o valores de las dos variables que se cruzan en cada casilla.
Este tipo de tablas brindan información estadística de dos eventos
relacionados entre sí, es útil en casos en los cuales los experimentos
son dependientes de otro experimento, mas adelante aparecen mas
aplicaciones del análisis estadístico bivariable.
Ejemplo:
Género Tipo de empleado
planta Temporal
Hombres 122 215
Mujeres 105 127
Total 227 342
Ejercicio
En una escala de 1 a 4, siendo 4 el mejor, un grupo de consumidores
clasifica la “conciencia social” de 50 organizaciones clasificadas como
públicas (indicadas como 1 en los siguientes datos) privadas ( indicadas con
un 2), o controladas por el gobierno (indicadas con un 3)
Tipo Clasificación Tipo Clasificación
1 1 2 2
2 2 3 3
2 3 1 1
3 2 2 4
1 4 3 4
2 2 1 2
3 3 2 3
2 2 3 2
1 1 1 1
2 2 3 4
3 3 2 2
1 4 1 3
1 2 3 1
2 3 2 4
3 1 3 2
3 2 1 1
2 3 2 3
1 2 3 2
2 1 1 1
3 4 2 4
2 4 1 1
3 1 2 2
1 2 3 3
3 4 1 2
2 1 2 1
Prepare una tabla de contingencia con sus respectivos totales en filas y
columnas.
Que porcentaje de las organizaciones públicas recibieron una calificación de
“4”
De las que recibieron una clasificación de “1” que porcentaje eran públicas
Proponga conclusiones significativas de la información resumida en su tabla
de contingencia
2.6. Gráficos para la información estadística
Al momento de representar los datos “capturados” de un fenómeno de
interés para efectuar nuestro análisis estadístico hacemos uso de un
diagrama o gráfico que nos permita análizar rapidamente la información
estadística.
Algunos de las representaciones gráficas de uso frecuente son el
diagrama en árbol, diagrama de áreas o superficies, diagrama de
bandas, diagrama de barras, diagrama de bloques, diagrama circular (o
tortas), diagrama de puntos, diagrama de tallo y hoja, histogramas y
gráficos de caja y bigote o boxplots.
2.6.1. Gráficos de puntos (líneas)
Sencillamente la información (los datos u observaciones) se consignan
en un diagrama (plano) cartesiano ubicando en el eje x los valores
correspondientes a la variable de análisis y en el eje de las ordenadas
(eje y) el valor correspondiente a la frecuencia para este valor.
La información que ofrece el gráfico se centra esencialmente en la
frecuencia. Si la información (muestra) se agrupa por intervalos se
trabaja con la marca de clase del intervalo de clase, la marca de clase
es el punto medio del intervalo
Ejercicio
Los datos (valores) de duración de una resistencia en un dispositivo
electromecánico esta resumida en la siguiente tabla
Xi(horas) Xmedio ni
300-400 350 2
400-500 450 6
500-600 550 10
600-700 650 8
700-800 750 4
30
Construya la representación gráfica (diagrama de puntos (líneas)
Ejercicio
Represente ahora el grafico de puntos (líneas) con la siguiente información:
Las importaciones anuales de un grupo selecto de proveedores de dispositivos
electrónicos se muestran en la siguiente distribución de frecuencias
Importaciones Numero de
millones de dólares proveedores
2 hasta 5 6
5 hasta 8 13
8 hasta 11 20
11 hasta 14 10
14 hasta 17 1
2.6.2. Gráficos de tallo y hoja
Es una forma rápida de obtener una representación visual ilustrativa del
conjunto de datos, para construir un diagrama de tallo y hoja primero se
debe seleccionar uno ó más dígitos iniciales para los valores de tallo, el
dígito o dígitos finales se convierten en hojas, luego se hace una lista de
valores de tallo en una columna vertical. Prosiguiendo a registrar la hoja
por cada observación junto al valor correspondiente de tallo, finalmente
se indica las unidades de tallos y hojas en algún lugar del diagrama, este
se usa para listas grandes y es un método resumido de mostrar los
datos, posee la desventaja que no proporciona sino los datos, y no
aparece por ningún lado información sobre frecuencias y demás datos
importantes.
Para los siguientes datos: 34.5,34.6,45.7,45.8 y 56.2
El diagrama de tallo y hojas luce así:
Tallo Hoja
____________
34 5,6
35 7,8
46 2
Ejercicio
Las razones precio – ganancia de 21 acciones en la categoría de
comercio mediante mercado virtual son:
8.3, 9.6, 9.5, 9.1, 8.8, 11.2, 7.7, 10.1, 9.9, 10.8, 10.2, 8. 8.4. 8.1, 11.6,
9.6, 8.8, 8.0, 10.4, 9.8, 9.2
Organice esta información en una representación de tallo y hoja.
2.6.3. Diagramas de barras
Esta representación se ocupa de valores de naturaleza discreta
(enteros). Recuerde de nuestra primera parte el concepto de variable
aleatoria discreta).
Este diagrama se utiliza cuando los valores de la variable no se
encuentran agrupados en intervalos.
Se sitúan en el eje de las abcisas (eje x) los valores de la variable y en el
eje de las ordenadas (eje y) las frecuencias (pueden ser las absolutas o
las relativas). A continuación se asocia una barra a cada valor de la
variable (Xi) cuya altura será proporcional a la frecuencia que
corresponda.
Ejercicio: Se han reportado las temperaturas de las ciudades con
aeropuertos que tienen mayor actividad:
CIUDAD TEMPERATURA
A 12
B 18
C 24
Elabore un diagrama de barras
Obsérvese que la variable es de carácter cualitativo (ciudad)
Ejercicio: El Departamento comercial de una empresa de suministros de
productos de seguridad industrial, con el objetivo de realizar un control
sobre el grado de cumplimiento de logros, ha preguntado a ,los 10
vendedores que integran la plantilla por el número de nuevos clientes
captados en el último mes:
4, 5,5,7,5,8,5,7,6,7
¿Cuál sería su variable aleatoria?
Construya la tabla de frecuencias (incluya los valores de las frecuencias
absolutas y las relativas
Presente un diagrama de barras.
Barras múltiples: es muy recomendable para comprar una serie
estadística con otra, para ello emplea barras simples se distinto color o
tramado en un mismo plano cartesiano, una al lado de la otra
Ejercicio
TIENDA Enero Febrero Marzo abril mayo Junio
A 800 600 700 900 1100 1000
B 700 500 600 1000 900 1200
Barras compuestas: en este método de graficación las barras de la
segunda serie se colocan encima de las barras de la primera serie en
forma respectiva.
El diagrama de barras proporciona información comparativa
principalmente y este es su uso principal, este diagrama también
muestra la información referente a las frecuencias
2.6.4. Histograma de frecuencias
Se emplea para ilustrar muestras agrupadas en intervalos. Esta formado
por rectángulos unidos a otros, cuyos vértices de la base coinciden con
los limites de los intervalos y el centro de cada intervalo es la marca de
clase, que representamos en el eje de las abscisas. La altura de cada
rectángulo es proporcional a la frecuencia del intervalo respectivo. Esta
proporcionalidad se aplica por medio de la siguiente formula
Altura del rectángulo = frecuencia relativa/longitud de base
El histograma se usa para representar variables cuantitativas continuas
que han sido agrupadas en intervalos de clase, la desventaja que
presenta que no funciona para variables discretas.
Ejemplo
HISTOGRAMA
16
NC
13
EC
UE
FR
IA
5.965 - 6.185
11
7 7 6 6.185 - 6.405
5
6 6.405 - 6.625
2
6.625 - 6.845
1
6.845 - 7.065
-4 7.065 - 7.285
LIMITES
F R E C U E N C IA POLIGONO DE FRECUENCIA
16
14
12
10
8
6
4
2
0
5.635 5.855 6.075 6.295 6.515 6.735 6.955 7.175 7.395 7.615
MARCA DE CLASE
OJIVA "MENOR QUE" O CRECIENTE
F R E C U E N C IA R E L AT IVA
1 1
0.85
ACUMULADA
0.8
0.675
0.6
0.4
0.35
0.2 0.175
0.05
0 0
5.965 6.185 6.405 6.625 6.845 7.065 7.285
LIM ITES REALES
Ejercicio
Una empresa de comercio electrónico ha recogido datos sobre el tiempo
(digamos en minutos) que un día cualquiera, los usuarios que acceden a su
web permanecen conectados y los ha registrado en la siguiente tabla:
13 54 24 27 39 19 32 35 25 40
5 42 22 28 38 17 30 34 23 38
8 45 23 29 39 18 31 33 24 40
16 55 20 28 38 21 34 37 27 44
12 48 20 29 36 17 34 33 27 43
10 45 22 25 36 18 30 34 28 43
12 48 24 28 38 18 33 31 26 44
14 50 23 26 38 15 31 32 29 42
10 44 24 25 35 19 32 32 25 40
15 55 22 27 35 20 33 36 26 40
Como ya construyo la tabla de frecuencias ( distribución de frecuencias) ahora
construya el histograma.
Observaciones
Sitúe en el eje de las abcisas los distintos intervalos correspondientes a
los tiempos de conexión
Sobre cada intervalo dibuje un rectángulo
En el eje de las y se ubican las frecuencias (Número de usuarios =
frecuencia absoluta)
Para obrtener el polígpono de frecuencias simplemente trace una línea
que una las marcas de clase de los diferentes intervalos.
La ojiva se obtiene situando en el eje x los intervalos y en el eje y las
frecuencias absolutas acumuladas.
Tortas o gráficos por sectores
Es un gráfico que se basa en una proporcionalidad entre la frecuencia y el
ángulo central de una circunferencia, de tal manera que a la frecuencia total le
corresponde el ángulo central de 360°. Para construir se aplica la siguiente
formula:
X = frecuencia relativa * 360°/ frecuencia relativa
Este se usa cuando se trabaja con datos que tienen grandes
frecuencias, y los valores de la variable son pocos, la ventaja que tiene
este diagrama es que es fácil de hacer y es entendible fácilmente, la
desventaja que posee es que cuando los valores de la variable son
muchos es casi imposible o mejor dicho no informa mucho este
diagrama y no es productivo, proporciona principalmente información
acerca de las frecuencias de los datos de una manera entendible y
sencilla.
EJ: Representar mediante un gráfico de sectores la frecuencia con que
aparece cada una de las cinco vocales en el presente párrafo:
Vocal a e i o u
Frecuencia 13 20 4 6 3 46
Ejercicio Una Pymes que comercializa cinco productos (A, B, C, D, E)
presenta unos ingresos totales por ventas que asciende a un millón de
dólares.
Por producto, las ventas se han distribuido de la siguiente forma
Producto Ventas
(millones de dólares)
A 150
B 320
C 170
D 80
E 280
Construya el grafico por sectores (torta)
2.6.5. Gráficos bivariados
Para trabajar los diagramas de dispersión, primero debemos saber qué
es el análisis estadístico bivariable y las ventajas que este tiene. El
análisis estadístico bivariable es aquel análisis que opera con datos
referentes a dos variables y pretende descubrir y estudiar sus
propiedades estadísticas. El análisis estadístico bivariable se orienta
fundamentalmente a la normalización de los valores o frecuencias ce los
datos brutos, determina la existencia, dirección y grado de la variación
conjunta entre las dos variables, lo que se realiza mediante él calculo de
los coeficientes de correlación pertinentes, calcula la covarianza o
producto de las desviaciones de las dos variables en relación a sus
medias respectivas y por ultimo establece la naturaleza y forma de la
asociación entre las dos variables en el caso de las variables de
intervalo.
2.6.6. Gráficas de dispersión de datos
Es un diagrama que representa gráficamente, en un espacio de
ordenadas, los puntos de dicho espacio que corresponden a los valores
correlativos de una distribución bivariante conjunta, estos diagramas
deben usarse cuando tenemos un análisis estadístico bivariable, ósea
una tabla de datos de doble entrada, la ventaja que tienen es que se
puede graficar de una forma sencilla una distribución bivariante conjunta
y la desventaja principal es que no funciona si sucede que una dupla se
repita
Ejercicio
X Y
A 2 3
B 4 1
C 5 4
D 3 6
E 2 8