0% encontró este documento útil (0 votos)
64 vistas31 páginas

Medidas Descriptivas en Estadística

Este documento describe diferentes medidas descriptivas utilizadas para caracterizar conjuntos de datos, incluyendo medidas de posición central como la media y la mediana, y medidas de dispersión como la varianza y la desviación estándar.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
64 vistas31 páginas

Medidas Descriptivas en Estadística

Este documento describe diferentes medidas descriptivas utilizadas para caracterizar conjuntos de datos, incluyendo medidas de posición central como la media y la mediana, y medidas de dispersión como la varianza y la desviación estándar.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Probabilidad y Estadística - Medidas descriptivas

Dra. Ing. Gisella Mautino

Contenido:
Medidas de tendencia central: Media aritmética simple y ponderada: concepto, propiedades,
ventajas e inconvenientes, cálculo; Mediana: concepto, propiedades y aplicaciones para va-
riable discreta y continua. Determinación gráfica y analítica. Cuartiles y percentiles. Moda o
modo: concepto y aplicaciones para variable discreta y continua. Cálculo gráfico y analítico.
Medidas de dispersión: Rango o recorrido: concepto, ventajas e inconvenientes. Recorrido
intercuartílico, cálculo e interpretación. Variancia y desviación estándar: concepto, aplica-
ciones para datos agrupados y no agrupados, cálculo. Coeficiente de variación: concepto,
cálculo y aplicaciones.
Medidas de asimetría y kurtosis: Interpretación gráfica de la asimetría y la kurtosis. Coefi-
ciente de asimetría: concepto, cálculo y aplicaciones. Coeficiente de kurtosis: concepto,
cálculo y aplicaciones.

3.- Medidas descriptivas


Hemos visto que es posible representar un conjunto de datos mediante tablas y gráficas de-
pendiendo de la naturaleza de las variables. Para completar la descripción de datos vamos a determi-
nar ahora valores numéricos que permitan caracterizar al conjunto de observaciones.
En todo conjunto de datos, se pueden calcular medidas descriptivas que representan las pro-
piedades de posición, dispersión y forma.
La característica más importante que describe o resume un grupo de datos es su posición. La
primera cuestión que se plantea en el análisis de las series de frecuencia es la de la representación de
los valores de la serie, mediante un valor central. Para cualquier conjunto particular de datos, es po-
sible seleccionar un valor típico para que lo describa o lo resuma. Este valor típico descriptivo se llama
promedio. Las medidas comúnmente utilizadas son: media aritmética, moda y mediana. Además de
estas medidas, existen otras para una posición “no central”. Estas medidas se llaman cuantiles y las
más utilizadas son los cuartiles, los deciles y los percentiles.
La segunda característica más importante que describe un conjunto datos, es la dispersión. “La
dispersión es la cantidad de variación, desperdigamiento o diseminación en los da-
tos”. 1 Estas medidas son el recorrido o rango, el recorrido intercuartílico, la desviación media, la

1
Berenson, M.L.- Levine, D.M. Estadística para Administración y Economía. Conceptos y Aplicaciones.

22
Probabilidad y Estadística - Medidas descriptivas

Dra. Ing. Gisella Mautino

desviación mediana, la varianza, la desviación estándar y el coeficiente de variación.


Una tercera característica importante de un conjunto de datos es su forma, es decir la manera
en la cual están distribuidos los datos. Estas características se llaman: asimetría y curtosis o apun-
tamiento.
Resumen de las medidas descriptivas

MEDIDAS
DESCRIPTIVAS

Media aritmética
Media geométrica
De tendencia Media armónica
central Moda o modo
Mediana
De posición

Cuartiles
De tendencia Deciles
no central Percentiles

Recorrido o rango
Recorrido intercuartílico
Desviación media
De dispersión Desviación mediana
Varianza
Desviación estándar
Coeficiente de variación

Medidas de Coeficiente
asimetría de asimetría
De forma

Medidas de
apuntamiento Coeficiente
o curtosis de curtosis

Diagrama 4

23
Probabilidad y Estadística - Medidas descriptivas

Dra. Ing. Gisella Mautino

3.1.- Medidas de posición central


La media aritmética
Es el promedio más conocido y de mayor uso, por su facilidad en el cálculo y por sus propiedades
matemáticas convenientes.
“La media actúa como punto de equilibrio o balanceo, de modo que las observaciones que
son mayores equilibran a las que son menores”2

xi
i n
La media muestral está dada por: , en la que n es el tamaño de la muestra.

x es un estadístico.
xi
La media poblacional está dada por: , en la que N es el tamaño de la población.
N
es un parámetro.

Los parámetros se representan por letras griegas.

Ejemplo 1:
El largo de 8 hojas expresadas en mm de una cierta especie vegetal arroja los siguientes valores:
71; 65; 64; 64; 66; 65; 69; 70
Calcule el promedio aritmético de las longitudes.
Recordemos que siempre debemos definir la variable de estudio, clasificarla e indicar la es-
cala de medición.
X: Largo de hojas expresadas en mm.
La variable es cuantitativa continua y la escala de medición es de razón.
Los 10 datos constituyen una serie simple
Solución
Reemplazando por los datos del problema tenemos:
71 65 64 64 66 65 69 70
x 66.75mm
8

Interpretación: En promedio las hojas tienen una longitud de 66.75mm

2
Berenson, M.L.- Levine, D.M. Estadística para Administración y Economía. Conceptos y Aplicaciones.
24
Probabilidad y Estadística - Medidas descriptivas

Dra. Ing. Gisella Mautino

Propiedades de la media:
1.- n .x xi

2.- La suma algebraica de las desviaciones con relación a la media es 0.

Demostración:
(x1 - x ) + (x2 - x ) + ........ + (xn - x ) = x1 + x2 + ….. + x n – n x = xi – n x = 0

3.- La suma de las desviaciones al cuadrado de los datos con respecto a la media, es un mínimo.
xi - x ) 2 = mínimo

Por esta propiedad, la media generalmente se la utiliza para las medidas de dispersión.

Ventajas: Cálculo sencillo, fácil interpretación, intervienen todos los valores de la variable.
Inconvenientes: Es afectada por la existencia de valores extremos.

La mediana (Me)
“La mediana de un conjunto de observaciones es un valor de la variable que divide a este
conjunto (ordenado de menor a mayor) en dos subconjuntos que contienen la misma cantidad de
datos”.3
“La mediana de un conjunto de datos es el valor del elemento del centro (o la media de los
valores de los dos elementos del centro) cuando los datos están acomodados u ordenados, es decir,
dispuestos en orden de magnitud creciente o decreciente”.4
La mediana de un conjunto de n valores es el valor que no es superado ni supera a más de la
mitad de las n observaciones.

Ejemplo 2: Determinar la mediana de las mediciones del ejemplo 1.


Para el cálculo de la mediana conviene ordenar los datos de menor a mayor:

64; 64; 65; 65; 66; 69; 70; 71


Me
3
Universidad Nacional de Córdoba. Curso de Posgrado. “ESTADÍSTICA APLICADA A LA INVESTIGACIÓN”
4
Freund-Williams-Perles. Estadística para la administración.

25
Probabilidad y Estadística - Medidas descriptivas

Dra. Ing. Gisella Mautino

Como la serie tiene un número par de datos la mediana está dado por el promedio de los dos valores
65 66
centrales n4 y n5 . En nuestro problema Me = 65.5mm
2

Interpretación: - El 50% de las hojas tienen un largo de 65.5 mm o menos.


- El 50% de las hojas tienen un largo de 65.5 mm o más.

Observación: Si el número de datos de la serie es impar, entonces la mediana está dada por el valor
central.
La mediana no es influida por los valores de las colas de una distribución. Es una medida muy
conveniente de localización central para distribuciones asimétricas.
Propiedad: La suma de las desviaciones absolutas de las observaciones con relación a la mediana es
menor que la suma de las desviaciones absolutas con relación a cualquier otro punto de la distribu-
ción.
xi – Me = mínimo
La moda (Mo)
La moda es aquel valor de la variable que ocurre con más frecuencia. Es el valor más “pro-
bable” de una serie.
En el gráfico 1 (pág. 7), se observa que: El área de mayor preferencia es la de Economía.

Relaciones entre la media, la mediana y la moda

Distribución simétrica
x = Me = Mo

26
Probabilidad y Estadística - Medidas descriptivas

Dra. Ing. Gisella Mautino

Distribución asimétrica hacia la izquierda Distribución asimétrica hacia la derecha


Asimétrica negativa Asimétrica positiva

Gráfico 9: Distribuciones de frecuencias que muestran la posición teórica de la media, la mediana y la moda

3.2.- Medidas de dispersión


En la figura siguiente se muestran tres distribuciones que tienen la misma media. Pero la dis-
tribución A tienen menos dispersión ( o variabilidad ) que la curva B, y la curva B tiene menos va-
riabilidad que la curva C. Si se consideran solamente la media de estas tres distribuciones, se per- derá
una diferencia importante entre las tres curvas. La media, la mediana y la moda explican sólo una
parte de las características de una distribución de datos. Para ampliar nuestro conocimiento acerca de
los datos, se debe medir también la dispersión o variabilidad de los datos.

Gráfico 10: Tres curvas con la misma media pero con variabilidad distinta

27
Probabilidad y Estadística - Medidas descriptivas

Dra. Ing. Gisella Mautino

La medida de dispersión más sencilla es el rango que ya fue definido en la pág. 17.
El recorrido intercuartílico
Esta medida considera la extensión del 50% central de los datos y por lo tanto no sufre la in-
fluencia de los valores extremos. Se define como la diferencia entre el tercer cuartil y primer cuartil.
El recorrido intercuartílico RI = Q3 – Q1
El procedimiento para el cálculo de los cuartiles es similar al seguido para el cálculo de la mediana.
Otra medida de dispersión ampliamente conocida es la varianza, que también considera las
desviaciones con respecto a la media.
Problema 5
El registro de los pesos (expresados en Kg.) de 5 niños al nacer es el siguiente:
2.800 3.600 3.700 2.500 3.900
Calcule e interprete medidas de dispersión.
Solución:
La variable de estudio es X: Peso de 5 niños al nacer. Es una variable cuantitativa continua.
En este problema tenemos también una serie simple o datos no agrupados.
Cálculo de la varianza
m

2
(x i x)2
La varianza está dada por: S i 1
n

Dado que la variable queda elevada al cuadrado, entonces se emplea como medida de dispersión la
raíz cuadrada de la varianza, la que se conoce con el nombre de desviación estándar.
La desviación estándar está dada por: S (estadístico)
Verifique que la S2 es 0.375 Kg2 y la S es 0.612 Kg.

2
(x )2
La varianza en la población está dada por: i1 y la desviación estándar
N

(parámetro), está dada por:

Observación:
Puede encontrar estas medidas en forma directa utilizando una calculadora científica con comandos
que realicen cálculos estadísticos. Para ello debe cargar los datos y luego presionar las teclas de la
28
Probabilidad y Estadística - Medidas descriptivas

Dra. Ing. Gisella Mautino

media, de la varianza de la desviación estándar según el cálculo que desea realizar ( lea el manual
de uso de la calculadora).

Interpretación de la desviación estándar


Cuando n es grande y cuando la distribución de las n observaciones es aproximadamente en forma
de campana, puede usarse la regla empírica.

Gráfico 11: Localización de las observaciones alrededor de la media de una distribución de frecuencia normal
El intervalo: a) incluirá aproximadamente el 68% de las mediciones
b) incluirá aproximadamente el 95% de las mediciones
c) incluirá aproximadamente el 99% de las mediciones

3.3.- Medidas descriptivas para datos agrupados


Problema 6
En un experimento se probó la eficacia de cierto insecticida. Para ello se consideraron 50 parcelas de
un cultivo atacado por un insecto en particular. Al cabo de un cierto tiempo de aplicación del insec-
ticida, se contó el número de insectos vivos por parcela y los datos se agruparon en la siguiente tabla
de distribución de frecuencias:
Cantidad de Cantidad
insectos vivos de parcelas
5 3
6 9
7 10
8 12
9 8
10 5
11 3

29
Probabilidad y Estadística - Medidas descriptivas

Dra. Ing. Gisella Mautino

En relación a este experimento:


a. ¿Qué tipo de variable se está analizando?. Indique la escala de medición.
b. Calcule la media aritmética de la cantidad de insectos vivos por parcela e interprete la mis-
ma.
c. Determine la mediana y la moda de la distribución en forma analítica y gráfica. Interprete
ambas medidas.
d. Responda:
i) Por debajo de que cantidad de insectos vivos, se encuentra el 75% de las parcelas?.
ii) Por debajo de que cantidad de insectos vivos, se encuentra el 25% de las parcelas?.
e. Calcule e interprete el rango y una medida de dispersión apropiada.
f. Calcule e interprete el coeficiente de asimetría y el de curtosis.
Solución
Identificación de la variable
X: Cantidad de insectos vivos por parcela.
La variable es cuantitativa discreta.

-En nuestro problema la variable es discreta y los datos están agrupados.


La fórmula para calcular la media aritmética para variables discretas con datos agrupados en una
m
xf
ii
tabla de frecuencias es: x i 1n donde m es la cantidad de valores que toma la variable.
En este caso para hallar la media aritmética se agrega a la tabla de frecuencias una columna auxi-
liar que facilite el cálculo.

Tabla VII : Cantidad de insectos vivos por parcela

Cantidad de Cantidad
insectos vivos de parcelas x i fi
xi fi
5 3 15
6 9 54
7 10 70
8 12 96
9 8 72
10 5 50
11 3 33
Totales 50 390
30
Probabilidad y Estadística - Medidas descriptivas

Dra. Ing. Gisella Mautino

m
xf
x i 1 i i = 390 / 50 = 7,8 8 insectos vivos por parcela.
n
El resultado matemático obtenido , no es un posible valor de la variable, por lo que tomamos
el entero próximo: x = 8 insectos vivos por parcela.
Interpretación: En promedio se observan 8 insectos vivos por parcela.

Cálculo de la moda
-En la columna de frecuencias absolutas, la mayor frecuencia observada es 12 parcelas, y a 12 parce-
las le corresponde 8 insectos en la columna de los valores de la variable.
Entonces la Mo = 8 insectos vivos por parcela.
Interpretación: 8 insectos vivos es el número que se observa en la mayor cantidad de parcelas.
fi
Gráficamente: 12
Cantidad de parcelas

10

0
5 6 7 8 9 10 11 xi
Cantidad de insectos vivos
Mo

Gráfico 12: Gráfico de bastones para la distribución de frecuencias absolutas

Cálculo de la Mediana
Tabla VIII: Cantidad de insectos vivos por parcela

Cantidad de Cantidad Frec. Absol.


insectos vivos de parcelas Acumulada
xi fi Fi
5 3 3
6 9 12
7 10 22
Me 8 12 34
9 8 42
10 5 47
11 3 50
Totales 50 31
Probabilidad y Estadística - Medidas descriptivas

Dra. Ing. Gisella Mautino

-Se calculan las frecuencias absolutas acumuladas de la forma “menor que”.


-Se calcula n / 2 = 50 / 2 = 25
-En la columna de frecuencias acumuladas se busca la primera que supera a 25. Esa fre-
cuencia es 34 y a 34 le corresponde el valor x4 = 8, entonces 8 es la mediana de este conjunto de
datos.
Me = 8 insectos vivos por parcela.
Interpretación: El 50% de las parcelas posee 8 insectos vivos o menos.
El 50% de las parcelas posee 8 insectos vivos o más.

Método gráfico

Fi
50

40
Cantidad de parcelas

30

n/2= 25 20

10

0
5 6 7 8 9 10 11 xi
Cantidad de insectos vivos
Me

Gráfico 13: Gráfico de escalones de las frecuencias absolutas acumuladas

-Como se trata de una variable discreta se construye el gráfico de escalones “menor que” de las fre-
cuencias absolutas acumuladas Fi (o de las relativas acumuladas ).
-A una altura n/2 = 25 (o 0.5 si el gráfico de escalones corresponde a frecuencias relativas acumula-
das), sobre el eje vertical de las frecuencias acumuladas se traza una paralela al eje de abscisas hasta
cortar el gráfico de escalones.

32
Probabilidad y Estadística - Medidas descriptivas

Dra. Ing. Gisella Mautino

-Por el punto de intersección, se baja una vertical que corta al eje de las abscisas en un punto que
corresponde a 8 insectos. Este punto es la mediana.
Observación: Siempre que en un conjunto de datos, esté presente un valor extremo o atípico, es
conveniente utilizar la mediana como medida de tendencia central, en lugar de la media aritmética.
Las medidas que permiten responder las preguntas del punto d) son los cuartiles.

Cálculo de los cuartiles


Los cuartiles de una distribución, son tres valores de la variable Q1, Q2, y Q3 que dividen al conjun-
to de datos ordenados en cuatro grupos iguales.

Tabla IX: Cantidad de insectos vivos por parcela

Cantidad Cantidad Frec. Absol.


de insec- de parcelas Acumulada
tos fi Fi
xi
5 3 3
Q1 6 9 12
7 10 22
Q2 8 12 34
9 8 42
10 5 47
Q3
11 3 50
Totales 50

Para Q1
-Se calculan las frecuencias absolutas acumuladas “menor que”.
-Se calcula n / 4 = 50 / 4 = 12.5
-En la columna de frecuencias acumuladas se busca la primera que supera a 12.5. Esa frecuencia es
22 y a 22 le corresponde el valor de x3 = 7, por lo que 7 es el primer cuartil de este conjunto de da-
tos.
Q1 = 7 insectos vivos por parcela
Interpretación: El 25% de las parcelas posee 7 insectos vivos o menos y el 75% restante tiene 7 in-
sectos vivos o más.

Para Q2
El segundo cuartil coincide con la mediana, es decir Q2 = Me = 8 insectos vivos por parcela. La

33
Probabilidad y Estadística - Medidas descriptivas

Dra. Ing. Gisella Mautino

interpretación es igual a la de la mediana.

Para Q3
-Se calculan las frecuencias absolutas acumuladas “menor que”.
-Se calcula 3n / 4 = 150 / 4 =37.5
-En la columna de frecuencias acumuladas se busca la primera que supera a 37.5. Esa frecuencia es
42 y a 42 le corresponde el valor de x5 = 9, por lo que 9 es el tercer cuartil de este conjunto de datos.
Q3 = 9 insectos vivos por parcela.
Interpretación: El 75% de las parcelas posee 9 insectos vivos o menos y el 25% restante tiene 9 in-
sectos vivos o más.
Determinación gráfica de los cuartiles
El método gráfico para la determinación de los cuartiles es similar al visto para la mediana.

Fi
50

40
3n/4=37.5
Cantidad de parcelas

30
n/2= 25

20
n/4 = 12,5
10

0
5 6 7 8 9 10 11 xi
Q3 Cantidad de insectos vivos
Q1 Me = Q2

Gráfico 14: Gráfico de escalones

En nuestro problema: rango = 11 insectos – 5 insectos = 6 insectos


Interpretación : la variabilidad o el recorrido total de la variable es de 6 insectos vivos por parcela.

Cálculo de la varianza

2
(x i

La expresión para el cálculo de la varianza es: S i1

n 1

34
Probabilidad y Estadística - Medidas descriptivas

Dra. Ing. Gisella Mautino

Para hallar analíticamente la varianza agregaremos a la tabla de frecuencias otras columnas


que faciliten el cálculo.
-En nuestro problema x 7.8 insectos vivos por parcela.
Tabla X: Cantidad de insectos vivos por parcela

Cantidad Cantidad
de insectos de parcelas xi x
xi fi
5 3 5 - 7.8 = -2.8 7.84 7.84 x 3 = 23.52
6 9 6 - 7.8= -1.8 3.24 3.24 x 9 = 29.16
7 10 7 - 7.8= -0.8 0.64 0.64 x 10 = 6.4
8 12 8 - 7.8= 0.2 0.04 0.48
9 8 9 - 7.8= 1.2 1.44 11.52
10 5 10 - 7.8= 2.2 4.84 24.2
11 3 11 - 7.8= 3.2 10.24 30.72
Totales 50 126

126
S2 2.57 insectos2
49

La desviación estándar s: S = √𝑆 2 = √2.57 = 1.60 ≅ 2 insectos vivos

Interpretación : La dispersión promedio de cómo varían las cantidades


de insectos vivos por parcela mayores que la cantidad promedio y las cantidades inferiores al promedio
es de 2 insectos vivos por parcela.

Cálculo e interpretación del coeficiente de asimetría y el de curtosis


Además de resumir los datos con las medidas de posición y dispersión calculadas, es necesa-
rio considerar también la forma de los datos.

En primer lugar consideraremos la simetría de la distribución


Resumiendo : x = 7.8 insectos vivos por parcela.
Me = Mo = 8 insectos vivos por parcela.
Como x < Me = Mo, podemos considerar que la distribución de los
datos es casi simétrica. Observando el gráfico nº 11 correspondiente a la distribución de frecuencias,
podemos comentar que no hay valores extremos en una dirección particular, de modo que los valo-
res bajos y los valores altos tienden a equilibrarse o a balancearse entre sí.
En distribuciones de frecuencias unimodales, un coeficiente de asimetría está dado por:
35
Probabilidad y Estadística - Medidas descriptivas

Dra. Ing. Gisella Mautino

𝑋̅ − 𝑀𝑜
𝐴𝑠 =
𝑆
Con -1 < As < 1
En nuestro problema :
𝑋̅ − 𝑀𝑜 7.8 − 8
𝐴𝑠 = = = −0.12 𝑚𝑚
𝑆 1.61
tiende a cero. Por lo que la distribución es casi simétrica como ya lo habíamos anticipado. Presenta
una leve asimetría negativa.

Para el caso de que As resulte negativo, la distribución presenta asimetría negativa o se


dice sesgada a la izquierda.
Para el caso de que As sea igual a cero, la distribución es simétrica.
Para el caso de As positivo, la distribución presenta asimetría positiva o se dice sesgada a la derecha.

Curtosis o “kurtosis” o apuntamiento


El apuntamiento de una distribución de frecuencias indica la mayor o menor altura del máximo
central, con respecto a la altura de la curva normal con media y desviación típica corres- pondiente a
la distribución que se estudia.
El grado de apuntamiento o curtosis está dado por el coeficiente de curtosis K.
Q Q
Un coeficiente está dado por: K = con 0 < K < 0.5
P P
Los cuartiles Q3 y Q1 ya están calculados. Necesitamos, entonces calcular P90 y P10 que son los per-
centiles 90 y 10. Su cálculo es similar al de los cuartiles.

Tabla XI: Cantidad de insectos vivos por parcela

Cantidad Cantidad Frec.


de insectos de parcelas Absol. Acu-
xi fi mulada
Fi
P10 5 3 3
6 9 12
7 10 22
8 12 34
9 8 42
10 5 47
P90
11 3 50
Totales 50
36
Probabilidad y Estadística - Medidas descriptivas

Dra. Ing. Gisella Mautino

𝑛 50
10 = 10 =5
100 100

El valor inmediato superior a 5 en la columna de frecuencias acumuladas es12, y 12 le corresponde


x2 = 6.
P10 = 6 insectos vivos por parcela.

Interpretación: El 10% de las parcelas posee 6 insectos vivos o menos y el 90% restante tiene 6 in-
sectos vivos o más.

Cálculo de P90
n 50
90 90 45
100 100

-El valor inmediato superior a 45 en la columna de frecuencias acumuladas es 47, y a 47 le corres-


ponde x6 = 10. Entonces P90 = 10 insectos vivos por parcela.
Interpretación
El 90% de las parcelas posee 10 insectos vivos o menos y el 10% restante tiene 10 insectos vivos
o más.
9 7 2
Entonces K = 0.25 en este caso decimos que la distribución es mesocúrtica
2(10 6) 8

37
Probabilidad y Estadística - Medidas descriptivas

Dra. Ing. Gisella Mautino

(tiene el apuntamiento de la curva normal).


Si K tiende a 0 la distribución es platicúrtica (más aplanada que la normal).
Si K tiende a 0.5 la distribución es leptocúrtica (más puntiaguda que la normal).

38
Probabilidad y Estadística - Medidas descriptivas

Dra. Ing. Gisella Mautino

Problema 7
En un experimento industrial donde se desea estudiar la capacidad de una máquina para producir
piezas dentro de especificaciones, se han medido 100 tornillos (registrándose su longitud en mm.), los
resultados se presentan en la siguiente tabla de frecuencias:
Longitud de Cantidad
los tornillos de
(Medidos en mm.) tornillos
6-7 11
7-8 9
8-9 14
9-10 11
10-11 22
11-12 14
12-13 7
13-14 5
14-15 4
15-16 3

a) Calcule la longitud promedio de los tornillos fabricados por la máquina.


b) Determine la mediana y la moda de la distribución de los datos analítica y gráficamente. In-
terprete las mismas.
c) Calcule el rango, la desviación estándar. Interprete las mismas.
d) Calcule el recorrido intercuartílico e interprételo.
e) Calcule los coeficientes de asimetría y de curtosis.
Solución
Variable en estudio
X: Longitud de los tornillos producidos por una máquina
Se trata de una variable numérica continua y la escala de medición es de razón.

Cálculo de la longitud promedio de los tornillos fabricados por la máquina.


La medida que nos da la respuesta es la media aritmética. Por tratarse de una variable numérica
continua, y como los datos están agrupados en intervalos de clase, la expresión para calcular esta
medida es similar a la utilizada en el problema anterior y es la siguiente:

x'i fi
i 1
, en la que m es la cantidad intervalos y x’i es la marca de clase de los inter-

valos.
39
Probabilidad y Estadística - Medidas descriptivas

Dra. Ing. Gisella Mautino

Para su cálculo se organizan los datos en una tabla de frecuencias absolutas, en la que se agrega una
columna con las marcas de clases y otra con los productos de cada marca de clase por la correspon-
diente frecuencia absoluta.

Tabla XII: Longitud de los tornillos producidos por una máquina

Marca de Frecuencia
ntervalos
clase fi x’i fi
de clase
x’i
6-7 6.5 11 71.5
7-8 7.5 9 67.5
8-9 8.5 14 119.0
9-10 9.5 11 104.5
10-11 10.5 22 231.0
11-12 11.5 14 161.0
12-13 12.5 7 87.5
13-14 13.5 5 67.5
14-15 14.5 4 58.0
15-16 15.5 3 46.5
Total 100 1014.0

1014.4
𝑋̅ = = 10.14 𝑚𝑚
100

40
Probabilidad y Estadística - Medidas descriptivas

Dra. Ing. Gisella Mautino

Interpretación: En promedio el proceso fabrica tornillos de 10.14 mm. de longitud.

Cálculo de la moda para datos agrupados en intervalos

1.-Método gráfico

- Se construye el histograma de frecuencias absolutas.


- Como todos los intervalos tienen el mismo ancho, el rectángulo de mayor altura correspon-
de al intervalo modal.
- Se unen los vértices superiores del intervalo modal con los vértices superiores del intervalo
premodal y del intervalo posmodal.
- Por el punto de intersección de los segmentos considerados, se traza una vertical que corta
al eje de las abscisas en un punto. Este punto corresponde a la moda.

41
Probabilidad y Estadística - Medidas descriptivas

Dra. Ing. Gisella Mautino

fi
Intervalo
25 modal
Intervalo
Intervalo posmodal
20 premodal
Cantidad de tornillos

15

10

0
6 7 8 9 10 11 12 13 14 15 16
Long. de los tornillos en mm.
Mo

Gráfico 15: Histograma de frecuencias absolutas de la variable longitud de los tornillos


fabricados por una máquina.

2.- Método analítico


Para el cálculo se utiliza la siguiente fórmula:

Mo Li ai

Consideraremos la siguiente tabla:


Tabla XIII: Longitud de los tornillos producidos por una máquina.

Intervalos Frecuencia
de clase absoluta
fi
6-7 11
7-8 9
8-9 14
9-10 11 Frecuencia absoluta premodal
10-11 22
Intervalo Frecuencia absoluta modal
11-12 14
modal
12-13 7 Frecuencia absoluta posmodal
13-14 5
14-15 4
15-16 3
Total 100
42
Probabilidad y Estadística - Medidas descriptivas

Dra. Ing. Gisella Mautino

Observación:
Se puede trabajar con las frecuencias relativas, en lugar de las frecuencias absolutas.
- La mayor frecuencia absoluta es 22. Esta frecuencia es la que corresponde al intervalo 10-
11. Entonces 10-11 es el intervalo modal.
- Li es el límite inferior del intervalo modal. En nuestro caso Li = 10.
- d1 es la diferencia entre la frecuencia absoluta del intervalo modal y la frecuencia absoluta
del intervalo premodal.
d1 = 22 –11 = 11
- d2 es la diferencia entre la frecuencia absoluta del intervalo modal y la frecuencia absoluta
del intervalo posmodal.
d2 = 22 –14 = 8
- ai es la amplitud del intervalo modal. ai = 1
Reemplazando estos valores en la fórmula tenemos:
11 .1 10 11
Mo 10 10.58 mm.
11 8 19

Interpretación: La longitud de tornillos que se presenta con mayor frecuencia en el proceso de fabri-
cación es de 10.58 mm.

43
Probabilidad y Estadística - Medidas descriptivas

Dra. Ing. Gisella Mautino

Cálculo de la mediana para el caso de datos agrupados en intervalos


1.- Método analítico
Para el cálculo tenemos en cuenta que se trata de una variable continua, y que los datos están
agrupados en intervalos de clase. La expresión que se utiliza es la siguiente:
n
F(j 1)
Me L j-1 2 .a j
fj

Tabla XIV.-Tabla de frecuencias de una variable continua para una muestra de tamaño n.

Intervalos Frec. Abs. Frec. Abs.


de clase fi Acumul.
Li – Ls Menor que
Fi
L0 – L1 f1 F1
L1 – L2 f2 F2
……. …. …..
Lj-2 – Lj-1 fj-1 Fj-1
Lj-1- Lj fj Fj
........ ....... .......
Lm-1 – Lm fm Fm = n
Totales n

- Se consideran las frecuencias acumuladas “menor que” Fi (se puede considerar las frecuencias
relativas acumuladas)
- Se calcula n/2 y se ubica la menor frecuencia acumulada Fj que supere a este valor n/2.
- A Fj le corresponde el intervalo medial Lj-1- Lj y la frecuencia absoluta fj .
- Lj-1 es el límite inferior del intervalo medial y Lj el límite superior del intervalo.
- Con ai se designa la amplitud de los intervalos, entonces aj , es la amplitud del intervalo medial.

Volviendo a nuestro problema, consideraremos la distribución de las frecuencias absolutas acumu-


ladas “menor que”.

44
Probabilidad y Estadística - Medidas descriptivas

Dra. Ing. Gisella Mautino

Tabla XV.- Longitud de los tornillos fabricados por una máquina.


Intervalos Frecuencia Frec. absol.
De clase fi acumuladas
Fi
6-7 11 11
7-8 9 20
8-9 14 34
9-10 11 45
10-11 22 67
11-12 14 81
12-13 7 88
13-14 5 93
14-15 4 97
15-16 3 100
Total 100

-Se calculan las frecuencias acumuladas “menos que” Fi


- Se calcula n / 2 = 100 / 2 = 50
- En la columna Fi, se ubica la primera frecuencia que supera a n / 2, en nuestro caso que supere a
50. Esa frecuencia es Fj = F5 = 67,
- A 67 la corresponde el intervalo 10-11, denominado intervalo medial intervalo medial Lj-1- Lj,
10 es el límite inferior delintervalo medial (Lj-1 es el límite inferior del intervalo medial) y fj = f5 =
22 la frecuencia absoluta del intervalo medial fi
- En nuestro problema todos los intervalos son iguales, entonces a5 = a = 1 es la amplitud del
intervalo medial. (con a5 designamos la amplitud del quinto intervalo)
- La F(j-i) es = F4 = 45 (Frecuencia acumulada del intervalo pre medial)
n
F(j 1)
Reemplazando los valores obtenidos en la expresión Me Lj-1 2
.aj
fj

50 45 5
Tenemos que: Me 10 .1 10 10.23mm.
22 22

45
Probabilidad y Estadística - Medidas descriptivas

Dra. Ing. Gisella Mautino

Interpretación
- El 50% de los tornillos producidos por una máquina tienen una longitud de 10.23 mm. o menos.
- El 50% de los tornillos producidos por una máquina tienen una longitud de 10.23 mm. o más.

2.-Método gráfico
Para el cálculo gráfico de la mediana se procede de la siguiente manera.
-Como se trata de una variable continua se construye la ojiva “menor que” de las frecuencias
absolutas acumuladas Fi (o de las relativas acumuladas Ri).

-A una altura n/2 = 50 (o 0.5 si la ojiva corresponde a las frecuencias relativas acumuladas),
sobre el eje vertical de las frecuencias acumuladas se traza una paralela al eje de abscisas hasta cor-
tar la ojiva.
-Por el punto anterior, se baja una vertical que corta al eje de las abscisas en un punto que
corresponde aproximadamente a 10.23 mm. Este punto es la mediana.

Fi

100
Cantidad de tornillos

90

80

70

60

n/2 = 50

40

30

20

10

0
6 7 8 9 10 11 12 13 14 15 16
Me = 10.23 Long. de los tornillos en mm.
Gráfico 16: Ojiva de las frecuencias absolutas acumuladas de las longitudes de los tornillos producidos por una
máquina.
46
Probabilidad y Estadística - Medidas descriptivas

Dra. Ing. Gisella Mautino

Cálculo del rango y la desviación estándar


Como los datos del problema están dados por el agrupamiento en 10 intervalos, el rango se cal-
cula haciendo la diferencia entre la última marca de clase y la primera:
x’10 – x’1 = 15.5mm.– 6.5mm.= 9mm.
Interpretación: La variabilidad total de la longitud de los tornillos fabricados es de 9 mm.
Recordemos que la desviación estándar es la raíz cuadrada de la varianza, entonces necesitamos
calcular primero la varianza.

Cálculo de la varianza
El cálculo de la varianza para datos agrupados en intervalos de clase, está dado por:

(x'
S 2 i 1
en la que x’i es la marca de clase de los intervalos.
n -1
Dispondremos los datos en una tabla, con el objeto de facilitar el cálculo. Recordemos que
x 10.144mm
Tabla XVI.- Longitud de tornillos producidos por una máquina

Intervalos Marca de Frecuencia


de clase clase absoluta x’i - x ( x’i - x )2 ( x’i - x )2 fi
x’i fi
6-7 6.5 11 6.5 -10.14= -3.64 (-3.64)2 = 13.25 13.25x11=145.75
7-8 7.5 9 7.5-10.14 = -2.64 (-2.64)2 = 6.97 6.97 x 9 = 62.73
8-9 8.5 14 -1.64 2.69 37.65
9-10 9.5 11 -0.64 0.41 4.51
10-11 10.5 22 0.36 0.13 2.85
11-12 11.5 14 1.36 1.85 25.89
12-13 12.5 7 2.36 5.57 38.99
13-14 13.5 5 3.36 11.29 56.45
14-15 14.5 4 4.36 19.01 76.04
15-16 15.5 3 5.36 28.73 86.19
Total 100 537.05

S2 = 537.05 / 99 = 5.4247 mm2


La desviación estándar S = 5.4247 mm2 = 2.3291mm

47
Probabilidad y Estadística - Medidas descriptivas

Dra. Ing. Gisella Mautino

El recorrido intercuartílico
RI = Q3 Q1
Cálculo de los cuartiles

Tabla XVII.-Longitud de los tornillos fabricados por una máquina

Intervalos Frecuencia Frec. absol.


De clase fi acumuladas
Fi
6-7 11 11
7-8 9 20
8-9 14 34
9-10 11 45
10-11 22 67
11-12 14 81
12-13 7 88
13-14 5 93
14-15 4 97
15-16 3 100
Total 100

Cálculo del primer cuartil


n
F(j 1)
La fórmula para el cálculo del primer cuartil está dada por: 4
Q1 L j-1 .aj
fj
- Se calcula n / 4 = 100 / 4 = 25

48
Probabilidad y Estadística - Medidas descriptivas

Dra. Ing. Gisella Mautino

- En la columna Fi, se ubica la primera frecuencia que supera a n / 4, en nuestro caso que supera a
25. Esa frecuencia es F3 = 34.
- A 34 le corresponde el intervalo 8-9; 8 es el límite inferior del intervalo y fj = f3 = 14 la frecuen-
cia absoluta del intervalo
- En nuestro problema todos los intervalos son iguales, entonces a3 = a = 1, es la amplitud del
intervalo.
- La F(j-i) es = F2 = 20

Reemplazando los valores obtenidos en la fórmula dada, tenemos que:

25 − 20 5
Q1 = 8 + ∗1=8+ = 8.36 𝑚𝑚
14 14

Cálculo del tercer cuartil

La fórmula para el cálculo del tercer cuartil está dada por:


3𝑛
− 𝐹(𝑗−1)
Q3 = 𝐿𝑗−1 + 4 ∗ 𝑎𝑗
𝑓𝑗

Se calcula 3n / 4 = 300 / 4 = 75
- En la columna Fi, se ubica la primera frecuencia que supera a 3n / 4, en nuestro caso que su-
pera a 75. Esa frecuencia es F6 = 81
- A 81 le corresponde el intervalo 11-12; 11 es el límite inferior del intervalo y fj = f6 = 14 la
frecuencia absoluta del intervalo.
- En nuestro problema todos los intervalos son iguales, entonces a6 = a = 1, es la amplitud del
intervalo.
- La F(j-i) es = F5 = 67
Reemplazando los valores obtenidos en la fórmula dada, tenemos que:
75 67 8
Q3 11 .1 11 11.57mm.
14 14

49
Probabilidad y Estadística - Medidas descriptivas

Dra. Ing. Gisella Mautino

RI = 11.57mmm – 8.36mm = 3.21mm


Interpretación: La variabilidad del 50% centrales de las longitudes de los tornillos, es de 3.21mm.

Asimetría
x < Me < Mo

10.14mm 10.23 mm 10.58mm

Como la media es menor que la mediana y la moda está a la derecha, podemos decir que la
distribución de los datos tiene asimetría negativa o que es sesgada hacia la izquierda.
Veamos el cálculo del coeficiente:

𝑋̅ − 𝑀𝑜 10.144 𝑚𝑚 − 10.58 𝑚𝑚
𝐴𝑠 = = = −0.19 𝑚𝑚
𝑆 2.3291 𝑚𝑚

Podemos concluir diciendo que la distribución tiene asimetría negativa pequeña.

Curtosis
Para el cálculo necesitamos conocer los percentiles 10 y 90.
En forma análoga al procedimiento seguido para el cálculo de cuartiles, hallaremos los percentiles.
10−0 90−88
𝑃10 = 6 + 11
∗ 1 = 6.91 𝑚𝑚 𝑃90 = 13 + 5
∗ 1 = 13.4 𝑚𝑚

Reemplazando en la fórmula para el cálculo del coeficiente de curtosis, tenemos:


𝑄3 − 𝑄1 11.57 𝑚𝑚 − 8.36 𝑚𝑚 3.21 𝑚𝑚
𝐾= = = = 0.25
2 (𝑃90 − 𝑃10 ) 2 (13.4 𝑚𝑚 − 6.91 𝑚𝑚) 12.98 𝑚𝑚

La distribución es mesocúrtica. En este caso la moda es similar a la altura de la normal, aunque la


distribución es asimétrica.

50
Probabilidad y Estadística - Medidas descriptivas

Dra. Ing. Gisella Mautino

Otra medida de variabilidad


El coeficiente de variación o de variabilidad es una medida de dispersión relativa. Se expre-
sa como porcentaje. El CV, mide la dispersión en términos de la media.
S
En símbolos: CV 100
x

“El coeficiente de variación se utiliza para comparar la homogeneidad de dos series de datos
aun cuando estén expresadas en distintas unidades de medida”.5

A medida que el coeficiente de variación disminuye, se observa una mayor


homogeneidad en los datos, o lo que es lo mismo, los datos están más concentrados alrededor
del promedio.

Problema 8
El siguiente lote de 20 datos corresponde a lecturas de humedad (en porcientos) reducidos al entero
más próximo:

Lote de datos
29 44 12 53 21
34 39 25 48 23
17 24 27 32 34
15 42 21 28 37

5
ESTADÍSTICA aplicada a la investigación. [Link] C.

51
Probabilidad y Estadística - Medidas descriptivas

Dra. Ing. Gisella Mautino

Representar los datos mediante un diagrama de Tallo y Hojas.

Solución
Serie simple: es un conjunto de pocos datos (generalmente n < 30 ).
Dado un lote de pocos datos cuantitativos (serie simple), además de los métodos explorato-
rios vistos (tablas de frecuencias), existe otra técnica sencilla de gran utilidad llamada “Diagrama de
Tallo y Hojas”desarrollada por Tukey.
Para realizar el diagrama en primer lugar se ordenan los datos:
Lote de datos ordenados
12 15 17 21 21
23 24 25 27 28
29 32 34 34 37
39 42 44 48 53

Luego se construye el diagrama colocando en una columna todos los números del lote de da-
tos eliminando la última cifra (unidades) ordenados de menor a mayor. Esta columna constituye el
tallo. A la derecha de cada número del tallo, se agrega la última cifra (unidad) de cada dato, ordena-
dos también de menor a mayor, estas cifras constituyen las hojas.
Diagrama de Tallo y Hoja para el estudio de humedad

Tallo Hojas
1 2 5 7
2 1 1 3 4 5 7 8 9
3 2 4 4 7 9
4 2 4 8
5 3

La interpretación de este gráfico es la siguiente:


Por ejemplo tomando la fila 2 puede observarse que hay dos registros de lecturas de humedad de 21,
una de 23, una de 24 etc.
De la misma manera se interpretan las demás filas.
52

También podría gustarte