MEDIDAS
ESTADÍSTICAS
MEDIDAS
• Tendencia central o de centralización (media, mediana y moda)
• Variabilidad (rango, rangos intercuartílicos, desviación estándar, varianza, coeficiente de
variación)
• Posición (cuantiles: cuartiles, deciles o percentiles)
MEDIDAS DE TENDENCIA
CENTRAL
• El propósito de una medida de tendencia central es resumir un conjunto de datos de
forma que podamos tener un panorama general; una medida tal sirve como representante
del resto de la información.
• Una medida de tendencia central de un conjunto de datos proporciona también una idea
del valor central de un conjunto aparentemente desorganizado de observaciones.
La media es el promedio aritmético
La mediana es el puntaje ordenado medio
La moda, si existe, es el puntaje más frecuente
El rango medio, es el promedio aritmético de las medidas mayor y menor
MEDIDAS DE TENDENCIA
CENTRAL PARA DATOS NO
AGRUPADOS
Media:
Ejemplo 1:
• Pesos en libras: 5, 6, 12 , 15 y 20. Calificaciones para un examen: 31 , 73 , 78, 79, 80 y 81.
• Colores de coches: tres blancos, cuatro rojos, siete negros y uno azul.
• Puestos académicos: 7 profesores, 3 profesores asociados, 2 profesores asistentes y 10
instructores
Media para una tabla de frecuencias
Ejemplo 2:
MEDIANA PARA DATOS NO
AGRUPADOS
Moda para datos no agrupados:
La moda en un conjunto de datos es el dato u observación que más se repite. Los conjuntos
pueden ser unimodales, bimodales o multimodales. Se puede calcular para datos cualitativos y
cuantitativos.
MEDIDAS DE TENDENCIA
CENTRAL PARA DATOS
AGRUPADOS
MEDIA:
Media: La formula para calcular la media aritmética en datos agrupados es la siguiente:
Donde; xi es la marca de la clase, fi la frecuencia absoluta de los datos y n el número de datos.
Moda:
La moda para datos agrupados es la siguiente:
Donde; Li: es el límite inferior de la clase modal
fi: frecuencia absoluta de la clase modal,
fi-1: frecuencia absoluta anterior a la clase modal
fi+1: frecuencia absoluta posterior a la clase modal
A: amplitud del intervalo
Mediana:
La mediana para datos agrupados esta dada por:
Donde; Li: límite inferior donde se encuentra la clase mediana
N: número de datos
Fi-1: es la frecuencia absoluta acumulada anterior donde se encuentra la clase mediana
Fi: frecuencia absoluta de la clase donde se encuentra la mediana
A: amplitud del intervalo
Ejemplo de medidas de tendencia central datos agrupados:
Dadas las edades de 50 estudiantes de un curso calcula las medidas de tendencia central:
Medidas de dispersión o de
variabilidad
• Rango o recorrido
• Rango intercuartil.
• Varianza
• Desviación estándar (o típica)
• Coeficiente de variación de Pearson
Medidas de dispersión o de variabilidad
Una medida de dispersión o variabilidad es la desviación de cada uno de los datos respecto a la
una medida de centralización.
Ejemplo: Se tienen los siguientes datos: 3, 5, 8 y 4.
La media aritmética = 5; Siendo n= 4, total de datos.
Las medidas de dispersión más comunes son:
a) Rango Es la medida de dispersión más simple. El rango o recorrido de un conjunto de datos se
define como la diferencia entre el dato más alto y el más bajo.
R = x mayor - x menor
R=
Medidas de dispersión o de variabilidad
b) Rango intercuartil Una medida de dispersión que elimina la influencia de los valores extremos de
los datos es el rango intercuartil.
Definición: El rango intercuartil, simbolizado por R.I, es la diferencia entre el tercer y el primer cuartil.
Es decir,
Datos de ejemplo: 3, 5, 8 y 4 organizando 3, 4, 5, 8
Q=(n*Q)/4
R.I = Q3 − Q1.
Medidas de dispersión o de variabilidad
C)La varianza: LA VARIANZA de un conjunto de n datos x 1 , x 2 , ………x n , donde n=4
D)La desviación estándar (Conjunto de los datos), y desviación Típica(Cada Dato).
Definición: La desviación estándar de un conjunto de n datos x 1 , x 2 , ………x n , se define:
S=
Medidas de dispersión o de variabilidad
Ejemplo: Se tienen los siguientes datos: 3 5 7 6 4 3 7 6 6 7
Ejemplo de medidas de variabilidad
datos no agrupados:
Dadas las edades de 20 estudiantes de un curso calcula las
medidas de dispersión:
Ejemplo de medidas de variabilidad datos agrupados:
Dadas las edades de 50 estudiantes de un curso calcula las medidas de dispersión:
Medidas de dispersión o de variabilidad
Ejemplo: Calcular la varianza y la desviación estándar de una población de niños a partir
de la siguiente tabla:
Medidas de dispersión o de variabilidad
E).El coeficiente de variación: Es una medida relativa de variabilidad que mide la desviación
estándar en relación con la media, ya que es necesario comparar las dispersiones de dos o
más conjuntos de datos y por la diferencia de escala puede resultar incoherente, por tal motivo
el CV, elimina la escala correspondiente de los valores; se calcula de la siguiente forma:
CV = x 100
Donde s es la desviación estándar y es la media o promedio.
Ejemplo: Se tienen los siguientes datos: 20,25,30,15,35
Medidas de dispersión o de variabilidad
Medidas de dispersión o de variabilidad
Medidas de dispersión o de variabilidad
Como medida relativa, el coeficiente de variación resulta especialmente útil cuando se
compara la variabilidad de dos o más conjuntos de datos, que se expresan en diferentes
unidades de medidas.
Ejemplo:
El gerente de operaciones de servicios de paquetería desea adquirir una nueva flota de auto,
cuando los paquetes se guardan con eficiencia en el interior de los autos, se debe considerar
dos puntos principales el peso (libras) y el volumen en (metros cúbicos) de cada paquete.
Ahora en una muestra de 200 paquetes el peso promedio es de 26 libras con una desviación
estándar de 3,9 libras. Además, el volumen es de 8,8 metros cúbicos con una desviación
estándar de 2,2 metros cúbicos ¿Cómo se puede comparar la variación del peso y el
volumen?
Taller Medidas de dispersión o de
variabilidad
1. Los siguientes datos representan el promedio de millas por galón diario por cinco días para un determinado auto 20,
25, 30, 35, 15
Encuentre el coeficiente de variación e interprete su respuesta
2. En un estudio realizado por el departamento de ingeniería mecánica del tecnológico de virginia , se compraron unas
varillas de acero que abastecen dos compañías diferentes. Se fabricaron diez resortes de muestra con las varillas de
metal proporcionadas por cada una de las compañías y se registraron sus medidas de flexibilidad.
Los datos son los siguientes:
Compañía A: 9,3 – 8,8 – 6,8 – 8,5 – 6,7 – 8,0 – 6,5 – 9,2 – 7,0 – 8,7
Compañía B: 11,0 – 9,8 – 9,9 – 10,2 – 10,1 – 9,7 – 11,0 – 11,1 – 10,2 – 9,6
A) Calcule la media aritmética y la desviación estándar para ambas compañías.
B) Determine el coeficiente de variación.
MEDIDAS DE POSICIÓN RELATIVA
Una medida de Posición es una medida de colocación de una distribución de
frecuencia en donde se le asigna a un valor a una porción especifica a una
distribución que da en o debajo de ella.
Las medidas de posición más comunes que vamos a trabajar son:
Percentiles
Deciles
Cuartiles
Las cuales se calculan de diferentes maneras dependiendo de la distribución
de los datos (no agrupados y agrupados)
MEDIDAS DE POSICIÓN RELATIVA PARA DATOS
NO AGRUPADOS
• PERCENTILES:
El p-ÉSIM0 es un valor tal que a lo más un p% de los datos tienen dicho o menos de ese
valor y, al menos, un (100 — p)% de los datos tienen este valor o más.
Para calcular el p-ésimo (punto) percentil de un conjunto de n datos, es importante que
tengamos en cuenta los siguientes pasos:
• Ordenemos los datos de manera ascendente.
• Calculemos un índice i a través de la fórmula i = np/100, siendo p el percentil de interés
y n, la cantidad de datos.
• Decidamos de acuerdo a uno de los dos casos:
• Si el índice i no es entero, redondeamos al entero siguiente. Este valor aproximado de i
indica la posición del p-ésimo percentil.
MEDIDAS DE POSICIÓN RELATIVA
• Ejemplo de Percentil:
Calcule (a) el 85-ésimo punto percentil y (b) el 50-ésimo punto percentil
de los siguientes datos que representan los salarios (en millones de pesos) 1 2,210
de 12 empleados en una empresa: 2 2,255
3 2,350
2,350 2,450 2,550 2,380 2,255 2,210 2,390 2,630 2,440 2,825 2,420
2,380 4 2,380
5 2,380
RESPONDER A LOS SIGUIENTES ITEMS 6 2,390
Se organizan los datos de forma ascendente 7 2,420
• ¿ Cuánto ganan el 85% de los empleados de la empresa? 8 2,440
9 2,450
• R/
10 2,550
• ¿ Cuánto ganan el 50% de los empleados de la empresa? 11 2,630
• R/ 12 2,825
MEDIDAS DE POSICIÓN RELATIVA
LOS CUARTILES: son casos particulares de los percentiles, en este caso se toma todo el
conjunto de datos y se divide en cuatro partes iguales y se definen así:
• Q1: Primer Cuartil o 25-ésimo Percentil
• Q2: Segundo Cuartil o 50-ésimo Percentil o Mediana
• Q3: Tercer Cuartil o 75-ésimo Percentil
• Q4: Cuarto Cuartil o 100-ésimo Percentil o dato mayor
Para calcular un índice i a través de la fórmula i = n*Q/4, siendo Q el cuartil de interés y n, la
cantidad de datos.
MEDIDAS DE POSICIÓN RELATIVA
Ejemplo: Tomando de referencia el mismo conjunto de datos de los sueldos de los empleados de una empresa; se
desea calcular el segundo cuartil y el tercer cuartil.
1 2,210
¿ Cuánto gana el primer 50% de los empleados? 2 2,255
R/
3 2,350
4 2,380
5 2,380
6 2,390
7 2,420
¿ Cuánto gana el tercer cuartil de los empleados? 8 2,440
R/ 9 2,450
10 2,550
11 2,630
12 2,825
MEDIDAS DE POSICIÓN RELATIVA
DECILES: Son las medidas de posición relativa correspondiente a un conjunto de datos
(ordenado ascendentemente) que está dividido con diez partes, de tal forma que cada
parte contiene aproximadamente 10% de las medidas.
Para calcular un índice i a través de la fórmula i = (n*D)/10, siendo D, el decil de interés
y n, la cantidad de datos.
MEDIDAS DE POSICIÓN RELATIVA
Tomando de referencia el mismo conjunto de datos de los sueldos de los empleados de
una empresa; se desea calcular el sexto decil y cuarto decil.
1 2,210
¿ Cuánto gana el 60% de los empleados? 2 2,255
3 2,350
R/
4 2,380
5 2,380
6 2,390
7 2,420
8 2,440
9 2,450
¿ Cuánto gana el 40% de los empleados?
10 2,550
R/ 11 2,630
12 2,825
MEDIDAS DE POSICIÓN
RELATIVA PARA DATOS
AGRUPADOS
LOS CUARTILES: Se define el intervalo cuantilico aquel que sea ≥ (n*Q)/4,
= *W
Donde:
: Es el límite inferior de la clase cuantilica
n : Es el total de datos
Fa : Frecuencia acumulada de la clase que antecede a la clase del cuartil i
: Frecuencia de absoluta de la clase cuantilica
MEDIDAS DE POSICIÓN
RELATIVA PARA DATOS
AGRUPADOS
Ejemplo de CUARTILES PESO
INTERVALOS DE
Se define el intervalo aquel que sea ≥ CLASE
fa fr fp
(n*Q)/4 Marca de (frecuenci FaA
I clase Xi (frecuenci (frecuencia
= *W a
I inferior superio a
relativa) porcentual
r absoluta)
)
45 50 47,5 2 0,060 6,06% 2
50 60 55 8 0,24 24,24% 10
60 70 65 12 0,36 36,36% 22
70 80 75 7 0,21 21,21% 29
80 90 85 2 0,06 6,06% 31
90 100 95 2 0,06 6,06% 33
MEDIDAS DE POSICIÓN
RELATIVA PARA DATOS
AGRUPADOS
• Deciles :
Se define el intervalo Fa aquel que sea ≥ (n*D)/10
= *W
Donde:
: Es el límite inferior de la clase del Decil de interés
n : Es el total de datos
Fa : Frecuencia acumulada de la clase que antecede a la clase del Decil i
: Frecuencia de absoluta de la clase del Decil de interés
MEDIDAS DE POSICIÓN
RELATIVA PARA DATOS
AGRUPADOS
PESO
INTERVALOS DE
Ejemplo de DECILES CLASE
fa fr fp
Se define el intervalo aquel que sea ≥ (n*D)/10 I
Marca
de clase (frecuenc (frecuenc FaA
Xi (frecuencia ia
I inferior superi ia
relativa) porcentu
or absoluta)
al)
= *W
45 50 47,5 2 0,06060606 6,06% 2
50 60 55 8 0,24242424 24,24% 10
60 70 65 12 0,36363636 36,36% 22
70 80 75 7 0,21212121 21,21% 29
80 90 85 2 0,06060606 6,06% 31
90 100 95 2 0,06060606 6,06% 33
MEDIDAS DE POSICIÓN
RELATIVA PARA DATOS
AGRUPADOS
PERCENTILES: Se define el intervalo cuantilico aquel que sea ≥ (n*P)/100,
= *W
Donde:
: Es el límite inferior de la clase del percentil de interés
n : Es el total de datos
Fa : Frecuencia acumulada de la clase que antecede a la clase del percentil de interés
: Frecuencia de absoluta de la clase del percentil de interés
MEDIDAS DE POSICIÓN
RELATIVA PARA DATOS
AGRUPADOS
PESO
Ejemplo de PERCENTILES INTERVALOS DE
fa fr fp
Se define el intervalo aquel que sea ≥ (n*P)/100 CLASE
Marca de (frecuenci
I FaA
clase Xi (frecuenci (frecuencia a
= *W I inferior superi
or
a
absoluta)
relativa) porcentua
l)
45 50 47,5 2 0,06060606 6,06% 2
50 60 55 8 0,24242424 24,24% 10
60 70 65 12 0,36363636 36,36% 22
70 80 75 7 0,21212121 21,21% 29
80 90 85 2 0,06060606 6,06% 31
90 100 95 2 0,06060606 6,06% 33
Curtosis
Es una medida estadística que determina el grado de concentración que presentan los valores
de una variable alrededor de la zona central de la distribución de frecuencias .
Curtosis
Coeficiente de asimetría
Las medidas de asimetría son indicadores que permiten establecer el grado de simetría que presenta
una distribución de probabilidad de una variable aleatoria sin tener que hacer su representación gráfica
Coeficiente de asimetría
Situaciones para reconocer la simetría de los datos
Si la distribución es simétrica:
• La distancia de Q1 a la mediana es igual a la distancia de la mediana a Q3.
• La distancia del valor mínimo a Q1 es igual a la distancia de Q3 al valor máximo.
• La mediana y el rango medio((dato max + dato min)/2) son iguales.
(Estas medidas son iguales a la media de los datos.)
Situaciones para reconocer los datos noCoeficiente
simétricosde asimetría
Si la distribución no es simétrica:
Distribuciones sesgadas a la derecha:
• La distancia de Q3 al valor máximo excede la distancia del valor mínimo a Q1.
• La mediana es menor que el rango medio.
Distribuciones sesgadas a la izquierda:
• La distancia del valor minino a Q1 excede la distancia de Q3 al valor máximo.
• La mediana es mayor que el rango medio.
Ejemplo:
Análisis exploratorio de datos
Una vez que hemos estudiado las cuatro
propiedades más importantes de los datos
numéricos (tendencia central, posición relativa,
dispersión y forma), es importante identificar y
describir las características principales de los datos
en forma resumida.
Un enfoque a este análisis exploratorio de datos
consiste en desarrollar un resumen de cinco
números y construir un diagrama de caja y bigotes.
Análisis exploratorio de datos
Resumen de cinco números
consiste en cinco cantidades que se emplean para resumir los datos:
• 1. valor mínimo
• 2. primer cuartil (Q1)
• 3. Mediana (Q2)
• 4. tercer cuartil (Q3)
• 5. valor máximo.
• A partir del resumen de cinco números se pueden obtener, entre otras, dos medidas de tendencia central (la
mediana y el rango medio) y dos medidas de variación (el rango
intercuartil y el rango) para tener una mejor idea de la forma de la distribución .
Análisis exploratorio de datos
Diagrama de cajas y bigotes
El diagrama de caja y bigotes, como el que se muestra
en la figura, proporciona una representación gráfica
de los datos mediante el resumen de cinco números.
Esta herramienta de análisis exploratorio de datos va a
permitir estudiar la simetría de los
datos, detectar los valores atípicos y vislumbrar un
ajuste de los datos a una distribución
de frecuencias determinada.
Análisis exploratorio de datos
Diagrama de cajas y bigotes
Análisis exploratorio de datos
Diagrama de cajas y bigotes
Un valor atípico puede ser un elemento para el cual se haya anotado su valor en forma errónea. Si es así,
puede corregirse antes de proseguir con el análisis.
También, un valor atípico puede ser uno que por error se incluyó en el conjunto de datos y, en estos
casos, debe eliminarse. Por ´ultimo, puede ser tan solo un elemento poco común que se haya anotado en
forma correcta y que sí pertenece al conjunto de datos. En estos casos ese elemento debe mantenerse.
Análisis exploratorio de datos
Ejemplo: Considere la siguiente tabla
de datos, y realice un gráfico de caja y
bigotes, siguiendo los pasos presentados
anteriormente
Análisis exploratorio de datos
Diagrama de cajas y bigotes
Análisis exploratorio de datos
Ejemplo:
Un fabricante de baterías para linternas tomo una muestra de 13 baterías de un día de producción y las uso
hasta que se agotaron. Las horas que funcionaron hasta fallar son:
166 342 426 492 562 298 264 631 451 1049 317 545 512
Proporcione el resumen de cinco números, construya el diagrama de caja y bigotes, determine si hay valores
atípicos y haga un análisis exploratorio del conjunto de datos
Análisis exploratorio de datos
Ejemplo:
• Los siguientes datos muestran las yardas acumuladas durante la temporada de futbol
americano colegial para una muestra de 20 receptores:
• Forme el resumen de cinco números, trace un diagrama de caja e identifique en el o los valores
atípicos.