ESTADISTICA DESCRIPTIVA Y
PROBABILIDADES
MEDIDAS DESCRIPTIVAS: TENDENCIA CENTRAL, DISPERSIÓN,
POSICIÓN Y FORMA
ESTADISTICA I
ÁREA DE ESTADISTICA
DEPARTAMENTO DE CIENCIAS EXACTAS - ESPE
Semana # 2
Contenido
Título Medidas Descriptivas: Tendencia Central, Dispersión, Posición
y Forma
Duración 120 minutos
Información general Cálculo de medidas de ubicación – Cálculo de medidas de
ubicación.
Objetivo Calcular e interpretar medidas de tendencia central, dispersión,
posición y forma.
1.4 Medidas de ubicación
Media de la población:
Para datos no agrupados, la media de la población es la suma de todos los valores en ella
dividida entre el total de valores en la población:
∑𝑥
𝜇=
𝑁
donde µ representa la media de la población.
N es el número total de elementos en la población.
X representa cualquier valor en particular.
Σ indica la operación de sumar.
Parámetro: una característica de una población
EJEMPLO 1
La familia Pozo posee cuatro carros. Los datos son los Km. recorridos por cada uno:
56 000, 23 000, 42 000 y 73 000. Encuentre el promedio de Km. de los cuatro carros.
Esto es (56 000 + 23 000 + 42 000 + 73 000) /4 = 48 500
1
Semana # 2
Media de una muestra:
Para datos no agrupados, la media de una muestra es la suma de todos los valores divididos
entre el número total de los mismos:
∑𝑋
𝑋̅ =
𝑛
̅ denota la media muestral
donde 𝑋
n es el número total de valores en la muestra.
EJEMPLO 2
Una muestra de cinco ejecutivos recibió la siguiente cantidad en bonos el año pasado:
$14 000, $15 000, $17 000, $16 000 y 15 000. Encuentre el promedio en bonos para los cinco
ejecutivos.
Como estos valores representan la muestra de 5 ejecutivos, la media de la muestra es
(14 000 + 15 000 + 17 000 + 16 000 + 15 000) / 5 = $15 400.
Propiedades de la media aritmética
o Todo conjunto de datos de nivel de intervalo y de nivel de razón tiene un valor medio.
o Al evaluar la media se incluyen todos los valores.
o Un conjunto de valores sólo tiene una media.
o La cantidad de datos a evaluar rara vez afecta la media.
o La media es la única medida de ubicación donde la suma de las desviaciones de cada
valor con respecto a la media siempre es cero.
EJEMPLO 3
El conjunto de valores: 3, 8 y 4. La media es 5. Para ilustrar la quinta propiedad, (3 - 5) + (8 -
5) + (4 - 5) = - 2 + 3 - 1 = 0. En otras palabras
( X − X ) = 0
Media ponderada
2
Semana # 2
La media ponderada de un conjunto de números X1, X2, ..., Xn, con las ponderaciones
correspondientes w1, w2, ...,wn, se calcula con la fórmula:
Xw = ( w1 X 1 + w2 X 2 + ... + wn X n ) /( w1 + w2 + ...wn )
Xw = ( w * X ) / w
EJEMPLO 4
Durante un periodo de una hora en una tarde calurosa de un sábado, el cantinero Chris sirvió
cincuenta bebidas. Calcule la media ponderada de los precios de las bebidas. (Precio ($),
cantidad vendida): (.50,5), (.75,15), (.90,15), (1.10,15).
La media ponderada es:
$(.50 x 5 + .75 x 15 + .90 x 15 + 1.10 x 15) / (5 + 15 + 15 + 15) = $43.75/50 = $0.875
Mediana
Mediana: es el punto medio de los valores después de ordenarlos de menor a mayor, o de
mayor a menor. La misma cantidad de valores se encuentra por arriba de la mediana que por
debajo de ella.
Nota: para un conjunto con un número par de números, la mediana será el promedio aritmético
de los dos números medios.
EJEMPLO 5
Calcule la mediana para los siguientes datos.
La edad de una muestra de cinco estudiantes es: 21, 25, 19, 20 y 22.
Al ordenar los datos de manera ascendente quedan: 19, 20, 21, 22, 25. La mediana es 21.
La altura, en pulgadas, de cuatro jugadores de basquetbol es 76, 73, 80 y 75.
Al ordenar los datos de manera ascendente quedan: 73, 75, 76, 80. La mediana es 75.5.
Propiedades de la mediana
o La mediana es única para cada conjunto de datos.
o No se ve afectada por valores muy grandes o muy pequeños, y por lo tanto es una
medida valiosa de tendencia central cuando ocurren.
3
Semana # 2
o Puede obtenerse para datos de nivel de razón, de intervalo y ordinal.
o Puede calcularse para una distribución de frecuencias con una clase de extremo abierto,
si la mediana no se encuentra en una de estas clases.
Moda
La moda es el valor de la observación que aparece con más frecuencia.
EJEMPLO 6:
Las calificaciones de un examen de diez estudiantes son: 81, 93, 84, 75, 68, 87, 81, 75, 81, 87.
Como la calificación 81 es la que más ocurre, la calificación modal es 81.
Media geométrica
La media geométrica (MG) de un conjunto de n números positivos se define como la raíz n-
ésima del producto de los n valores. Su fórmula:
MG = n ( X 1)( X 2)( X 3)...( Xn )
La media geométrica se usa para encontrar el promedio de porcentajes, razones, índices o tasas
de crecimiento.
EJEMPLO 7:
Las tasas de interés de tres bonos son 5%, 7% y 4%.
La media geométrica es
MG = 3 (7)(5)(4)
= 5.192.
La media aritmética es (6 + 3 + 2)/3 = 5.333.
La MG da una cifra de ganancia más conservadora porque no tiene una ponderación alta para
la tasa de 7%.
Otra aplicación de la media geométrica es determinar el porcentaje promedio del incremento
en ventas, producción u otros negocios o series económicas de un periodo a otro. La fórmula
para este tipo de problema es:
MG = n ( valor al final del periodo)/(valor al inicio del periodo) − 1
EJEMPLO 8:
4
Semana # 2
El número total de mujeres inscritas en colegios americanos aumentó de 755. 000 en 1986 a
835.000 en 1995.
Aquí n = 10, así (n - 1) = 9.
Es decir, la media geométrica de la tasa de crecimiento es 1.27%.
9
𝑀𝐺 = √835000/755000 − 1 = .0127.
Media de datos agrupados
La media de una muestra de datos organizados en una distribución de frecuencias se calcula
mediante la siguiente fórmula:
Xf Xf
X = =
f n
EJEMPLO 9
Una muestra salas de diez cines en una gran área metropolitana dio el número total de películas
exhibidas la semana anterior. Calcule la media de las películas proyectadas.
Xf Xf
X = =
f n
Películas exhibidas frecuencia f punto medio de clase X (f)(X)
1-2 1 1.5 1.5
3-4 2 3.5 7.0
5-6 3 5.5 16.5
7-8 1 7.5 7.5
9-10 3 9.5 28.5
Total 10 61
61/10 = 6.1 películas
5
Semana # 2
Mediana de datos agrupados
La mediana de una muestra de datos organizados en una distribución de frecuencias se calcula
mediante la siguiente fórmula:
Mediana = L + [(n/2 - FA)/f] (i)
donde L es el límite inferior de la clase que contiene a la mediana, FA es la frecuencia
acumulada que precede a la clase de la mediana, f es la frecuencia de clase de la mediana e i es
el intervalo de clase de la mediana.
Cálculo de la clase de la mediana
Para determinar la clase de la mediana de datos agrupados:
• Elabore una distribución de frecuencias acumulada.
• Divida el número total de datos entre 2.
• Determine qué clase contiene este valor. Por ejemplo, si n=50, 50/2 = 25, después
determine qué clase contiene el 25° valor (la clase de la mediana).
EJEMPLO 10
Películas exhibidas Frecuencia Frecuencia acumulada
1-2 1 1
3-4 2 3
5-6 3 6
7-8 1 7
9-10 3 10
La clase mediana es 5-6 ya que contiene ala 5to valor (10⁄2) = 5
De la tabla, L = 5, n = 10, f = 3, i = 2, FA = 3.
Así, mediana = 5 + [((10/2) - 4)/3](2) = 6.33
6
Semana # 2
Moda de datos agrupados
La moda de los datos agrupados se aproxima por el punto medio de la clase que contiene la
frecuencia de clase mayor.
Las modas en el EJEMPLO 10 son 5.5 y 9.5. Cuando dos valores ocurren una gran cantidad
de veces, la distribución se llama bimodal, como en el ejemplo 10.
Distribución simétrica
Una distribución es simétrica cuando el sesgo cero y la moda = mediana = media
Distribución con asimetría positiva
El sesgo de la distribución es hacia la derecha: media y mediana se encuentran a la derecha de
la moda, es decir; moda < mediana < media.
Distribución con asimetría negativa
El sesgo de la distribución es hacia a la izquierda: media y mediana están a la izquierda de la
moda, por tanto, media < mediana < moda.
NOTA
Si se conocen dos promedios de una distribución de frecuencias con sesgo moderado, el tercero
se puede aproximar.
moda = media - 3(media - mediana)
media = [3(mediana) - moda]/2
mediana = [2(media) + moda]/3
1.5 Medidas de dispersión
La varianza de la población para datos no agrupados es la media aritmética de las
desviaciones cuadráticas respecto a la media de la población.
2
∑(𝑋 − 𝜇)2
𝜎 =
𝑁
EJEMPLO 1
Las edades de los miembros de la familia Donoso son 2, 18, 34, y 42 años. ¿Cuál es la variancia
de la población?
7
Semana # 2
= X / N = 96 / 4 = 24
2 = ( X − ) 2 / N = 944 / 4 = 236
Una fórmula alternativa para la variancia poblacional es:
∑ 𝑋 2 (∑ 𝑋)2
𝜎2 = −
𝑁 𝑁
Desviación estándar poblacional
La desviación estándar poblacional ( ) es la raíz cuadrada de la variancia de la población.
Para el EJEMPLO 1, la desviación estándar poblacional es 15.36 (raíz cuadrada de 236).
Variancia muestral
La variancia muestral estima la varianza de la población.
(𝑋−𝑋̅)2
Formula conceptual = 𝑆 2 =
𝑛−1
(∑ 𝑋)2
∑𝑋 2−
2 𝑛
Formula operativa = 𝑆 =
𝑛−1
EJEMPLO 2
Una muestra de cinco salarios por hora para varios trabajos en el área es: $7, $5, $11, $8, $6.
Encuentre la varianza.
𝑋̅= 37/5 = 7.40
𝑆 2 = 21.2/ (5-1) = 5.3
Desviación estándar muestral
La desviación estándar muestral es la raíz cuadrada de la variancia muestral.
En el EJEMPLO 2, la desviación estándar de la muestra es = 2.30 (raíz cuadrada de 5.3)
1.6 Medidas de dispersión: datos no agrupados
Varianza muestral para datos agrupados
8
Semana # 2
La fórmula de la variancia para datos agrupados usada como estimador de la varianza
poblacional es:
( fX ) 2
fX − 2
n
S2 =
n −1
donde f es la frecuencia de clase y X es el punto medio de la clase.
EJEMPLO 3
Interpretación y usos de la desviación estándar
Teorema de Chebyshev: para cualquier conjunto de observaciones, la proporción mínima de
valores que está dentro de k desviaciones estándar desde la media es al menos 1 - 1/k2 , donde
k2 es una constante mayor que 1.
Regla empírica: para una distribución de frecuencias simétrica de campana, cerca de 68% de
las observaciones estará dentro de ±1 de la media (µ); cerca de 95% de las observaciones
estará dentro de ±2 de la media (µ); alrededor de 99.7% estará dentro de ±3 de la media (µ).
Dispersión relativa
El coeficiente de variación es la razón de la desviación estándar a la media aritmética,
expresada como porcentaje:
s
CV = (100%)
X
Asimetría
Asimetría (sesgo) es la medida de la falta de simetría en una distribución.
El coeficiente de asimetría se calcula mediante la siguiente fórmula:
3(𝑚𝑒𝑑𝑖𝑎−𝑚𝑒𝑑𝑖𝑛𝑎)
𝑆𝑘 =
𝑑𝑒𝑠𝑣𝑖𝑐𝑖ó𝑛 𝑒𝑠𝑡á𝑛𝑑𝑎𝑟
9
Semana # 2
1.7 Medidas de Posición
Primer cuartil (Q1)
El primer cuartil es el valor correspondiente al punto debajo del cual se encuentra el 25% de
las observaciones en un conjunto ordenado de datos.
n
− CF
4
Q1 = L + (i )
f
donde L = límite de las clases que contienen Q1,
CF = frecuencia acumulada que precede a la clase que contiene a Q1, f = frecuencia de la
clase que contiene Q1, i= tamaño de la clase que contiene Q1.
Tercer cuartil (Q3)
El tercer cuartil es el valor correspondiente al punto debajo del cual se encuentra 75% de las
observaciones en un conjunto ordenado de datos:
3n
CF
Q3 = L+ 4 (i )
f
donde L = límite inferior de la clase que contiene a Q3, CF = frecuencia acumulada precedente
a la clase que contiene a Q3, f = frecuencia de la clase que contiene a Q3, i = tamaño de la clase
que contiene a Q3.
Amplitud o Rango intercuartílico
La amplitud intercuartílica es la distancia entre el tercer cuartil Q3 y el primer
cuartil Q1.
Rango intercuartílico = tercer cuartil - primer cuartil = Q3 - Q1
Desviación cuartílica
La desviación cuartílica es la mitad de la distancia entre el tercer cuartil, Q3, y el primero, Q1.
QD = [Q3 - Q1]/2
EJEMPLO 4
Si el tercer cuartil = 24 y el primer cuartil = 10, ¿cuál es la desviación cuartílica?
10
Semana # 2
La amplitud intercuartílica es 24 - 10 = 14; por lo tanto, la desviación cuartílica es 14/2 = 7.
Cada conjunto de datos tiene 99 percentiles, que dividen el conjunto en 100 partes iguales.
La amplitud cuartílica es la distancia entre dos percentiles establecidos. La amplitud
cuartílica 10 a 90 es la distancia entre el 10º y 90º percentiles.
Fórmula para percentiles
P
Lp = ( n + 1)
100
Diagramas de caja y bigotes
Un diagrama de caja es una ilustración gráfica, basada en cuartiles, que ayuda a visualizar un
conjunto de datos.
Se requieren cinco tipos de datos para construir un diagrama de caja: el valor mínimo, el primer
cuartil, la mediana, el tercer cuartil, y el valor máximo.
EJEMPLO 5
Con base en una muestra de 20 entregas, KFC determinó la siguiente información: valor
mínimo = 13 minutos,
Q1 = 15 minutos, mediana = 18 minutos,
Q3 = 22 minutos, valor máximo = 30 minutos. Desarrolle un diagrama de caja para los
tiempos de entrega.
11