Estadística y
probabilidad
Julio César Tisnado Puma
Ing. Estadístico e Informático
jtisnado@[Link]
Medidas de
dispersión o variabilidad
Este tipo de medidas indican si los valores de una variable se
encuentran próximos entre sí o dispersos.
Estas medidas de variabilidad pueden usarse para identificar
patrones o tendencias en un conjunto de datos .
Una medida de dispersión o variabilidad nos determina el
grado de acercamiento o distanciamiento de los valores de
una distribución frente a su promedio.
Medidas absolutas
Sus valores se expresan en las mismas unidades de la variable
de estudio
● Rango o amplitud total
● Rango intercuartil
● Desviación media
● Varianza
● Desviación estándar
Medidas relativas
Son medidas que no tienen dimensión y no expresadas en
ninguna unidad en específica , es asì que con esta medida
podemos comparar la variabilidad entre dos o màs series de
datos.
● Coeficiente de variación
Rango o amplitud total (R)
Tambièn conocido como recorrido , se obtiene
Inconvenientes
● No tiene en cuenta la distribución de los datos: La amplitud
total no tiene en cuenta cómo están distribuidos los datos
dentro del rango, por lo que puede ser una medida
engañosa en conjuntos de datos con distribuciones muy
asimétricas o con valores atípicos.
● No es una medida muy precisa: La amplitud total es una
medida muy simple y puede no ser muy precisa para
describir la variabilidad de un conjunto de datos.
Rango o amplitud total (R) Ejemplo
Rango intercuartil (RQ)
Es la diferencia entre el tercer cuartil Q3 y el primer cuartil Q1.
El rango intercuartil es la amplitud o rango del 50 % central
de los datos.
Rango intercuartil (RQ) Ejemplo
Los siguientes representan los
sueldos de 12 egresado de
Contabilidad expresados en soles
Rango intercuartil (RQ) Ejemplo
1. Ordenamos los datos de menor a mayor
2. Calculamos los Q1 y Q3
Q1 = 3450+0.25(3480-3450) = 3457.5
Q3= 3550+0.75(3650-3550) = 3625
Rango intercuartil (RQ) Ejemplo
3. Calculamos el Rango Intercuartil
RQ = 3625-3457.5 = 167.5
El 50% de egresados de contabilidad tienen sueldos que se
encuentran entre 3457.5 y 3625 soles , esto equivale a un rango
intercuartil de 167.5 soles
Desviación media (Dm)
Indica qué tan lejos, en promedio, están los datos del valor
central (como la media aritmética).
Por ejemplo, si un conjunto de datos tiene una desviación media
de 10, significa que en promedio, cada valor del conjunto de
datos está a 10 unidades de distancia del valor central.
Desviación media (Dm) Datos no agrupados
n = número de datos
xi = observación
X = media de las observaciones
Desviación media (Dm) Datos no agrupados
Ejemplo
Los siguientes datos representa el tiempo de atención de 11
usuarios de una oficina
X= 13
Desviación media (Dm) Datos agrupados
Para datos agrupados en una tabla de frecuencia, la Dm la
calculamos asì
Donde:
xi = valor de la marca de clase i
fi= frecuencia absoluta simple de la marca de clase i
Desviación media (Dm) Datos agrupados
Ejemplo
Se muestra a continuaciòn los datos sobre la edad en que los
trabajadores del distrito de Puno se jubilan.
Desviación media (Dm) Datos agrupados
Ejemplo
1. Calculamos la media
2. Entonces la Dm es
En promedio, la edad de jubilación de un trabajador del
distrito de Puno se desvía de la edad media de jubilación en
5.25 años.
Varianza (S2)
Es el promedio de los cuadrados de las desviaciones de los
datos respecto a su media.
La varianza indica qué tan dispersos están los datos respecto a la
media aritmética. Cuanto mayor sea la varianza, mayor será la
dispersión de los datos.
Varianza (S2) Datos no agrupados
Varianza (S2) Datos no agrupados
Ejemplo
Los siguientes datos representa el tiempo de atención de 11
usuarios de una oficina.
Varianza (S2) Datos no agrupados
Ejemplo
1. Calculamos la media
2. Calculamos la varianza
Varianza (S2) Datos no agrupados
Ejemplo
Si la varianza es muy pequeña, significa que los datos están muy cerca de la
media aritmética y que hay poca dispersión entre ellos.
Si la varianza es un valor intermedio, significa que los datos están algo
alejados de la media aritmética y que hay una cierta dispersión entre ellos.
Si la varianza es muy grande, significa que los datos están muy alejados de
la media aritmética y que hay mucha dispersión entre ellos.
En este caso, podemos decir que la varianza es un valor intermedio, ya que
el valor 14.2
Varianza (S2) Datos agrupados
Cuando los datos se encuentran resumidos en un una tabla de
frecuencias
Donde
Xi = valor de la marca de clase i
fi = frecuencia absoluta simple de la marca de clase i
Varianza (S2) Datos agrupados
ejemplo
Los siguientes datos
representan una muestra de 30
de alumnos de la E.P. de
Ingenierìa de Sistemas de la
UNA-PUNO y el nùmero de
cursos desaprobados en el
semestre 2021-II. Se resumen en
la siguiente tabla los datos
recopilados.
Calcule la varianza
Varianza (S2) Datos agrupados
ejemplo
1. Hallamos la media
2. Calculamos la varianza
3. La varianza del nùmero de cursos desaprobados es de
1.3036 unidades cuadradas
Varianza (S2) Datos agrupados
ejercicio
A continuación se muestra una tabla de frecuencia de datos
que representa el gasto en combustible quincenal del
personal de seguridad de una caja de ahorros. Como muestra
se han tomado los datos de 30 trabajadores durante el mes de
febrero del 2022. Calcule la varianza
Varianza (S2) Datos agrupados
Propiedades
● La varianza es un valor positivo
● Si los valores de la observaciones son valores iguales,
entonces la varianza es 0
Desviación estándar(S)
La desviación estándar es un índice numérico de la dispersión
de un conjunto de datos (o población). Mientras mayor es la
desviación estándar, mayor es la dispersión de la población.
La desviación estándar mide la cantidad típica en que los
valores del conjunto de datos difieren de la media aritmética
Desviación estándar(S)
Cuando se calcula la desviación estándar utilizando todos los
datos de una población, esta se denomina desviación
estándar poblacional y se denota con
Desviación estándar(S) Ejemplo
A continuación se muestra una tabla de frecuencia de datos
que representa el gasto en combustible quincenal del
personal de seguridad de una caja de ahorros. Como muestra
se han tomado los datos de 30 trabajadores durante el mes de
febrero del 2022. Calcule la varianza
Desviación estándar(S) Ejemplo
Entonces podemos intepretar que la cantidad tìpica en que
los gastos quincenales en combustible del personal de
seguridad que difieren del gasto quincenal promedio es de
168.83 soles
Desviación estándar(S) Propiedades
Propiedades
● Para cualquier conjunto de datos, la desviación estándar
es siempre una cantidad no negativa.
● Si las observaciones tienen valores iguales, entonces la
desviación estándar es 0
Coeficiente de variación (CV)
Es la medida relativa de variabilidad que se define como la
relación entre la desviación estándar y la media aritmética.
Dicho concepto se utiliza para calcular el nivel de desviación
de una serie de datos respecto del valor promedio o
media aritmética y está dado por la fórmula
Coeficiente de variación (CV)
● Se expresa en porcentaje
● Compara el grado de variabilidad entre dos o màs
distribuciones (aùn si las variables se encuentran en
diferentes unidades)
● Cuando la desviación estándar es muy pequeña, el
coeficiente de variación también es pequeño, indicando
que los valores se encuentran muy concentrados
respecto de la media.
● Cuando el valor de la desviación estándar es muy
grande, el coeficiente de variación es grande y hasta
podría superar el 100 %, lo que nos indica que los
datos son muy dispersos
Coeficiente de variación (CV) Interpretación
Coeficiente de variación (CV) Datos agrupados
ejercicio
A continuación se muestra una tabla de frecuencia de datos
que representa el gasto en combustible quincenal del
personal de seguridad de una caja de ahorros. Como muestra
se han tomado los datos de 30 trabajadores durante el mes de
febrero del 2022. Calcule el CV
Coeficiente de variación (CV) Datos agrupados
ejercicio
1. Calculamos la media aritmética
2. Calculamos la varianza y desviaciòn estándar
Coeficiente de variación (CV) Datos agrupados
ejercicio
3. Calculamos el coeficiente de variación
al encontrarse el valor entre 15% y 20% la variabilidad de los
gastos en combustible es moderada por lo tanto podríamos
indicar que los datos son regularmente heterogéneos.
Coeficiente de variación (CV) ejercicio
Se pretende comparar la homogeneidad de las ganancias
mensuales (en soles) en dos tipos de empresas del sector
turismo.
Halle CV para ambos tipos de empresas
Coeficiente de variación (CV) ejercicio
Como CVp < CVg se concluye que las pequeñas empresas
generan ganancias más homogéneas entre ellas (solo 6,62
% de variabilidad) en comparación con las grandes
empresas (con 21,11 % de variabilidad)