ASIGNATURA DE BIOESTADÍSTICA
IV Ciclo de Estudios Semestre Académico 2020-II
TEMA
Informe 04: "Medidas de dispersión"
AUTORES – GRUPO 10
López Castro Iker Stefano (2019123935)
Manayay Purihuamán José Mauricio (2019208415)
More Quiroga Andrea Carolina (72282708)
Ríos de los Santos Edwar Gustavo (72657617)
Sandoval Vásquez Diana Marita (72558473)
Soplapuco Rojas Maricruz (72740915)
Tarrillo Ruiz Jenny Marylynn (74234526)
Vásquez Reyes Martín Alejandro (71718205)
DOCENTE
Dr. Rodríguez López Wilmer
Chiclayo – Perú
Abril, 2021
INTRODUCCIÓN
Las medidas de dispersión tratan, a través del cálculo de diferentes fórmulas, de arrojar
un valor numérico que ofrezca información sobre el grado de variabilidad de una
variable.
En otras palabras, las medidas de dispersión son números que indican si una variable
se mueve mucho, poco, más o menos que otra. La razón de ser de este tipo de medidas
es conocer de manera resumida una característica de la variable estudiada. En este
sentido, deben acompañar a las medidas de tendencia central. Juntas, ofrecen
información de un sólo vistazo que luego podremos utilizar para comparar y, si fuera
preciso, tomar decisiones.
Las medidas de dispersión más conocidas son: el rango, el cual es un valor numérico
que indica la diferencia entre el valor máximo y el mínimo de una población o muestra
estadística; la varianza, esta es una medida de dispersión que representa la variablidad
de una serie de datos respecto a su media; la desviación típica, la cual es otra medida
que ofrece información de la dispersión respecto a la media; y el coeficiente de variación,
su cálculo se obtiene de dividir la desviación típica entre el valor absoluto de la media
del conjunto.
OBJETIVOS
Conocer cuáles son las medidas de dispersión.
Determinar cómo se calculan las medidas de dispersión.
Comprender para qué sirven las medidas de dispersión.
MARCO TEÓRICO
Medidas de Dispersión
El conocimiento de la forma de la distribución y del respectivo promedio de una
colección de valores de una variable, puede servir para tener una idea bastante
clara de la conformación, pero no de la homogeneidad de cada una de los valores
con respecto a la medida de tendencia central aplicada.
En el caso de las variables con valores que pueden definirse en términos de alguna
escala de medida de igual intervalo, puede usarse un tipo de indicador que permite
apreciar el grado de dispersión o variabilidad existente en el grupo de variantes en
estudio.
A estos indicadores les llamamos medidas de dispersión, que están referidos a la
variabilidad que exhiben los valores de las observaciones, ya que, si no hubiere
variabilidad o dispersión en los datos interés, entonces no habría necesidad de la
gran mayoría de las medidas de la estadística descriptiva.
Las medidas de tendencia central tienen como objetivo el sintetizar los datos en un
valor representativo, las medidas de dispersión nos dicen hasta qué punto estas
medidas de tendencia central son representativas como síntesis de la información.
Las medidas de dispersión cuantifican la separación, la dispersión, la variabilidad
de los valores de la distribución respecto al valor central. Distinguimos entre
medidas de dispersión absolutas, que no son comparables entre diferentes
muestras y las relativas que nos permitirán comparar varias muestras.
LA DISPERSIÓN:
Al igual que sucede con cualquier conjunto de datos, la media, la mediana
y la moda sólo nos revelan una parte de la información que necesitamos
acerca de las características de los datos. Para aumentar nuestro
entendimiento del patrón de los datos, debemos medir también su
dispersión, extensión o variabilidad.
La dispersión es importante porque:
Proporciona información adicional que permite juzgar la confiabilidad
de la medida de tendencia central. Si los datos se encuentran
ampliamente dispersos, la posición central es menos representativa
de los datos.
Ya que existen problemas característicos para datos ampliamente
dispersos, debemos ser capaces de distinguir que presentan esa
dispersión antes de abordar esos problemas.
Quizá se desee comparar las dispersiones de diferentes muestras. Si
no se desea tener una amplia dispersión de valores con respecto al
centro de distribución o esto presenta riesgos inaceptables,
necesitamos tener habilidad de reconocerlo y evitar escoger
distribuciones que tengan las dispersiones más grandes.
Pero si hay dispersión en la mayoría de los datos, y debemos estar en
capacidad de describirla. Ya que la dispersión ocurre frecuentemente y su
grado de variabilidad es importante, ¿cómo medimos la variabilidad de
una distribución empírica? Vamos a considerar sólo algunas medidas de
dispersión absolutas: el rango, la varianza, la desviación estándar y el
coeficiente de variación.
1. RANGO O RECORRIDO (R):
Es la medida de variabilidad más fácil de calcular. Para datos finitos o sin
agrupar, el rango se define como la diferencia entre el valor más alto (Xn
o Xmáx.) y el más bajo (X1 o Xmín) en un conjunto de datos.
Rango para datos no agrupados:
R = Xmáx – Xmín = Xn – X1
Ejemplo:
Se tienen las edades de cinco estudiantes universitarios de 1er año, a
saber: 18, 23, 27, 34 y 25, para calcular el rango de las edades, se tiene
que:
R = Xn – X1 = 34 -18 = 16 años
Con datos agrupados no se saben los valores máximos y mínimos. Si no
hay intervalos de clases abiertos podemos aproximar el rango mediante
el uso de los límites de clases. Se aproxima el rango tomando el límite
superior de la última clase menos el límite inferior de la primera clase.
Rango para datos agrupados:
R = (Lím. Sup. de la clase n – Lím. Inf. De la clase 1)
Ejemplo:
Si se toman los datos del ejemplo resuelto al construir la tabla de
distribución de frecuencia de las cuentas por cobrar de Cabrera’s y
Asociados que fueron los siguientes:
Clases P.M. fi fr fa↓ fa↑ fra↓ fra↑
Xi
7.420 – 21.835 14.628 10 0.33 10 30 0.33 1.00
21.835 – 36.250 29.043 4 0.13 14 20 0.46 0.67
36.250 – 50.665 43.458 5 0.17 19 16 0.63 0.54
50.665 – 65.080 57.873 3 0.10 22 11 0.73 0.37
65.080 – 79.495 72.288 3 0.10 25 8 0.83 0.27
79.495 – 93.910 86.703 5 0.17 30 5 1.00 0.17
Total XXX 30 1.00 XXX XXX XXX XXX
El rango de la distribución de frecuencias se calcula así:
R = (Lím. Sup. de la clase n – Lím. Inf. De la clase 1)
R = (93.910 – 7.420) = 86.49
Propiedades del Rango o Recorrido:
El recorrido es la medida de dispersión más sencilla de calcular e
interpretar puesto que simplemente es la distancia entre los valores
extremos (máximo y mínimo) en una distribución
Puesto que el recorrido se basa en los valores extremos éste tiende s
ser errático. No es extraño que en una distribución de datos
económicos o comerciales incluya a unos pocos valores en extremo
pequeños o grandes. Cuando tal cosa sucede, entonces el recorrido
solamente mide la dispersión con respecto a esos valores anormales,
ignorando a los demás valores de la variable.
La principal desventaja del recorrido es que solo está influenciado por
los valores extremos, puesto que no cuenta con los demás valores de
la variable. Por tal razón, siempre existe el peligro de que el recorrido
ofrezca una descripción distorsionada de la dispersión.
En el control de la calidad se hace un uso extenso del recorrido
cuando la distribución a utilizarse no la distorsionan y cuando el ahorro
del tiempo al hacer los cálculos es un factor de importancia.
2. VARIANZA (S2 O 2):
La varianza es una medida relativa a algún punto de referencia. Ese punto
de referencia es la media aritmética de la distribución. Más
específicamente, la varianza es una medida de que tan cerca, o que tan
lejos están los diferentes valores de su propia media aritmética. Cuando
más lejos están las Xi de su propia media aritmética, mayor es la varianza;
cuando más cerca estén las Xi a su media menos es la varianza. Y se
define y expresa matemáticamente de la siguiente manera:
Varianza para datos no agrupados:
Dado un conjunto de observaciones, tales como X1, X2, …, Xn, la varianza
denotada usualmente por la letra minúscula griega δ (sigma) elevada al
cuadrado (δ2) y en otros casos S2 según otros analistas, se define como:
el cuadrado medio de las desviaciones con respecto a su media
aritmética".
Ejemplo:
Se tienen las edades de cinco estudiantes universitarios de 1er año, a
saber: 18, 23, 25, 27, y 34. Al calcular la media aritmética (promedio de
las edades, se obtuvo 25.4 años, encontrar la varianza de las edades de
estos estudiantes:
( Xi - )2
Xi ( Xi - )
18 (18 – 25.5)=-7.4 (-7.4)2=54.76
23 (23 – 25.5)=-2.4 (-2.4)2= 5.76
25 (25 – 25.5)=-0.4 (-0.4)2= 0.16
27 (27 – 25.5)= 1.6 ( 1.64)2= 2.16
34 (34 – 25.5)= 8.6 ( 8.6)2 =73.96
Total xxxx 137.20
Respuesta: La varianza de las edades es de 27.4 años
La varianza para datos agrupados:
La tarea de computar la varianza se simplifica utilizando la fórmula de
computación que se da a continuación:
Ejemplo:
Se tienen los datos de una muestra de 30 cuentas por cobrar de la tienda
Cabrera’s y Asociados dispuestos en una tabla de distribución de
frecuencias, a partir de los cuales se deberá calcular la varianza, para lo
cual se construye la siguiente tabla estadística de trabajo, si se calculó
anteriormente la media aritmética y se fijó en 43.458 (ver ejemplo del
cálculo en "media aritmética para datos agrupados) de la siguiente
manera:
Clases Puntos fi Xi2 Xifi X2fi
medios
Xi
7.420 – 21.835 14.628 10 213.978 146.280 2,139.780
21.835 – 36.250 29.043 4 843,496 116.172 3,373.984
36.250 – 50.665 43.458 5 1,888.598 217.270 9,442.990
50.665 – 65.080 57.873 3 3,349.284 173.619 10,047.852
65.080 – 79.495 72.288 3 5,225.555 216.864 15,676.665
79.495 – 93.910 86.703 5 7,533.025 433.965 37,665.125
Total XXX 30 19,053.936 1,304.190 78,346.396
= 21, 649, 644/30 = 721.645
Respuesta: La varianza de las cuentas por cobrar es 721.645
Propiedades de la varianza:
Es siempre un valor no negativo, que puede ser igual o distinta de
0.
La varianza es la medida de dispersión cuadrática óptima por ser
la menor de todas.
Si a todos los valores de la variable se le suma una constante la
varianza no se modifica.
3. DESVIACIÓN ESTÁNDAR (S o ):
Es una medida de la cantidad típica en la que los valores del conjunto de
datos difieren de la media. Es la medida de dispersión más utilizada, se le
llama también desviación típica. La desviación estándar siempre se
calcula con respecto a la media y es un mínimo cuando se estima con
respecto a este valor.
Se calcula de forma sencilla, si se conoce la varianza, por cuanto que es
la raíz cuadrada positiva de esta. A la desviación se le representa por la
letra minúscula griega "sigma" (δ) ó por la letra S mayúscula, según otros
analistas.
Ejemplo:
Del cálculo de la varianza de las edades de cinco estudiantes
universitarios de primer año se obtuvo δ2=27.44, como la desviación
estándar es la raíz cuadrada positiva, entonces δ = √27.44 = 5.29 años.
Igual procedimiento se aplica para encontrar le desviación estándar de las
cuentas por cobrar de la Tienda Cabrera’s y Asociados, recordemos que
la varianza obtenida fue de 721.645, luego entonces la desviación
estándar es igual a δ =√721.645 = 26.86 balboas.
Propiedades de la Desviación Estándar:
La desviación estándar es siempre un valor no negativo.
Es la medida de dispersión óptima por ser la más pequeña.
La desviación estándar toma en cuenta las desviaciones de todos
los valores de la variable.
Si a todos los valores de la variable se le suma una misma
constante la desviación estándar no varía.
Si a todos los valores de la variable se multiplican por una misma
constante, la desviación estándar queda multiplicada por el valor
absoluto de dicha constante.
4. COEFICIENTE DE VARIACIÓN (C.V):
Las medidas de tendencia central tienen como objetivo el sintetizar los
datos en un valor representativo, las medidas de dispersión nos dicen
hasta qué punto estas medidas de tendencia central son representativas
como síntesis de la información. Las medidas de dispersión cuantifican la
separación, la dispersión, la variabilidad de los valores de la distribución
respecto al valor central. Distinguimos entre medidas de dispersión
absolutas, que no son comparables entre diferentes muestras y las
relativas que nos permitirán comparar varias muestras.
El problema de las medidas de dispersión absolutas es que normalmente
son un indicador que nos da problemas a la hora de comparar. Comparar
muestras de variables que entre sí no tienen cantidades en las mismas
unidades, de ahí que en ocasiones se recurra a medidas de dispersión
relativas.
Un problema que se plantea, tanto la varianza como la desviación
estándar, es el de la dependencia respecto a las unidades de medida de
la variable. Cuando se quiere comparar el grado de dispersión de dos
distribuciones que no vienen dadas en las mismas unidades o que las
medias no son iguales se utiliza el llamado "Coeficiente de Variación de
Pearson", del que se demuestra que nos da un número independiente de
las unidades de medidas empleadas, por lo que entre dos distribuciones
dadas diremos que posee menor dispersión aquella cuyo coeficiente de
variación sea menor., y que se define como la relación por cociente entre
la desviación estándar y la media aritmética; o en otras palabras es la
desviación estándar expresada como porcentaje de la media aritmética.
Donde: C.V. representa el número de veces que la desviación típica
contiene a la media aritmética y por lo tanto cuanto mayor es CV mayor
es la dispersión y menor la representatividad de la media.
Propiedades del Coeficiente de la Variación:
Si a todos los valores de la variable se le suma una misma constante
el coeficiente de variación queda alterado .
CUESTIONARIO CAMPUS
Una empresa dedicada al rubro de productos alimenticios llevó a cabo un estudio
en el que se compararon mujeres adolescentes que padecían bulimia y mujeres
sanas con las mismas características corporales y niveles de actividad física.
Enseguida se muestra una lista de las medidas del consumo diario de calorías,
en kilocalorías por kilogramo, de muestras de adolescentes de cada grupo.
1. Calcular e interpretar el rango de consumo de calorías en ambos grupos.
Rango consumo de calorías: Xmáx – Xmín
Mujeres Bulímicas: 29.2 – 15.9 = 13.3
Mujeres saludables: 40.8 – 20.7 = 20.1
Interpretación: La amplitud existente entre la serie de datos mostrados
para las mujeres bulímicas es de “13.3” a comparación del rango de “20.1 para
las mujeres saludables.
2. Calcular e interpretar la desviación estándar de consumo de calorías en
ambos grupos.
Primer Paso: Hallar la media de los datos de la muestra.
Mujeres Bulímicas:
Media/promedio = ∑ sumatoria de datos
Número Total de datos (N)
Media/promedio = 15.9+16.0+16.5+17.0+ … + 29.2
18
Media/promedio = 391 / 18 = 21.7
Mujeres Saludables:
Media/promedio= ∑ sumatoria de datos
Número Total de datos (N)
Media/promedio = 20.7+22.4+23.1+23.8+ … + 40.8
14
Media/promedio = 414.9 / 14 = 29.6
Segundo paso: Encontrar la varianza.
Mujeres Bulímicas:
Varianza = ∑ (Xi- X)2
Número Total de datos (N)- 1
Varianza = (15.9-21.7)2+(16.0-21.7)2+ … +(29.2-21.7)
18-1
Varianza = 346.34 / 17 = 20
Mujeres Saludables:
Varianza = ∑ (Xi- X)2
Número Total de datos (N)- 1
Varianza = (20.7-29.6)2+(22.4-29.6)2+ --- +(40.8-29.6)
14-1
Varianza = 585.95 / 13 = 45
Tercer paso: Calcular la desviación estándar.
Mujeres Bulímicas:
Desviación estándar (s)= √𝑣
Desviación estándar (s)=√20
Desviación estándar (s)=4.47
Mujeres Saludables:
Desviación estándar (s)= √𝑣
Desviación estándar (s)=√45
Desviación estándar (s)=6.7
Interpretación: Las mujeres bulímicas poseen una menor desviación
estándar dado que a mayor tamaño de muestra se obtendrá un resultado más
preciso y una estimación más precisa de la media de la población.
3. Calcular e interpretar el coeficiente de variación de consumo de calorías
en ambos grupos.
Coeficiente de variación = S x 100 = desviación estándar x 100
X promedio
Mujeres bulímicas:
CV= (4.47÷21.7) 100 = 20.5% calorías
Mujeres saludables:
CV= (6.7÷29.6) 100 = 22.6% calorías
Interpretación: La dispersión de calorías de las mujeres bulímicas es menor
que la dispersión de calorías es mujeres saludables.
4. Identificar el tipo de simetría en cada grupo de estudio.
Grupo 1: Mujeres adolescentes con bulimia.
Moda = 19
Mediana = 21.5
Media = 21.7
La distribución del grupo 1 es asimétrica a la derecha.
Grupo 2: Mujeres adolescentes saludables
Moda = 23.2
Mediana = 28.1
Media = 29.6
La distribución del grupo 2 es asimétrica a la derecha.
5. Realizar una discusión de los resultados obtenidos.
La moda entre las personas que padecen de bulimia es de consumir 19
kilocalorías diariamente eso está por debajo de lo mínimo que suele consumir
una persona saludable diariamente la cual es 20.7 kilocalorías, la moda entre
las personas saludables es el consumo de 23 kilocalorías diariamente, en el
estudio se ve una media de 21.7 kilocalorías consumidas diariamente en
personas que padecen bulimia y una media de 29.6 kilocalorías diarias
consumidas por personas sanas.
CONCLUSIONES
Las medidas de dispersión nos van a informar sobre cuanto se alejan
del centro los valores de la distribución se van a dividir en medidas de
dispersión absoluta y medidas de dispersión relativa que nos sirven
para cuantificar la separación de los valores de la distribución. Estas
medidas de dispersión nos informan sobre cuanto se alejan del centro
los valores de la distribución y son medidas de dispersión que nos
informan cuanto del centro los valores de la distribución y son medidas
que se toman para tener la posibilidad de establecer comparadores
de diferentes muestras para las cuales son conocidas ya medidas que
tienen como típicas en su clase.
REFERENCIAS BIBLIOGRÁFICAS
Cabrera Francisco. Medidas de Dispersión. Monografí[Link] [Internet]
[Consultado 08 de abril de 2021]. Disponible en:
[Link]
[Link]