0% encontró este documento útil (0 votos)
19 vistas35 páginas

Me 2

Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
19 vistas35 páginas

Me 2

Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

ESTADÍSTICA

APLICADA
ESTADÍSTICA DESCRIPTIVA
TOPOGRÁFICO
ESCUELA DE CONSTRUCCIÓN

Consideraciones Previas
El contenido que se expone a continuación está ligado a los siguientes
aprendizajes esperados:

• Identificar las Medidas de posición.


• Calcular medidas de posición.
• Identificar las Medidas de Dispersión.
• Calcular Medidas de Dispersión.
• Identificar las medidas de formas.
• Calcular medidas de formas.
• Aplicar estadística descriptica en la resolución de ejercicios.

Sobre las fuentes utilizadas en el material

El presente Material de Estudio constituye un ejercicio de recopilación de distintas fuentes,


cuyas referencias bibliográficas estarán debidamente señaladas al final del documento.
Este material, en ningún caso pretende asumir como propia la autoría de las ideas plantea-
das. La información que se incorpora tiene como única finalidad el apoyo para el desarrollo
de los contenidos de la unidad correspondiente, respetando los derechos de autor ligados a
las ideas e información seleccionada para los fines específicos de cada asignatura.

WWW.IPLACEX.CL 2
ESCUELA DE CONSTRUCCIÓN

Introducción
Tal como ya ha sido estudiado, la estadística descriptiva comprende la presentación,
organización y resumen de los datos de una manera científica. Mediante el estudio de
ciertos estadísticos, es posible conocer magnitudes que representan a la globalidad de los
datos disponibles de forma resumida. Incluye diversos métodos de organizar y representar
gráficamente los datos, con el objetivo de formarnos una idea de lo que nos muestran. Las
tablas, los diagramas de barras, o los gráficos sectoriales o gráficos de “torta” son algunos
de los elementos de la estadística descriptiva. Los estadísticos más comunes de la
estadística descriptiva son los estadísticos de centralización y los estadísticos de
dispersión.

Los estadísticos de centralización nos entregan una visión numérica de la variable objeto
de estudio sobre la cual tienden a concentrarse las observaciones (datos). Los estadísticos
de centralización más comunes son la madia aritmética, la mediana, la moda y los
percentiles. Una vez definidos los valores en torno a los cuales tienden a concentrarse las
observaciones, el siguiente planteamiento es describir que tan agrupados (concentrados) o
dispersos se encuentran los datos de la muestra en torno a los estadísticos de
centralización, pues una medida de tendencia central (centralización) es insuficiente para
caracterizar una distribución.

WWW.IPLACEX.CL 3
ESCUELA DE CONSTRUCCIÓN

Ideas fuerza
Una vez construidas las tablas de distribución de frecuencia, una buena forma de presentar la
información obtenida es a partir de las diferentes representaciones gráficas que se estudiarán
en la presente semana. En el mercado, y en la web, existen varios software o aplicaciones para
su elaboración.

Los estadísticos de centralización y de dispersión permiten obtener información numérica


explicita del conjunto de datos, es decir, entregan información precisa respecto del
comportamiento de la distribución, lo que posibilita, entre otras cosas, la comparación entre una
muestra y otra. A modo de ejemplo, estas técnicas nos permitirán comparar el nivel de
producción de una empresa, o su nivel de ventas, entre dos o más meses de interés.

WWW.IPLACEX.CL 4
ESCUELA DE CONSTRUCCIÓN

Desarrollo
3. Representación gráfica
En muchas ocasiones la información proporcionada en una tabla es tan singular o importante
que se decide presentar esos resultados de forma gráfica. Cuando se decide utilizar una
representación gráfica, en general, esta sustituye a la tabla de distribución de frecuencias. Dado
que es deseable presentar sólo uno de estos dos elementos (gráfico, o tabla de distribución de
frecuencias), se acostumbra presentar la información numérica relevante en el propio gráfico.
Incluso, un número innecesariamente grande de gráficos le puede restar lucidez al trabajo en
lugar de proporcionarle calidad o rigor científico. Se debe lograr un balance entre estas dos
formas de presentación de resultados.

El objetivo básico de un gráfico es transmitir la información de forma tal que pueda ser captada
rápidamente, de un “golpe de vista”. Luego, un gráfico debe ser ante todo sencillo y claro, a
pesar de su aspecto artístico, ya que se elabora para ser incluido en un trabajo científico.

Existen múltiples tipos de gráficos, pero aquí trataremos principalmente los más ampliamente
utilizados, estos son: grafico de barras, sectoriales o gráficos de “torta”, histogramas,
pictogramas, ojiva, gráfico de tallo y hojas y diagrama de dispersión.

3.1. Gráfico de barras

El diagrama principal para representar datos de variables discretas sin agrupar es el grafico
de barras. En éste se representan en el eje de las abscisas los distintos valores de la variable
y sobre cada uno de ellos se levanta una barra de longitud proporcional a la frecuencia
correspondiente. Pueden representarse tanto frecuencias absolutas 𝑓! , como las relativas ℎ! .
En la práctica se pueden graduar simultáneamente el eje de las ordenadas tanto en frecuencias
absolutas como en relativas en tantos por ciento.

Un diagrama similar es el polígono de frecuencias. Este se obtiene uniendo con rectas los
extremos superiores de las barras del gráfico anterior. De la misma forma, pueden
representarse frecuencias absolutas o relativas.

WWW.IPLACEX.CL 5
ESCUELA DE CONSTRUCCIÓN

Ejemplo 4:

La siguiente tabla muestra el número de hijos por familia en una localidad rural. Para lo anterior
se ha tomado como muestra el registro de 20 familias de dicha localidad.

2 1 1 3 1 2 5 1 2 3
4 2 3 2 1 4 2 3 2 1

Construcción de la tabla de distribución de frecuencias:

𝐹! 𝐻!
𝑥! 𝑓! ℎ! ℎ! ∙ 100 ! !
𝑓! ⁄20 (%) * 𝑓" * ℎ"
# #
1 6 0,30 30 6 0,30
2 7 0,35 35 13 0,65
3 4 0,20 20 17 0,85
4 2 0,10 10 19 0,95
5 1 0,05 5 20 1,00

Construcción del gráfico de barras:

Del gráfico se puede observar, por ejemplo: i) que el 35% de las familias de la localidad rural
tienen 2 hijos, ii) el 10%de las familias tiene 4 hijos, entre otras.

WWW.IPLACEX.CL 6
ESCUELA DE CONSTRUCCIÓN

3.2. Gráficos sectoriales (gráfico de “torta”)

Otra de las representaciones gráficas muy utilizada es el gráfico sectorial o diagrama de


sectores. En él se representa el valor de cada carácter como un sector o una proporción de un
círculo completo, siendo el área de cada sector, o, lo que es lo mismo, el arco subtendido,
proporcional a la frecuencia del carácter en cuestión. Se acostumbra escribir dentro, o a un
lado, de cada sector la frecuencia correspondiente. Este tipo de gráfico proporciona una idea
visual muy clara de cuáles son los caracteres que más se repiten.

Ejemplo 5:

El sub-gerente de calidad de una empresa de servicios se encuentra evaluado la calidad del


servicio percibida por los clientes durante el último mes. Para lo anterior cuenta con el registro
de las evaluaciones percibidas de 237 clientes. Los resultados se muestran en la siguiente tabla
de distribución de frecuencias:

Categoría 𝑓! ℎ! ℎ! ∙ 100 (%) 𝐹! 𝐻!


Excelente 110 0,46 46 110 0,46
Buena 90 0,38 38 200 0,84
Regular 23 0,10 10 223 0,94
Mala 12 0,05 5 235 0,99
Muy mala 2 0,01 1 237 1,00

El siguiente diagrama corresponde a un gráfico sectorial:

WWW.IPLACEX.CL 7
ESCUELA DE CONSTRUCCIÓN

3.3. Histogramas

El histograma es un tipo de gráfico muy similar al gráfico de barras, la diferencia radica en que
el histograma es una representación gráfica que se utiliza para variables agrupadas por
intervalos. Es decir, con los histogramas podemos representar variables continuas o discretas,
pero con muchos valores observados y cuyo nivel de medición sea al menos de intervalos. Este
tipo de gráficos no se pueden elaborar con atributos, sino con variables medibles tales como
peso, temperatura, tiempo, etc.

En definitiva, un histograma es una representación gráfica de una variable en forma de barras,


donde la superficie de cada barra es proporcional a la frecuencia de los valores representados.
En el eje de las ordenadas se representan las frecuencias, y en el eje de las abscisas, los
valores de las variables, normalmente a través de las marcas de clase, o bien los intervalos
directamente.

Ejemplo 6:

La siguiente tabla de frecuencias agrupa 21 mediciones las que corresponden al resultado de


laboratorio que determina la densidad del asfalto en una obra vial.

Intervalo Marca Frecuencia Frecuencia Frecuencia Frecuencia


Densidad del de absoluta relativa absoluta relativa
asfalto Clase porcentual acumulada acumulada
𝑔
𝑐𝑚$ 𝑚! 𝑓! ℎ! ∙ 100 𝐹! 𝐻!

19,5 – 23,5 21,5 2 9,5 2 0,10

23,5 – 27,5 25,5 7 33,3 9 0,43

27,5 – 31,5 29,5 9 42,9 18 0,86

31,5 – 35,5 33,5 2 9,5 20 0,95

35,5 – 39,5 37,5 1 4,8 21 1,00

WWW.IPLACEX.CL 8
ESCUELA DE CONSTRUCCIÓN

Construcción del histograma (nótese que cada barra va unida a la siguiente):

Del histograma se puede destacar, por ejemplo: i) que el 43% de los resultados de laboratorio
%
arrojaron un valor medio de 29,5 '(! ; o bien, ii) el 5% de los resultados de laboratorio dieron
%
como resultado un 37,5 '(!
en promedio, entre otros.

Nótese que el histograma realizado para el Ejemplo 6 las barras se han dibujado verticalmente,
sin embargo, si bien es menos frecuente, también es posible construirlo dibujando las barras
de forma horizontal, siempre una barra unida a las otras.

3.4. Pictograma

Los pictogramas son gráficos similares a los gráficos de barra, pero con la diferencia que en
estos diagramas se emplea un dibujo en una determinada escala para expresar la unidad de
medida de los datos. En el eje de la ordenada se representa la frecuencia absoluta acumulada
o relativa acumulada.

Es común ver gráficos de barras, donde las barras se reemplazan por dibujos a diferentes
escalas, con el único fin de hacer más ilustrativo el gráfico, estos tipos de gráficos no
constituyen un pictograma.

WWW.IPLACEX.CL 9
ESCUELA DE CONSTRUCCIÓN

Ejemplo 7:

Retomemos la tabla de distribución de frecuencia del Ejemplo 6. El pictograma queda


representado como sigue:

3.5. La Ojiva

Una ojiva es una gráfica lineal que representa frecuencias acumuladas. En el eje de la abscisa
se representan los límites de los intervalos, o bien, la marca de clase. La gráfica en sí misma
comienza en el límite inferior del primer intervalo, o primera marca de clase y finaliza en el límite
superior del último intervalo o en la última marca de clase. Las ojivas son útiles para determinar
el número de valores que se encuentran por debajo de un valor particular.

Ejemplo 8:

Consideremos nuevamente el caso expuesto en el Ejemplo 6, el cual corresponde a 21 datos


%
obtenidos desde el laboratorio respecto de la densidad, en '(! , del asfalto medido como control
de calidad en distintos puntos de la obra vial. Si consideramos en el eje de la abscisa los límites
de cada intervalo, la Ojiva queda representada como sigue:

WWW.IPLACEX.CL 10
ESCUELA DE CONSTRUCCIÓN

De la Ojiva es posible señalar, por ejemplo: i) el 95% de los resultados de laboratorio indican que
%
la densidad del asfalto tiene un valor de 35 '(! o inferior (recuerde que el límite superior del
intervalo esta aumentado en la mitad de un decimal adicional); ii) el 14% de los resultados de
laboratorio (100% − 86% = 14%) dan cuenta que la densidad del asfalto es igual o superior a
%
32 '(! (el límite inferior está disminuido en la mitad de un decimal adicional respecto del número
de decimales de los datos originales).

3.6. Gráfico de Tallo y Hoja

Otra forma sencilla de exhibir la distribución de un conjunto de datos cuantitativos es la gráfica


de tallo y hojas. Esta gráfica presenta una exhibición gráfica de los datos diferente a lo ya
estudiado.

Para construir una gráfica de tallo y hojas, ubique los tallos en una columna y trace a continuación
una línea vertical a su derecha. Posteriormente, considerando el tallo correspondiente, ubique
las siguientes unidades numéricas de los datos, finalmente ordene de menor a mayor para
facilitar la comprensión de la gráfica. Es importante que la descomposición de los datos sea
clara, en tallos y hojas, de manera que cualquier lector pueda recrear las mediciones de ser
necesario.

WWW.IPLACEX.CL 11
ESCUELA DE CONSTRUCCIÓN

Ejemplo 9:

Los siguientes datos muestran una lista de precios, en dólares, de 20 marcas de zapatillas
deportivas. Construya una gráfica de tallo y hoja para mostrar la distribución de los datos.

90 70 70 70 75 70 65 68 60 74
70 95 75 70 68 65 40 65 70 72

Para crear el gráfico de tallo y hojas, se pude dividir, para este caso, cada observación (dato)
entre las unidades y las decenas. El número a la izquierda es el tallo; el de la derecha es la
hoja. Dicho lo anterior, para las zapatillas que cuestan US$65, el tallo es 6 y la hoja es 5. De
esta forma continuamos clasificando el resto de los datos como sigue:

4 0
5
6 < 5 8 0 8 5 5
7 < 0 0 0 5 0 4 0 5 0 0
8
9 0 5

Reordenando la clasificación anterior, e obtiene el siguiente gráfico de tallo y hoja:

4 0
5
6 < 0 5 5 5 8 8
7 < 0 0 0 0 0 0 0 4 5 5
8
9 0 5

3.7. Diagramas de dispersión

Los diagramas de dispersión o gráficos de correlación permiten estudiar la posible asociación


entre dos variables discretas o continuas. En este tipo de gráficos las observaciones o datos
se representan en coordenadas cartesianas, obteniéndose una “nube de puntos” en el plano.
Ejemplo 10:

Los siguientes datos muestran la estatura, en metros, de 10 pares de familia (padre e hijo
mayor).

WWW.IPLACEX.CL 12
ESCUELA DE CONSTRUCCIÓN

Estatura
1,56 1,75 1,80 1,75 1,65 1,70 1,60 1,55 1,70 1,50
padre, [m]
Estatura hijo
1,16 1,80 1,70 1,70 1,65 1,75 1,40 1,55 1,65 1,50
mayor, [m]

El siguiente gráfico (diagrama de dispersión) muestra el grado de asociación que pudiese existir
entre la estatura del padre y la de su hijo mayor.

A partir de la observación del gráfico, sin cálculos de los estadísticos correspondientes, se


puede señalar que existe una buena relación entre la estatura del hijo mayor y la estatura de
su padre. Lo anteriormente se explica debido a que las rectas A y B forman un ángulo pequeño
entre sí.

Se puede señalar también que existen dos registros (estatura padre y su hijo mayor) que no
obedecen a la relación del resto de los datos. Lo anterior se puede observar en que los puntos
𝑃# y 𝑃) se encuentran fuera de la región comprendida entre las rectas “A” y “B”. Finalmente se
puede concluir que existe una buena relación entre la estatura del padre y la estatura de su hijo
mayor.

WWW.IPLACEX.CL 13
ESCUELA DE CONSTRUCCIÓN

4. Medidas de resumen
Las gráficas pueden ayudar a describir la forma básica de una distribución de datos. Es común
el dicho popular: “una imagen vale más que mil palabras”, pero hay limitaciones para usar
gráficas, una de ellas es que las gráficas son un tanto imprecisas para usar en inferencia
estadística. Por ejemplo, supongamos que desea usar un histograma muestral para hacer
inferencias acerca de las diferencias en el nivel socio-económico entre una comuna y otra. Si
resultaran ser idénticas, sería posible señalar que la distribución del nivel socio-económico
entre una y otra comuna son las mismas, pero, si son diferentes, es imposible describir el grado
de diferencia.

Una forma de superar estos inconvenientes es usar medidas de resumen, también llamadas
medidas numéricas, que se pueden calcular para una muestra o una población de mediciones,
observaciones o datos. Las medidas numéricas que se obtengan, permitirán comprender
claramente la distribución de frecuencia. Estos resultados se llaman parámetros cuando se
asocian con la población y se denominan estadísticos cuando se calculan a partir de
mediciones muestrales.

4.1. Medidas de posición

Este tipo de medidas de resumen tiene por finalidad concentrar en un solo valor numérico
toda la información referente a una determinada posición dentro de la distribución que está
siendo analizada. Las medidas de posición pueden ser de tendencia central y no de
tendencia central (o percentil).

WWW.IPLACEX.CL 14
ESCUELA DE CONSTRUCCIÓN

4.1.1. Medidas de tendencia central

Ya hemos estudiado diferentes tipos de gráficas para describir una determinada distribución de
un conjunto de mediciones. El eje horizontal (eje de las abscisas) presenta los distintos valores
de 𝑥, y los datos serán distribuidos a lo largo de esta recta horizontal. Una de las primeras
mediciones numéricas importantes es una medida de centro o medida de tendencia central,
es decir, una medida a lo largo del eje horizontal que localiza el centro de la distribución.

A modo de ejemplo, el siguiente histograma muestra la distribución del ingreso correspondiente


a 45 personas trabajadoras de una determinada empresa.

Figura 4: Histograma distribución de ingresos.

En la Figura 4 se observa, a lo largo del eje de las abscisas, que el sueldo central se ubica
entre las marcas de clase $540000 y $620000.

Las medidas de tendencia central buscan el centro de la distribución, es decir, la posición


central de los datos. Existen diferentes medidas de tendencia central, pero con diferentes
sistemas de aplicación, entre los más utilizados se encuentran la media aritmética o
promedio, la mediana y la moda. Veamos en detalle cada una de ellas, primero para datos
no agrupados y luego para datos agrupados en tablas de distribución de frecuencias.

WWW.IPLACEX.CL 15
ESCUELA DE CONSTRUCCIÓN

§ Media aritmética o promedio para datos no agrupados, 𝑥̅ : corresponde a la suma del


conjunto de las 𝑛 mediciones o datos, dividida entre el total de datos:

∑"!#$ 𝑥!
𝑥̅ =
𝑛

§ Mediana para datos no agrupados, 𝑚* : La mediana 𝑚* de un conjunto de datos


corresponde al valor de 𝑥 que cae en la posición central cuando las mediciones o datos se
encuentran ordenadas de menor a mayor. Cuando el número total de datos es impar, se
obtiene claramente un único dato central. Para el caso en que el número total de datos sea
par, se tienen dos opciones a saber. La primera es encontrar ambos datos o mediciones
centrales (dos valores) y obtener el promedio entre ellos; y la segunda es simplemente
entregar ambos valores como las medianas de la distribución. Es decir, una distribución
podrá tener una o dos medianas según lo determine el analista. En este curso, y con el ánimo
sólo de uniformar la enseñanza, para el caso en que el número total de datos sea un número
par, la mediana corresponderá al promedio de ambos datos centrales.

§ Moda para datos no agrupados, 𝑚+ : La moda es la categoría que se presenta con más
frecuencia o el valor de 𝑥 que se presenta con mayor frecuencia. La moda en general se usa
para describir conjuntos grandes de datos, mientras que la media y la mediana se usan para
conjuntos de datos grandes y pequeños. Debemos considerar que la moda es el propio dato
con mayor frecuencia, y no la frecuencia del dato. Otra consideración que se debemos tener
presente, es que una distribución puede tener más de una moda, en estos casos hablaremos
de una distribución bimodal o multimodal según corresponda.

Ejemplo 11:

Los siguientes datos corresponden al puntaje obtenido por 12 familias en un cuestionario -


test que mide la vulnerabilidad social de las familias. A partir de los datos (puntajes),
determine la media aritmética, la mediana y la moda.

86 78 79 85 82 85
91 77 81 87 80 84

Cálculo de la media aritmética:


∑,!-# 𝑥!
𝑥̅ =
𝑛

WWW.IPLACEX.CL 16
ESCUELA DE CONSTRUCCIÓN

Esto es (ordenando los datos de menos a mayor):

77 + 78 + 79 + 80 + 81 + 82 + 84 + 85 + 85 + 86 + 87 + 91
𝑥̅ =
12

𝑥̅ = 82,9

Cálculo de la mediana:
77 78 79 80 81 82 84 85 85 86 87 91

Considerando ambos datos centrales de la muestra, la mediana se obtiene:

82 + 84
𝑚* = = 83
2

Cálculo de la moda:
De acuerdo a la distribución (ordenada de menor a mayor) es posible observar que el único
dato que se repite (dos veces en este caso) es el dato de valor 85. Por lo anterior, la moda
de esta distribución es:

𝑚+ = 85

§ Media aritmética ponderada, 𝑥̅. : La media aritmética de los valores 𝑥# , 𝑥) , …, 𝑥, ponderada


por los pesos relativos 𝑝# , 𝑝) , …, 𝑝, es el número:

∑𝒏𝒊-𝟏 𝑥! ∙ 𝑝𝒊
D
𝒙𝑷 =
∑𝒏!-# 𝑝𝒊

Ejemplo 12:

Si un estudiante en el semestre anterior ha obtenido un promedio de 6,3 en una asignatura de


5 créditos, un 4,5 en una asignatura de 4 créditos y un 5,8 en una asignatura de 2 créditos,
determine la media ponderada (promedio ponderado) del estudiante considerando los
créditos de cada asignatura.

6,3 ∙ 5 + 4,5 ∙ 4 + 5,8 ∙ 2 61,1


𝑥̅. = = = 5,55 ≈ 5,6
5+4+2 11

WWW.IPLACEX.CL 17
ESCUELA DE CONSTRUCCIÓN

§ Media aritmética para datos agrupados de variable discreta: Si 𝑛 valores de una variable
estadística discreta 𝑋 se clasifican en 𝑘 valores distintos 𝑥# , 𝑥) , …, 𝑥3 con frecuencias
absolutas respectivas 𝑓# , 𝑓) , …, 𝑓3 , entonces su media aritmética es el número:

∑3𝒊-𝟏 𝑥! ∙ 𝑓!
𝑥̅ =
𝑛

§ Media aritmética para datos agrupados por intervalos: Si 𝑛 valores de alguna variable 𝑋
están tabulados en una distribución de frecuencias de 𝑘 intervalos, donde, 𝑚# , 𝑚) , …, 𝑚3
corresponden a las marcas de clase de cada intervalo, y 𝑓# , 𝑓) , …, 𝑓3 son las frecuencias
absolutas respectivas, entonces su media aritmética corresponde al número:

∑3𝒊-𝟏 𝑚! ∙ 𝑓!
𝑥̅ =
𝑛

§ Mediana de datos tabulados: Si los datos han sido tabulados en una distribución de
frecuencias por intervalos, la mediana se determina aproximadamente por interpolación a
partir de la distribución de frecuencias acumuladas. Primero se determina el intervalo que
contiene a la mediana utilizando el cociente 𝑛⁄2, luego la mediana viene dada por la
siguiente expresión:
𝑛
− 𝐹!4#
𝑚* = 𝐿! + 2 ∙𝐴
𝑓!

Donde:
𝐿! : es el límite inferior del intervalo que contiene a la mediana.
𝑛: es el número de datos totales observados.
𝐹!4# : es la frecuencia acumulada absoluta del intervalo inmediatamente anterior al
intervalo que contiene a la mediana.
𝐴 : es la amplitud del intervalo.

WWW.IPLACEX.CL 18
ESCUELA DE CONSTRUCCIÓN

Ejemplo 13:

La siguiente tabla muestra una distribución del ingreso correspondiente a 45 trabajadores de


una determinada empresa. Determine la media aritmética y la mediana.

Intervalo Marca de Frecuencia Frecuencia Frecuencia Frecuencia


Densidad del Clase absoluta relativa absoluta relativa
asfalto porcentual acumulada acumulada
× 1000 $ 𝑚! 𝑓! ℎ! ∙ 100% 𝐹! 𝐻!
26,5 – 34,5 30,5 1 2,2 1 0,02
34,5 – 42,5 38,5 2 4,4 3 0,07
42,5 – 50,5 46,5 4 8,9 7 0,16
50,5 – 58,5 54,5 10 22,2 17 0,38
58,5 – 66,5 62,5 16 35,6 33 0,73
66,5 – 74,5 70,5 8 17,8 41 0,91
74,5 – 82,5 78,5 3 6,7 44 0,98
82,5 – 90,5 86,5 1 2,2 45 1,00

Cálculo de la media aritmética:

La media aritmética para datos agrupados por intervalos se calcula mediante la siguiente
expresión:

∑3𝒊-𝟏 𝑚! ∙ 𝑓!
𝑥̅ =
𝑛

30,5 ∙ 1 + 38,5 ∙ 2 + 46,5 ∙ 4 + ⋯ + 86,5 ∙ 1 2724,5


𝑥̅ = =
45 45

𝑥̅ = 60,5

Cálculo de la mediana:

Recodemos que la mediana corresponde al dato central de la distribución, por lo tanto,


sabiendo que se han clasificado 45 datos, se tiene:

45
= 22,5
2

WWW.IPLACEX.CL 19
ESCUELA DE CONSTRUCCIÓN

Nótese que el dato central 22,5 pertenece al intervalo (58,5 − 66,5), véase la columna de las
frecuencias absolutas acumuladas. Dado lo anterior se tiene que: 𝐿! = 58,5; 𝐹!4# =
17; 𝑓! = 16 y 𝐴 = 8. Luego la mediana para la distribución es la siguiente:

𝑛
− 𝐹!4#
𝑚* = 𝐿! + 2 ∙𝐴
𝑓!

45
− 17
𝑚* = 58,5 + 2 ∙8 → 𝑚* = 61,25
16

§ Moda de datos agrupados por intervalos: Para calcular la moda de 𝑛 datos tabulados por
intervalos, primero se determina el intervalo que contiene a la moda, esto es, el intervalo
que tiene la mayor frecuencia denominado, intervalo modal.

Luego se utiliza la ecuación:

𝑑#
𝑚+ = 𝐿! + QR T 𝐴U
𝑑# + 𝑑)

Donde:
𝐿! : es el límite inferior del intervalo modal.
𝑑# : 𝑑# = 𝑓! − 𝑓!4# , esto es, 𝑑# es igual a la frecuencia absoluta del intervalo modal menos
la frecuencia absoluta del intervalo inmediatamente anterior.
𝑑) : 𝑑) = 𝑓! − 𝑓!5# , esto es, 𝑑) es igual a la frecuencia absoluta del intervalo modal menos
la frecuencia absoluta del intervalo inmediatamente posterior.
𝐴 : es la amplitud del intervalo modal.
Es importante mencionar que el cálculo de la moda para datos agrupados en tablas de
frecuencias es aplicable sólo cuando se registra una única frecuencia máxima.

Ejemplo 14:

Utilizando la tabla de distribución de frecuencias del Ejemplo 13, determine la moda de la


distribución.

La tabla de distribución de frecuencia presenta una mayor frecuencia absoluta para el


intervalo (58,5 − 66,5). Para este intervalo en cuestión se tiene: 𝐿! = 58,5; 𝐹!4# = 17; 𝑓! =
16; 𝑓!4# = 10; 𝑓!5# = 8 y 𝐴 = 8. Aplicando la ecuación correspondiente, se tiene:

WWW.IPLACEX.CL 20
ESCUELA DE CONSTRUCCIÓN

6
𝑚+ = 58,5 + QR T 8U
6+8

𝑚+ = 61,93

§ Relación entre media, mediana y moda

Es recomendable comparar los valores obtenidos para la media, moda y mediana, para
conocer de mejor manera la distribución de los datos que estamos analizando. Diferencias
importantes entre media y la moda, o bien entre la media y la mediana indican que la
distribución de los datos es asimétrica (concepto que revisaremos más adelante), y si son
iguales o relativamente muy cercano, la distribución de los datos será simétrica. Observe
los siguientes gráficos:

(a)

(b) (c)

Figura 5: Distribución de datos simétricas y asimétricas.


(a) Distribución simétrica, (b) Distribución asimétrica negativa y
(c) Distribución asimétrica positiva

WWW.IPLACEX.CL 21
ESCUELA DE CONSTRUCCIÓN

4.1.2. Percentiles, medida de posición no central

El Percentil, o centil, es una medida de posición muy útil para dividir un conjunto grande de
datos. Los percentiles son valores que dividen la muestra o población en cien partes iguales.
Dado lo anterior, un percentil 𝑃6% , corresponderá a un valor que deja por debajo al 𝑞% de los
valores y por tanto al (100 − 𝑃% ) por sobre. Así, por ejemplo, al calcular el percentil 75%, 𝑃89% ,
se obtendrá un valor tal que el 75% de los datos se encuentra por debajo del valor determinado,
y por tanto, el 25% restante estará por sobre el valor del percentil obtenido.

Para calcular un percentil cualquiera 𝑃6% , inicialmente se debe identificar a qué intervalo
corresponde el percentil en cuestión, para esto se utiliza la siguiente expresión:

𝑞%
𝑥= 𝑛
100%

Véase la columna de las frecuencias absolutas acumuladas para determinar a qué intervalo
corresponde el percentil. Luego el percentil en cuestión viene dado por la siguiente expresión:

𝑥 − 𝐹!4#
𝑃6% = 𝐿! + ∙𝐴
𝑓!

Donde:
𝐿! : es el límite inferior del intervalo que contiene al percentil.
𝑛: es el número de datos totales observados.
𝐹!4# : es la frecuencia acumulada absoluta del intervalo inmediatamente anterior al
intervalo correspondiente al percentil.
𝐴 : es la amplitud del intervalo que contiene al percentil.

Nótese que la mediana divide la muestra (ordenada) en dos mitades iguales, un percentil la divide
en cien partes iguales. Definimos ahora los cuartiles como los tres valores que dividen la
muestra en cuatro partes iguales. Así el primer cuartil 𝑄#⁄: será la medida tal que el 25% de los
datos sean inferiores a su valor y el 75% restante de los datos sean superiores. El segundo
cuartil 𝑄#⁄) coincide con la mediana y con el percentil 50%, 𝑃9<% , mientras que el tercer cuartil
𝑄$⁄: marcará el valor tal que las tres cuartas partes de las observaciones o datos sean inferiores
a él y una cuarta parte (25%) sea superior.

De la misma forma podemos definir los deciles como aquellos valores de la variable que dividen
la muestra ordenada en 10 partes iguales.

WWW.IPLACEX.CL 22
ESCUELA DE CONSTRUCCIÓN

4.2. Medidas de dispersión

Las medidas de tendencia central no son suficientes para describir un conjunto de valores de
alguna variable estadística. Los promedios determinan el centro, pero nada indican acerca de
cómo están situados los datos respecto al centro.

Las medidas de dispersión o variabilidad son números que miden el grado de separación de
los datos con respecto a un valor central, que generalmente es la media aritmética. Las
principales medidas de dispersión son: el rango, la varianza, la desviación estándar y el
coeficiente de variación.

4.2.1. El Rango o recorrido de una variable

El Rango de variación o recorrido, 𝑅, de una serie de datos corresponde a la diferencia entre


sus valores máximo y mínimo. Esto es:

𝑅 = 𝑥(=> − 𝑥(!,

Siendo 𝑥(=> el valor máximo y 𝑥(!, el valor mínimo.


El rango es una medida de dispersión muy fácilmente calculable, pero es muy inestable, ya que
depende únicamente de los dos valores extremos. Su valor puede cambiar grandemente si se
añade o elimina un solo dato. Por lo tanto se debe tener claro que su uso es muy limitado.

4.2.2. Varianza

La varianza es una medida que cuantifica el grado de dispersión o de variación de los valores
de una variable cuantitativa con respecto a su media aritmética. Si los valores tienden a
concentrarse alrededor de su media, la varianza será pequeña. Si los valores tienden a
distribuirse lejos de la media, la varianza será grande.

La siguiente figura muestra, a través de una línea horizontal, la media aritmética. Nótese que
para ambas distribuciones la media aritmética es la misma. La Figura 6 (a) muestra una mayor
dispersión de los datos respecto de la media comparativamente con la Figura 6 (b). De acuerdo
a la definición de varianza, la distribución mostrada en la Figura 6 (a) tendrá una mayor varianza
que la Figura 6 (b).

WWW.IPLACEX.CL 23
ESCUELA DE CONSTRUCCIÓN

(a) (b)
Figura 6: Distribución de datos.
(a) Mayor varianza de los datos, (b) Menor varianza de los datos.

La varianza calculada a partir de una muestra será denotada por 𝑆 ) y referida a una población se
denotará por 𝜎 ) (sigma al cuadrado).

La varianza se define como la media aritmética de los cuadrados de las diferencias de los
datos con respecto a su media aritmética.

§ Varianza de datos no tabulados

La varianza de 𝑛 valores 𝑥# , 𝑥) , … , 𝑥, , de alguna variable cuantitativa 𝑋 cuya media 𝑥, se


calcula mediante la siguiente expresión:

∑"!#$(𝑥! − 𝑥)%
𝑆% =
𝑛

Nótese que la unidad resultante de la varianza corresponde a la propia unidad de los datos
originales pero elevada al cuadrado, así por ejemplo, si los datos pertenecieran al peso de
100 recién nacidos vivos, cuya unidad de medida es el “kilogramo” 𝑘𝑔, la unidad de la
varianza en este caso sería 𝒌𝒈𝟐 , lo cual se debe tener especial atención al momento de
interpretar este indicador estadístico.

WWW.IPLACEX.CL 24
ESCUELA DE CONSTRUCCIÓN

§ Varianza de datos tabulados, distribución discreta

La varianza de 𝑛 valores de una variable estadística discreta 𝑋 que se clasifican en 𝑘 valores


distintos 𝑥# , 𝑥) , … , 𝑥3 , con frecuencias absolutas respectivas 𝑓# , 𝑓) , … , 𝑓3 , y cuya media
aritmética es 𝑥 se calcula utilizando la siguiente ecuación:

)
∑3!-# 𝑓! (𝑥! − 𝑥))
𝑆 =
𝑛

§ Varianza de datos tabulados por intervalos

La varianza de 𝑛 valores de alguna variable 𝑋, tabulados en 𝑘 intervalos, con marcas de clase


𝑚# , 𝑚) , … , 𝑚3 , frecuencias absolutas respectivas 𝑓# , 𝑓) , … , 𝑓3 , y con media aritmética 𝑥 se
calcula utilizando la siguiente ecuación:

∑3!-# 𝑓! (𝑚! − 𝑥))


𝑆) =
𝑛

Nota: Algunos autores definen la varianza en estadística descriptiva con denominador 𝑛 − 1 (en
reemplazo de 𝑛). Lo anterior, para efectos de este apunte, será considerado cuando 𝑛 ≤ 10.

4.2.3. Desviación Estándar

La desviación estándar corresponde a la raíz cuadrada positiva de la varianza para cada caso
particular antes visto. Esto es:

𝑆 = _𝑆 )

O bien: 𝜎 = √𝜎 ) cuando se trata de una población.

Nótese que la desviación estándar viene a solucionar la dificultad de interpretación que


presenta la varianza, esto es, que la unidad resultante de la varianza es la unidad de los
datos originales al cuadrado. Por ejemplo, si los datos correspondieran al sueldo mensual de
50 trabajadores de una empresa en Unidades de Fomento 𝑈𝐹, la varianza resultará en 𝑈𝐹 ) .
De esta forma, la desviación estándar, al calcularse como la raíz cuadrada de la varianza,
elimina la potencia de la unidad resultante. Para nuestro ejemplo, la situación sería como sigue:

𝑆 = _𝑈𝐹 ) = 𝑈𝐹

WWW.IPLACEX.CL 25
ESCUELA DE CONSTRUCCIÓN

4.2.4. Coeficiente de Variación

El coeficiente de variación 𝐶𝑉 es una medida de dispersión relativa (libre de unidades de


medida), que se define como la desviación estándar dividido por la media aritmética. Esto es:

𝑆
𝐶𝑉 =
𝑥

El coeficiente de variación se utiliza para comparar la variabilidad de dos o más series de datos
que tengan medias iguales o diferentes, o que tengan unidades de medidas iguales o diferentes
(por decir, una serie de datos en kilógramos y otra serie en metros). Este indicador estadístico
puede expresarse como 𝐶𝑉 = 𝑆⁄𝑥 , o bien en porcentaje como sigue:

𝑆
𝐶𝑉% = ∙ 100
𝑥

Ejemplo 15:

Los siguientes datos corresponden al registro del peso, en kilogramos 𝑘𝑔, de 18 niños (y niñas)
recién nacidos en un día. Determine: la media aritmética, la varianza, la desviación estándar y
el coeficiente de variabilidad.

2,83 3,55 3,78 3,02 3,67 3,85 3,54 3,97 4,12


5,05 4,12 3,34 4,67 3,54 3,10 4,15 4,25 3,07

Realizando un tratamiento de los pesos de las niñas y niños recién nacidos como datos no
agrupados, se construye la tabla que a continuación se presenta. La segunda columna, 𝑥! ,
corresponde a los diferentes pesos (datos) registrados, la tercera columna, 𝑥! − 𝑥̅ , procede al
cálculo de las diferencias de cada dato respecto de la media aritmética, y finalmente la cuarta
columna, (𝑥! − 𝑥̅ )) , corresponde a las diferencias de la tercera columna al cuadrado, esto es:

WWW.IPLACEX.CL 26
ESCUELA DE CONSTRUCCIÓN

Pesos
N° registrados 𝑥! − 𝑥̅ (𝑥! − 𝑥̅ ))
𝑥!
1 2,83 -0,93 0,86
2 3,55 -0,21 0,04
3 3,78 0,02 0,00
4 3,02 -0,74 0,55
5 3,67 -0,09 0,01
6 3,85 0,09 0,01
7 3,54 -0,22 0,05
8 3,97 0,21 0,04
9 4,12 0,36 0,13
10 5,05 1,29 1,66
11 4,12 0,36 0,13
12 3,34 -0,42 0,18
13 4,67 0,91 0,83
14 3,54 -0,22 0,05
15 3,10 -0,66 0,44
16 4,15 0,39 0,15
17 4,25 0,49 0,24
18 3,07 -0,69 0,48

Cálculo de la media aritmética:

∑,!-# 𝑥!
𝑥̅ =
𝑛

67,62
𝑥̅ = → 𝑥̅ = 3,76
18

El promedio de los pesos de los 18 niños y niñas que nacieron ese día es de 3,76 𝑘𝑔.

Cálculo de la varianza:

La varianza (para datos no agrupados) se calcula mediante la siguiente expresión:

∑,!-#(𝑥! − 𝑥))
𝑆) =
𝑛

WWW.IPLACEX.CL 27
ESCUELA DE CONSTRUCCIÓN

Lo anterior implica que debemos sumar la columna (𝑥! − 𝑥)) de la tabla y dividir dicho valor por
el número total de datos registrados, esto es:

5,85 𝑘𝑔)
𝑆) = → 𝑆 ) = 0,29 𝑘𝑔)
18

Cálculo de la desviación estándar:

La desviación estándar se calcula como la raíz cuadrada de la varianza. Téngase especial


atención el tratamiento de la unidad de medida de la varianza.

∑,!-#(𝑥! − 𝑥))
𝑆= _𝑆 ) = d
𝑛

𝑆 = _0,29 𝑘𝑔)

𝑆 = √0,29 _𝑘𝑔)

𝑆 = 0,54 𝑘𝑔

El muy común realizar una interpretación conjunta considerando la media aritmética y la


desviación estándar, esto es: Los pesos de las niñas y niños recién nacidos aquel día
tienen un peso promedio de 𝟑, 𝟕𝟔 𝒌𝒈 con una desviación estándar de 𝟎, 𝟓𝟒 𝒌𝒈. Lo anterior
expresado en notación matemática sería:

𝑥 = (𝑥̅ ± 𝑆) [𝑈𝑛𝑖𝑑𝑎𝑑𝑒𝑠]

En nuestro caso:

𝑥 = 𝑝𝑒𝑠𝑜 = (3,76 ± 0,54) 𝑘𝑔

Lo anterior quiere decir, que en promedio los pesos de las niñas y niños nacidos aquel día
están entre los 𝟑, 𝟐𝟐 𝒌𝒈, (3,76 − 0,54) 𝑘𝑔, y los 𝟒, 𝟑𝟎 𝒌𝒈, (3,76 + 0,54) 𝑘𝑔.

Cálculo del coeficiente de variabilidad:

𝑆
𝐶𝑉% = ∙ 100
𝑥

WWW.IPLACEX.CL 28
ESCUELA DE CONSTRUCCIÓN

Para nuestro caso:

0,54
𝐶𝑉% = ∙ 100 → 𝐶𝑉% = 14,36%
3,76

Lo anterior nos da cuenta que los datos tienen una variabilidad del 14,36% respecto de la media
aritmética.

4.3. Medidas de Formas

4.3.1. Índices de Asimetría

Se dice que una distribución de frecuencias es simétrica, si los intervalos equidistantes del
intervalo central tienen iguales frecuencias. También se dice que una distribución es simétrica
si su curva de frecuencias es simétrica con respecto al centro, esto significa que si la
distribución se divide en dos partes justo en su centro, la forma de la distribución hacia la
derecha es la misma forma que el lado de la izquierda. Esto es:

Figura 7: Distribución simétrica.

Dos distribuciones pueden tener la misma media y la misma desviación estándar, pero pueden
diferir en el grado de asimetría.

Si la distribución es simétrica, como lo muestra la Figura 7, entonces la media, la mediana y la


moda coinciden. En contraposición, si estos tres indicadores estadísticos no coinciden, la
distribución tiene que ser asimétrica.

WWW.IPLACEX.CL 29
ESCUELA DE CONSTRUCCIÓN

Existen varias medidas de asimetría, una de ellas es el coeficiente o índice de asimetría de


Pearson.

El índice de asimetría de Pearson se determina mediante la siguiente expresión:

𝑥̅ − 𝑚+
𝐴. =
𝑆

En distribuciones asimétricas se verifica que:

𝑥̅ − 𝑚+ ≅ 3(𝑥̅ − 𝑚* ).

Dado lo anterior, el índice de Pearson puede obtenerse también utilizando la siguiente


expresión:

3(𝑥̅ − 𝑚* )
𝐴. =
𝑆

Donde:
𝑥̅ : corresponde a la media aritmética de la distribución.
𝑚< : corresponde a la moda de la distribución.
𝑚* : corresponde la media de la distribución.
𝑆 : desviación estándar de la distribución de datos.

Nótese que si 𝐴. = 0, la distribución es simétrica puesto que 𝑥̅ = 𝑚+ . Si 𝐴. > 0, entonces la


distribución es asimétrica hacia la derecha, ver Figura 8 (a), o tiene sesgo positivo. Si
𝐴. < 0, entonces la distribución es asimétrica hacia la izquierda, ver figura 8 (b), o tiene sesgo
negativo.

WWW.IPLACEX.CL 30
ESCUELA DE CONSTRUCCIÓN

(a) (b)

Figura 8: Distribuciones asimétricas.


(a) Distribución asimétrica positiva y (b) Distribución asimétrica negativa.

4.3.2. Curtosis

La curtosis es la propiedad de una distribución de frecuencias por la cual se compara la


dispersión de los datos observados cercanos al valor central con la dispersión de los datos
cercanos a ambos extremos de la distribución. La curtosis se mide en comparación a la curva
simétrica normal o mesocúrtica, ver Figura 9.

Una curva simétrica con curtosis mayor que la curva normal es denominada curva leptocúrtica
y una curva simétrica con curtosis menor que la normal es denominada curva platicúrtica.

Figura 9: Distribuciones asimétricas.

WWW.IPLACEX.CL 31
ESCUELA DE CONSTRUCCIÓN

Una forma de determinar la curtosis, 𝐾, de una distribución es utilizando diferentes percentiles


como se presenta en la siguiente ecuación:

𝑃89% − 𝑃)9%
𝐾= − 0,5
𝑃@<% − 𝑃#<%

Si la distribución es normal, 𝐾 tiende a cero (el resultado está próximo al valor cero). Si 𝐾
tiende a 0,5, es leptocúrtica, y si 𝐾 tiende a –0,5, es platicúrtica.

WWW.IPLACEX.CL 32
ESCUELA DE CONSTRUCCIÓN

Conclusión
La presentación de información estadística tiene dos opciones de formato: el agrupar o tabular, y
representaciones gráficas. El primero consiste en el ordenamiento de los datos obtenidos o
seleccionados, en filas y columnas, denominado tabla de distribución de frecuencias. El formato gráfico
consiste en la utilización de puntos, líneas y figuras que sirven para mostrar magnitudes asociadas a
una escala de medición, de manera que se facilita la comparación e interpretación de los datos
estadísticos, sin que necesariamente se incluyan los valores numéricos.

El gráfico estadístico debe estructurarse teniendo en cuenta la utilidad que preste al usuario objetivo,
es decir, que quien lo diseña debe colocarse en el lugar del que utilizará la información. Cada
representación gráfica tiene una forma propia, pero existen normas generales que permiten, hasta
cierto punto, presentarlas con criterio uniforme.

La estadística descriptica es en sí misma una herramienta fundamental para el análisis de datos de


los estudios correspondientes, en ella encontramos medidas de posición y de dispersión, las cuales
se utilizan para describir la distribución de los datos. Las medidas de posición nos indican hacia dónde
se inclinan o se agrupan mayormente los datos. Las más utilizadas son: la media aritmética, la mediana
y la moda.

Las medidas de dispersión son útiles para determinar y cuantificar lo próximo o alejados que están los
datos de la muestra de un punto central. Estas medidas indicarán por un lado el grado de variabilidad
que hay en la muestra y, por otro, la representatividad de dicho punto central. Las medidas de
dispersión más ampliamente utilizadas son: el rango, la varianza, la desviación estándar y el
coeficiente de variabilidad.

WWW.IPLACEX.CL 33
ESCUELA DE CONSTRUCCIÓN

Bibliografía
Canavos, G. (1988). Probabilidad y Estadística: Aplicaciones y Métodos. Mc Graw-Hill.
México D. F., México.

Walpole, Ronald E (1992). Probabilidades y Estadística. 3ª edición. Interamericana McGraw-


Hill. México.

Cordova, M. (2003). Estadística Descriptiva e Inferencial con Aplicaciones, 5ª edición.


Editorial Moshera S.R.L. Perú.

Wisniewski, M. (2008). Estadística y Probabilidad. Editorial Trillas. México.

Walpole Ronald E. (2012). Probabilidad y Estadística para Ingeniería y Ciencias. Editorial


Pearson Educación. México.

WWW.IPLACEX.CL 34

También podría gustarte