Herramientas de Estadística Descriptiva
Herramientas de Estadística Descriptiva
Herramientas de estadística
descriptiva para el manejo de datos
Presentación
En este momento estás justo a la mitad de la asignatura: has iniciado una investigación y
has compartido con tus compañeros diversos puntos de vista para formular un objetivo y
una hipótesis que son la guía de tu investigación, también aplicaste una encuesta para
recabar datos, que en esta unidad podrás transformar en información valiosa que te
permitirá comprobar tu hipótesis.
Hasta este momento sólo tienes datos reunidos en una base, datos que no han sido
sistematizados y sin relación entre sí, por lo que no se pueden interpretar, quizá te den
una idea de las tendencias de las respuestas de los encuestados, pero no te permiten
formular conclusiones fundamentadas. Para ello es preciso que los datos se sistematicen,
y para hacerlo nos auxiliaremos de la estadística, especialidad de las matemáticas que
proporciona herramientas específicas para analizar los datos que tenemos.
Seguramente has estado en contacto con la estadística a través de los medios de
comunicación, que nos muestran con gráficas y a veces con porcentajes, las opiniones de la
1
gente sobre diversos temas, pero ¿cómo sabemos si esa información no ha sido
manipulada o si podemos confiar en ella?
En esta unidad conocerás la metodología que se sigue para dar tratamiento estadístico a
los datos, aprenderás a calcular algunos indicadores básicos como las medidas de
tendencia central, de variabilidad y de posición, a interpretarlos y a representarlos
mediante gráficos (histogramas y diagramas circulares), así como a formular
conclusiones en base a la interpretación de los indicadores calculados.
Todo esto lo aplicarás a la base de datos que integraste en la unidad anterior con tu
equipo de trabajo, por lo que continuarás trabajando con el mismo equipo para hacer el
análisis estadístico en esta unidad y en la siguiente.
¿Dónde empiezo?
Para iniciar, igual que en las semanas anteriores, lo haremos respondiendo un cuestionario, el
cual te ayudará a colocarte en el punto preciso que necesitas, de acuerdo a los conocimientos
que ya tienes sobre el tema. Por eso es muy importante que lo respondas con honestidad,
recuerda que NO cuenta para calificación, solamente es el punto para saber si iniciarás la
unidad desde el inicio, si requieres de algún apoyo, o si ya dominas algunos temas, y de esta
manera puedas continuar haciendo el análisis estadístico de tu investigación.
Este cuestionario es automatizado y conocerás los resultados de manera inmediata. Lee
detenidamente cada reactivo antes de responder. Solamente una opción es correcta.
Tutorial Excel
Es importante que sepas que en esta unidad necesitarás realizar varios cálculos
matemáticos, si gustas podrás hacerlos con calculadora o de manera manual, pero
cuando ya tengas muchos números o cantidades grandes, esto te puede llevar a cometer
errores, por eso te recomiendo usar Excel. Si quieres puedes echar un vistazo al siguiente
sitio para que te vayas familiarizando y lo tengas a la mano cuando lo necesites.
2
Medidas de tendencia central para datos no agrupados
La semana pasada aplicaste 10 encuestas y junto con los compañeros con quienes estás
haciendo tu investigación integraste una base de datos en Excel. Es importante que esté
en este programa para poder realizar los cálculos necesarios y con un menor rango de
error. En esta base tienes muchos datos, pero no es información, porque no están
sistematizados y por lo tanto no se pueden interpretar.
Lo interesante de tener muchos datos, y por eso el equipo aplicó muchas encuestas, es
que podemos transformarlos en información y las conclusiones obtenidas a partir de
estos datos se pueden generalizar para toda la muestra calculando algunos indicadores
estadísticos. Para hacer el análisis estadístico de tu base de datos iniciaremos calculando
las medidas de tendencia central.
Las medidas de tendencia central permiten ubicar el centro de una distribución de datos,
desde diferentes perspectivas.
3
En algunas distribuciones estas medidas pueden tener el mismo valor y en otras
pueden tener diferentes valores.
4
Empezaremos a estudiar la medida de tendencia central más conocida que es la media,
la cual seguramente conoces como promedio, y es el mismo que has utilizados muchas
veces para saber cuál será tu calificación final en un ciclo escolar.
La media o promedio es muy fácil de calcular, tú sabes que para calcular un promedio lo
haces sumando todos los datos y divides el resultado entre la cantidad de datos esto se
puede representar mediante una fórmula matemática de la siguiente manera:
5
Donde X representa a la
media,
X1, X2... Xn representan a los datos, y
n es el número total de datos o tamaño de la muestra.
Una joven atleta estaba en un parque haciendo ejercicio y observó que 5 niños jugaban
haciendo “carreritas”, les preguntó sus edades y calculó el promedio.
6
Aplicando la fórmula, la edad promedio de los niños fue la siguiente:
Esto quiere decir que aunque las edades de los niños iban de 6 a 8 años, la edad
promedio era de 6.8 años, esto es, casi 7 años (si redondeamos el dato para que quede
en años completos)
Después de conocer la edad promedio, la atleta se interesó por saber la altura promedio
de los niños, ya que aunque tenían edades diferentes su estatura era similar. Las
medidas obtenidas fueron las siguientes:
Aplicando la fórmula para la media, la altura promedio de los niños fue la siguiente:
7
Esto quiere decir que la altura promedio de los niños
era de 1.10 m.
Propiedades de la media
a. 22.30 kg.
b. 21.42 kg.
c. 20.40 kg.
d. 21.50 kg.
8
Las medidas son las siguientes:
1.70, 1.98, 1.68, 1. 69, 1.90, 1.68, 1.74, 1.93, 1.73, 1.70, 1.91, 1.68
a. 1.78 m.
b. 1.75 m.
c. 1.68 m.
d. 1.80 m.
Respuestas: b, a, d.
Vamos a conocerla
9
Conoce las propiedades de la mediana:
Propiedades de la mediana:
10
4. Un conjunto de datos solamente tiene
una mediana.
La mediana describe mejor que la media una distribución cuando está sesgada hacia uno
y otro lado y es conveniente obtener ambos indicadores porque proporcionan más
información acerca de la distribución de datos.
11
Veamos un ejemplo.
Maru tenía que leer diariamente 10 minutos como actividad extra clase, los dos primeros
días no leyó, así que trató de compensarlo leyendo más tiempo los días siguientes.
Observa la gráfica de sus tiempos de lectura:
Miércoles = 5 min.
Jueves = 10 min.
Viernes = 20 min.
12
Si calculas la media, verás que el promedio de lectura fue de 7 minutos, con lo que no
alcanzaba en promedio los 10 minutos que le habían dejado diario.
El promedio de lectura de Maru en una semana fue de 7 minutos. La mitad de los días
leyó menos de 5 minutos y la otra mitad leyó más de 5 minutos.
13
Cuando Maru se dio cuenta de que a pesar de haber leído más tiempo los últimos dos
días, no cumplía con los 10 minutos de lectura requeridos, leyó un poco más el día
sábado. Al graficar los nuevos tiempos de lectura quedaron así:
Respuesta: 10
14
Al promediar 5 y 10 se obtiene la mediana: Me = 7.5
1. Calcula la mediana del peso de los niños de una estancia infantil. Los
pesos están medidos en kilogramos:
19.45, 22.20, 20.84, 21.63, 22.98
a. 21.63kg.
b. 21.33kg.
c. 20.40 kg.
15
d. 21.50 kg.
2. Diana está siguiendo una dieta y durante 7 días realizó un registro para
saber cuál era su ingesta de calorías. Calcula la mediana e interprétala:
Las calorías ingeridas estos días fueron las siguientes:
1800, 1500, 2100, 2300, 1900, 1950
Respuestas: a, c, b
16
Conoce las propiedades de la moda:
Propiedades de la moda:
17
Esto se debe a que todos tienen la misma frecuencia, por lo tanto no hay ninguna que se
repita más veces que las otras.
Sigamos con el ejemplo: Inicialmente eran 5 niños quienes jugaban carreritas, pero
después llegaron más niños al parque y se integraron al juego, sus estaturas eran las
siguientes:
18
En este caso hay dos modas, porque son dos los datos que se repiten con más
frecuencia: la moda es 1.06, que se repite 2 veces y 1.15, que también se repite 2 veces.
Como hay dos modas, se dice que la muestra es bimodal.
Siguiendo con este mismo ejemplo, después llegaron otros dos niños, y ahora la muestra
quedó así:
19
Aquí la interpretación sería la siguiente:
En este ejemplo la moda es 1.15m, porque es el dato que se repite más veces, pues
aunque la altura de 1.06m. también se repite, la que se repite más veces es 1.15m.
Ejercitemos lo aprendido.
Completamente satisfechos 46
Satisfechos 30
Regularmente satisfechos 12
Insatisfechos 7
Completamente 5
insatisfechos
20
Identifica la moda y su significado en esta muestra:
a. La moda corresponde a la opción “Completamente insatisfechos”. Significa
que de todas las opciones hay más encuestados que se sienten
completamente insatisfechos con el servicio que brinda el hospital
“San Antonio”.
Respuestas: d, a, c.
21
Como puedes observar, en todos los ejercicios que hicimos trabajamos con pocos datos,
y las medidas de tendencia central también se pueden calcular con bases de datos
grandes, como la base de datos que tienes de tu investigación. Para trabajar con muchos
datos podemos auxiliarnos con Excel, una ventaja de hacerlo en este programa es que lo
haces más rápido y con un margen de error mínimo si sigues el procedimiento. Para que
sepas cómo usar las funciones estadísticas de Excel te invitamos a ver el siguiente video:
Ahora estás listo para calcular e interpretar la media, mediana y moda de tu investigación.
La encuesta que aplicaste y que tienes en tu base de datos, tiene varios reactivos, tú sólo
elegirás los reactivos que estén directamente relacionados con tu hipótesis. Consulta a tu
asesor para confirmar los reactivos que vas a analizar y guarda los resultados en un
archivo de Excel, pues te servirán para integrar el trabajo final de esta unidad. Por el
momento sólo vas a calcular las tres medidas de tendencia central: media, mediana y
moda y también vas a interpretar cada una de los reactivos relacionados con tu hipótesis
de investigación.
Nombra a tu archivo Analisis de datos_tema de investigación_nombre y apellido tuyos.
(sin acentos)
Media ponderada.
A veces nos encontramos con situaciones de evaluación en las que no todos los criterios
tienen el mismo peso, para estos casos se usa la media ponderada.
Un ejemplo que tú conoces es la forma de calificar en la escuela, donde el profesor toma
en cuenta varios aspectos, pero no todos tienen el mismo valor:
En la secundaria Rosario Castellanos la profesora de física les dijo a sus alumnos que
calificaría de la siguiente manera el primer bimestre:
23
Pablo obtuvo las siguientes calificaciones:
24
Pero no sabe cuál será su calificación del bimestre
hasta que calcule el valor de cada factor:
25
El siguiente bimestre, Pablo estudió más para el examen y se empeñó en las prácticas de
laboratorio porque se dio cuenta que tenían una ponderación más alta, eso es, que valían
más, por hacer los informes de laboratorio no pudo entregar todas la tareas y sus
calificaciones fueron las siguientes, ayúdale a calcular su calificación del segundo
bimestre con un decimal:
Laboratorio 30 10 ________________
Tareas 10 5 ________________
26
Medidas de dispersión para datos no agrupados y agrupados
Además de las medidas de tendencia central existen otras medidas que nos ayudan a
describir mejor una muestra. Veamos un ejemplo:
El informe del clima para el 15 de junio de 2017 indicaba que podía esperarse una
temperatura media de 28ºC, con temperatura mínima de 19ºC y una máxima de 37ºC.
Partiendo de esta información ¿Cómo habrías elegido qué ponerte ese día? Observa que
la temperatura media indicaba un clima templado, en tanto que las otras dos eran
extremosas. Como puedes ver, además de la medida central, es importante conocer el
rango en el que se encuentran los datos.
Medidas de dispersión
Medidas de dispersión
Las medidas de variabilidad o medidas de dispersión como su nombre lo
indica, nos dicen que tan dispersos o separados están los datos de una
muestra. En la primera gráfica podemos observar que los datos se concentran
en un punto por eso se ve alta o picuda, en tanto que en la segunda imagen
se aprecia una gráfica más plana, pero más ancha, porque los datos están más
dispersos.
En esta ocasión estudiaremos tres medidas de dispersión, el rango, la
varianza y la desviación estándar. Empecemos por el rango, también es
conocido como
27
recorrido y se obtiene restando el puntaje más alto al más bajo, retomemos el
ejemplo de las edades de los niños que estaban jugando en el parque, sus
edades eran 6, 6, 7, 7, y 8 años. Ya sabíamos que la edad promedio de los
niños era de 7 años, la mitad de los niños tienen más de 7 años y la otra mitad
menos de 7 años, y la edad más frecuente es también de 7 años.
Si calculamos el rango restando el puntaje más alto al más bajo, tenemos que
8-6=2, esto quiere decir que hay una variabilidad de 2 años de edad entre
niños de menor edad y el de mayor edad. Las ventajas del rango es que es
muy sencillo de calcular y está en la misma unidad de medida que las
variables, las desventajas que tiene es que solo toma en cuenta los datos que
están en los extremos, y no toma en cuenta que tan dispersos están los demás
datos.
La siguiente medida que vamos a estudiar es la varianza. A diferencia del
rango la varianza sí toma en cuenta los valores de todos los datos, para
calcularla se
emplea la siguiente formula: 2 =
∑ ( − ̅ )2
=
−1
2=
−1
28
Como tercer paso vamos a elevar al cuadrado el resultado de las restas
anteriores, por eso no importa el haber tenido resultados negativos porque al
elevarlo al cuadrado van a quedar como positivos, entonces el 0.8 que es el
resultado de la primera resta lo elevamos al cuadrado y nos da 0.64, el
siguiente -0.8 al cuadrado también nos da 0.64, luego 0.2 al cuadrado, nos da
0.04 y 1.2 al cuadrado nos da 1.44.
El paso cuatro es sumar los resultados obtenidos en el paso anterior, por lo
que sumamos 0.64+0.64+0.04+1.44= 2.76. Se divide el resultado de la suma
del paso 4 entre el tamaño de la muestra menos 1, esto es: 2.76/5-1, que sería
2.76/4 y nos da como resultado 0.69, por lo que la varianza es 0.69.
La desventaja de la varianza es que esta expresada en las unidades de la
variable al cuadrado, por lo que en nuestro ejemplo sería en metros cuadrados
y eso dificulta la interpretación. Las ventajas que tiene es que toma en cuenta
todos los valores de la muestra y además es un paso previo para calcular la
desviación estándar que es otra medida de dispersión. Ahora veamos la
desviación estándar
La desviación estándar es una de las medidas más usadas para medir la
variabilidad de la distribución y muestra la dispersión de los puntajes respecto
de la media. Se obtiene sacando la raíz cuadrada de la varianza que ya
habíamos calculado anteriormente. Retomemos nuestro ejemplo de la edad de
los niños que juegan en el parque, ya sabemos que la varianza es de 0.69, por
lo que para calcular la desviación estándar solo le sacamos raíz cuadrada a la
varianza y entonces tenemos que la desviación estándar es de 0.83066.
Como propiedades de la desviación estándar podemos ver que si su valor es 0,
significa que todos los datos son el mismo número, si su valor es pequeño
significa que los datos son muy cercanos o parecidos entre sí, y si su valor es
grande quiere decir que hay grandes variaciones entre los datos; por lo tanto
en nuestro ejemplo podemos ver que la desviación estándar es pequeña, por
lo que las edades de los niños son muy similares entre sí.
La desviación estándar nos dice el promedio de alejamiento de los datos
respecto de la media, tiene la ventaja de que esta expresada en las mismas
unidades de medida de la variable, esto se convierte en desventaja cuando se
quiere comparar dispersiones de datos con diferentes unidades de medida.
29
La Dirección de una escuela primaria aplicó un examen de lectura de comprensión a una
muestra de alumnos de los dos grupos de 6º grado. Los resultados obtenidos fueron los
siguientes, medidos en aciertos:
70, 52, 44, 83, 101, 65, 66, 87, 59, 78, 83, 49, 85, 92
a. 57 aciertos
b. 50 aciertos
c. 65 aciertos
d. 87 aciertos
a. 17.27
b. 44
c. 21.1
d. 12.8
Después de tener los resultados, preguntó a las profesoras y se dio cuenta que
cada una empleaba un método distinto, por lo que decidió comparar los grupos:
6º A 6º B
51 44
59 49
66 65
70 83
78 83
85 92
87 101
4. Los dos grupos tienen la misma media
a. Verdadero
b. Falso
30
5. La puntuación con mayor frecuencia en ambos grupos fue 83
a. Verdadero
b. Falso
Respuestas: a, a, a, a, a, a
31
Ahora que ya conoces el tema de las medidas de dispersión puedes continuar haciendo
el análisis estadístico de los reactivos de tu investigación, calculando e interpretando la
desviación estándar y rango. Recuerda que sólo trabajarás los reactivos que están
directamente relacionados con tu hipótesis.
Guarda tu información en el archivo que nombraste Analisis de datos_tema de
investigación_nombre y apellido tuyos. (sin acentos) para la entrega del trabajo final de
la unidad.
En los ejemplos que hemos visto hasta este momento hemos trabajado con pocos datos,
gracias a ello hemos podido calcular tanto las medidas de tendencia central como las de
dispersión de manera directa. Sin embargo esto casi nunca ocurre, la mayor parte del
tiempo se maneja una gran cantidad de datos, ya que entre más grande es la muestra
más representa a la población y se pueden formular generalizaciones más certeras sobre
el comportamiento de la población en su conjunto.
Cuando tenemos una base de datos grande se busca cómo agrupar la información para
que se manejable, y ello se logra con dos tipos de herramientas: las distribuciones de
frecuencias (simples y agrupadas) y las representaciones gráficas.
Todos los datos que ya tenemos, así como los indicadores estadísticos (medidas de
tendencia central y medidas de dispersión) los podemos interpretar mejor si se muestran
visualmente, eso lo podemos hacer mediante diferentes tipos de gráfica:
32
3
3
Para graficar se hace a partir de tablas de datos que concentran las diferentes respuestas
y el número de veces que se repiten, o sea, su frecuencia. Empecemos haciendo las
tablas de frecuencias simples.
¡Aprendamos a graficar!
34
Como vemos que la gráfica quedó pequeñita porque aquí aparece un cuadro,
le podemos dar clic normal y le damos suprimir y entonces ya tenemos el
título y se ven más grandes las barras. Tu gráfica de barras esta lista.
Ahora veamos otro ejemplo, pero ahora con datos cuantitativos, al igual como en
el ejemplo anterior necesitamos una tabla de frecuencias que tenemos aquí a la
izquierda. Para este ejemplo vamos a utilizar las estaturas medidas en metros de
los alumnos de preparatoria, la variable independiente son las estaturas que van
de 1.67m hasta 1.75m, en este caso ya los tenemos ordenados de menor a mayor,
y la variable dependiente es la frecuencia o la cantidad de veces que se repite la
estatura. Igual que en el ejemplo anterior, primero vamos a seleccionar los datos y
después en el menú superior vamos a seleccionar insertar gráfica, y entonces
vamos a seleccionar el tipo de gráfica, nuevamente elegimos el de columna, ahora
voy a elegir un cilindro agrupado, tu puedes elegir de las opciones el que te
agrade más, aparece ya con el título, damos clic derecho sobre una columna y
ponemos agregar etiqueta de datos, para que nos aparezca la frecuencia arriba de
cada columna, y ya quedó lista nuestra gráfica.
Ahora realicemos una gráfica de pastel también conocido como diagrama
circular, igual que los casos anteriores necesitas una tabla de frecuencias
simples. En este ejemplo graficaremos el porcentaje de cada género de los
alumnos de una escuela de bachillerato, observa que la tabla de frecuencia
simple tiene datos absolutos, no los porcentajes que son los que se necesitan
en un diagrama circular, ya que en este tipo de gráfico representa
proporciones por lo que necesitas la frecuencia relativa o porcentaje. En este
caso no lo vamos a calcular porque Excel lo hace de manera automática.
Para hacer la gráfica seleccionamos los datos que vamos a graficar y
presionamos menú superior donde dice insertar, seleccionas la gráfica que
aquí vamos a seleccionar la circular, voy a elegir una circular en 3D y tenemos
el pastel o gráfica circular, le doy clic derecho sobre una proporción del pastel
y ahí agrego la etiqueta de datos, aquí me están apareciendo las frecuencias
absolutas que son las mismas que tenemos en nuestra tabla de frecuencias
simples, si quiero cambiar por porcentajes, aquí observa que aparecen
diferentes tipos de diseño y elijo este que tiene los porcentajes y ya aparece
con porcentajes, nuestra grafica quedó lista.
Ahora que ya sabes cómo hacer las gráficas de barras y circulares, te invito a poner en
práctica lo aprendido, haciendo las gráficas correspondientes para tu trabajo de
investigación. Puedes hacer las gráficas y escribir a un lado la descripción que ya hiciste
al
35
calcular las medidas de tendencia central y de dispersión. Al observar la gráfica tendrá
más sentido la descripción que haces y también será más visible cómo se distribuyen las
respuestas entre todas las opciones de respuesta.
Comparte con tus compañeros en el foro gráficas alguna de las gráficas que hiciste y la
interpretación que haces de la misma incluyendo los datos de la media, mediana, moda y
desviación estándar. Después regresa para comentar al menos dos gráficas de otros
compañeros. Al compartir opiniones se enriquecerá tu trabajo.
Ingresa al foro:
Gráficas
Datos agrupados
Hasta este momento hemos tenido ejemplos con pocos datos, fáciles de manejar, donde
las opciones de respuesta no han sido más de 10, pero no siempre es así. Sobre todo
cuando las variables que se investigan son continuas y la muestra es grande es frecuente
que las opciones de respuesta sean muchas y con muchos datos, lo cual dificulta su
manejo.
Veamos el ejemplo de los gastos hormiga de una pareja en un mes. Esta pareja se ha
percatado de que tenían muchos gastos que no estaban contemplados entre los gastos
normales y quieren saber qué tanto impacto tiene en su economía. Para ello hicieron un
registro de gastos hormiga en una quincena, entre los gastos registraron propinas,
dulces, chucherías, antojos, estacionamientos y otros gastos imprevistos. El registro de
gastos hormiga quedó como sigue:
36
1 5 15 25 42 5 5 5 3 10
22 3 3 3 10 12 18 25 4 3
38 16 23 5 5 5 5 5 5 4
5 10 10 12 8 8 24 45 45 18
3 6 12 10 10 22 17 10 3 3
37
Una distribución de frecuencias agrupadas permite ver los comportamientos y tendencias
de una manera más compacta al agrupar los datos individuales en categorías llamadas
clases. Para hacer una distribución de este tipo se trabaja en una tabla de frecuencias
agrupadas, la cual permite después calcular las medidas de tendencia central, de
dispersión y también graficar. Para que sepas cómo hacer una tabla de frecuencias
agrupadas observa la siguiente información:
38
resultado lo dividimos entre dos, ya sea que hagas uno por uno, o puedes
copiar la fórmula jalándola, ¡Listo, tenemos las marcas de clase!
El siguiente paso es obtener las frecuencias absolutas, esto es contaremos
cuantos valores caen dentro de los límites de cada clase, para la primera clase
contaremos cuantos saltos están entre el 3 y el 9, que son los límites.
Entonces los contamos entre el primer dato que es el 3 y el 9 y vemos que son
25. Para la siguiente clase, que es la clase 2, vemos cuantos datos hay entre el
10 y el 16, nos vamos aquí donde está el 10, yo ya los tengo numerados y
entre el 10 y el 16 hay 12 datos; por lo tanto la frecuencia absoluta en la clase
2, son 12.
La tercera clase son los datos que están entre el 17 y 23, aquí tenemos entre
el 17 y el 23 son 6 datos. La clase cuatro son los datos que están entre el 24 y
30, solamente son tres datos como podemos ver aquí, la clase cinco son los
datos que están entre el 31 y 37, y observamos que no hay ninguno, por lo
tanto la frecuencia es 0. La clase seis son los datos que están entre 38 y 44,
tenemos que son 2. Y finalmente los datos que están entre el 45 y 51 que
serían 2 los que nos quedan. ¡Listo!
Para verificar que hayamos incluido a todos los datos y que no nos hayamos equivocado
vamos a hacer una sumatoria, al final de la columna de la frecuencia absoluta vamos a
sumar todos los datos, lo puedes hacer buscando en el menú superior, la letra ∑ que indica
sumatoria, te va a señalar que es todo lo que estas sumando y tendremos 50 ¡correcto!
Como nuestra muestra es de 50 datos, quiere decir que sumamos a todos nuestros datos.
Con esto ya tenemos las frecuencias absolutas de cada clase, ahora vamos a
calcular la frecuencia relativa. Esta frecuencia tiene la ventaja de ser
adimensional y expresa los resultados como parte proporcional de un entero y
se expresa en porcentaje, que se obtiene por medio de una regla de tres, esto
es que vamos a multiplicar cada frecuencia absoluta por 100, en este caso
multiplicamos 25 por 100 y el resultado lo vamos a dividir entre el total de
datos que es 50, y tenemos su frecuencia relativa, esto nos da una frecuencia
del 50%.
Hacemos lo mismo con las demás clases, ya sea insertando la fórmula de manera manual o
igual la copiamos colocando el cursor en la esquinita del ángulo inferior derecho. Y para
comprobar que estemos en lo correcto, igual que la frecuencia absoluta vamos a poner
aquí una sumatoria, buscamos la letra ∑ en el menú superior, nos indica de donde a donde
está seleccionando para hacer la suma y nos dio el 100%, esto quiere decir que vamos
bien.
Finalmente para terminar la tabla de frecuencias agrupadas vamos a calcular la
frecuencia relativa acumulada, el término acumulado significa que suma la
frecuencia del nivel en el que está con los que le anteceden, los que están arriba,
de esta forma la frecuencia para la primera clase sería 50, porque esa es la
frecuencia relativa, se queda en su renglón, la frecuencia relativa acumulada se
obtendría sumando la frecuencia del renglón + la que le antecede, lo cual nos da
un 74, la tercer frecuencia vamos a hacer lo mismo, vamos a sumar la frecuencia
del renglón en el que está + las que le anteceden, seguimos el mismo
procedimiento para cada una de las clases. Observa que en la última te va a dar el
100, porque es la suma de todas las frecuencias relativas acumuladas, con esto
39
tenemos lista nuestra tabla de frecuencias agrupadas, esta nos será muy útil,
pues con ella podemos realizar más gráfica y otros cálculos que con una base
de datos muy grande se nos dificultarían mucho.
40
La tabla de frecuencias agrupadas no sólo nos sirve para graficar, sino también para
calcular las medidas de tendencia central y de dispersión para datos agrupados.
En la distribución de frecuencias agrupadas se acostumbra usar la tabla de frecuencias
para calcular las tres medidas de tendencia central: media, mediana y la moda.
La fórmula para calcular la media o promedio de los datos agrupados es la siguiente:
41
Retomando la marca de clase y la frecuencia absoluta que ya vimos en el video de las
tablas de frecuencias agrupadas podemos calcular la media.
Para calcular la mediana lo primero que se necesita es determinar el intervalo o clase (j)
en que se encuentra, recuerda que la mediana es el dato que está justo a la mitad.
Como sabemos que nuestra muestra tiene 50 datos, entonces la mitad está entre los
datos 25 y 26, por lo que buscamos en la tabla de frecuencias agrupadas en qué clase
está, como justo está entre dos clases los promediamos y quedaría en el lugar 26, lo que
corresponde a la clase 2:
42
Clases Frec. Absoluta fi
1 25
2 12
3 6
4 3
5 0
6 2
7 2
Donde:
Li es el límite inferior de la clase donde se encuentra la
mediana.
N es el tamaño de la muestra
Fi-1 es la frecuencia acumulada anterior a la clase donde
está la mediana.
fi es la frecuencia absoluta de la clase donde está la
mediana.
a es la amplitud de la clase donde está la mediana
43
Sustituyendo la fórmula tenemos lo siguiente:
Mediana= 10
Esto se interpreta como que la mitad de los gastos hormigas son menores a 10 pesos y la
otra mitad son mayores a esta cantidad, lo cual puede parecer no oneroso para la
familia.
Sigamos con el ejemplo de los gastos hormiga para calcular la moda para datos agrupados.
La fórmula es la siguiente:
44
Donde:
k es la clase donde se encuentra la moda
(L inf) k es el límite inferior donde se encuentra la moda d1 es la diferencia entre la
frecuencia de la clase que tiene a la moda y la frecuencia de la clase que le antecede.
d2 es la diferencia de la clase que tiene a la moda
menos la frecuencia de la clase que le sigue.
a es el ancho de clase donde está la moda.
En el caso de la moda es muy sencillo saber en qué clase se encuentra, pues basta con
ver la frecuencia absoluta. En nuestro ejemplo vemos que la moda está en la primera
clase.
45
Por lo tanto la moda sería 6
46
Ahora que ya calculamos las medidas de tendencia central para datos agrupados
calculemos la desviación estándar para estos datos:
Igual que en los datos sin agrupar, la desviación estándar se calcula sacando raíz
cuadrada a la varianza, así que comencemos con la fórmula de la varianza:
Estos símbolos ya los conoces, pues son los mismos que utilizamos para calcular las
medidas de tendencia central:
Donde:
∑ x2i fi indica que se eleva al cuadrado la marca de
clase de un intervalo y después se multiplica por su
frecuencia, esto se hace con cada una de las clases de
la distribución y se suman.
47
Y una vez que tenemos la varianza para calcular la desviación estándar se saca raíz
cuadrada a este resultado
Con el valor de la desviación estándar podemos decir que los gastos hormiga son muy
dispersos, pues hay gastos muy pequeños y otros que no lo son tanto, pero todos son
gastos que no están contemplados ni programados. Esto también lo corroboramos al
calcular el rango, ya que los gastos van de 3 a 45 pesos, lo que nos da un rango bastante
amplio, de 42 pesos.
48
Clases Límite Límite Frec. Absoluta Marca de clase Xi Xifi
inferior superior fi
∑ = 30
Resultados: 670, 5360, 811, 2433, 952, 3808, 1093, 2186, 1234, 16042, 141, 704, 994.3, 1023, 1228.57
49
Realiza la actividad en plataforma:
¿Dónde continúo?
50
Sólo usa dos números decimales.
Media = ________
Mediana = ________
Moda = ________
Como recordarás, la mediana es el valor central de los datos ordenados y eso significa
que el 50% de los datos son menores o iguales que la mediana y el otro 50% son
mayores.
La mediana además de ser una medida de tendencia central, también es una medida de
posición porque tiene un valor específico en relación con el resto de los demás datos
ordenados. Las medidas de posición son los cuartiles, deciles y percentiles.
51
Para que comprendas mejor las medidas de posición, te invitamos a
ver la siguiente información de Gabriel Leandro, donde retomaremos
las medidas de tendencia central y también los cuartiles.
Medidas de posición
52
vamos a buscar también cual es el dato que más se repite, en este caso
entonces tenemos que la moda, este dato más frecuente, es de 2.15m.
Pero también tenemos otras medidas de posición central, una muy conocida se
llama: la mediana, para calcular la mediana tenemos que tener ordenado el
conjunto de datos de menor a mayor, la mediana es un valor tal que la mitad
de los datos son menores que la mediana, y la otra mitad de los datos son
mayores que la mediana, o sea que la mediana es un valor que nos divide el
conjunto de datos en dos, veamos que en este caso esta mediana es de 1.82,
tenemos que la mitad de los valores son inferiores a 1.82 y la otra mitad de los
datos son superiores a 1.82.
Veamos con nuestro conjunto de estaturas de basquetbolistas, lo primero que
tenemos que hacer para calcular la mediana, entonces, es ordenar el conjunto
de datos de menor a mayor, y entonces vamos a buscar un valor tal que la
mitad de los datos sean menores que ese valor y la otra mitad sean mayores.
Y observamos que ese valor tiene que estar entre 2.01m y 2.15m, en este
caso entonces lo que hacemos es sacar el punto medio entre 2.01 y 2.15, que
en este caso sería de 2.08, tenemos que la mitad de los datos son inferiores a
2.08 y la otra mitad de los datos son superiores a 2.08.
Ahora vamos a hablar de la más conocida de las medidas de posición central,
esta medida se llama la media o el promedio, y consiste simplemente en la
suma de todos los datos dividido entre el conjunto total de datos, entonces
vamos a sumar 1.83+1.73+1.75 hasta el último de los datos que es 2.01, esa
suma nos da 14.59, esto lo dividimos entre 8. Y eso nos va a dar el promedio
que en este caso es de 1.82, decimos que los jugadores de este conjunto
tienen una estatura promedio de 1.82m.
Hagamos el mismo cálculo pero con los jugadores de basquetbol, tenemos
entonces aquí nuestro conjunto que en este caso está compuesto por 6 datos
y vamos a calcular entonces la suma de 2.01+2.15+1.90+2.28+1.83+2.15=
12.32, lo cual lo dividimos entre 6, es decir, nos va a dar 2.05, la estatura
promedio de este conjunto de jugadores de basquetbol es de 2.05m.
Ahora, no todas las medidas de posición son medidas de posición central, hay
algunas que no son medidas de posición, para calcular estas medidas de
posición también tenemos que tener ordenado el conjunto de datos de menor
a mayor, entonces también vamos a mencionar una medida importante, se
refiere a los cuartiles, los cuartiles dividen el conjunto de datos en cuatro
partes, veamos que aquí este conjunto de datos que está ordenado de menor
a mayor lo hemos dividido en cuatro partes, entonces aquí vamos a tener el
primer valor que lo llamamos el primer cuartil, un segundo valor que es el
segundo cuartil que
53
observemos bien que coincide con la mediana, y un tercer valor que lo
llamamos el tercer cuartil.
Hablemos entonces del primer cuartil, partimos de nuestro conjunto de datos
ordenado de menor a mayor, y entonces como es un cuartil nos divide el
conjunto de datos en cuartas partes, el primer cuartil es un valor tal que la
cuarta parte de los datos son menores que este valor, y las restantes tres
cuartas partes de los datos son mayores, en este caso nosotros tenemos que
este primer cuartil va a ser 1.74, observemos que dos jugadores, o sea, la
cuarta parte total de los 8 jugadores que tenemos en este conjunto de datos
miden menos de 1.74 y las restantes tres cuartas partes miden más de 1.74m.
Ahora vamos a hablar del tercer cuartil, nuevamente tomamos nuestro
conjunto de jugadores y vamos a tener entonces un valor que tres cuartas
partes de los datos son menores que él y una cuarta parte de los datos son
mayores, observemos entonces la posición donde está el tercer cuartil 1.89
sería el tercer cuartil, tres cuartas partes de los datos miden menos de 1.89 y
una cuarta parte de los datos es mayor de 1.89m.
Entonces veamos que teníamos unos conjuntos de datos y el objetivo era
describir este conjunto de datos, en este caso hemos empleado medidas de
posición para describir este conjunto de datos, y entonces observemos que
para el conjunto de futbolistas y basquetbolistas hemos calculado su moda y
observamos que la moda de los basquetbolistas es mucho más alta que la de
los futbolistas, nos indicaría que los basquetbolistas tienen una estatura
mayor.
La mediana también, nos refuerza la misma conclusión de que lo
basquetbolistas tienen estaturas mayores, lo mismo observamos con el
promedio e igualmente tenemos el primer cuartil y el tercer cuartil, podemos
observar en este caso que el primer cuartil de los basquetbolistas es mayor
que el tercer cuartil que los futbolistas, lo cual nos refuerza la tendencia de
que la mayoría de los basquetbolistas tienen estaturas más altas que la de los
futbolistas.
54
Como pudiste apreciar en la información, cada cuartil representa una cuarta parte del
total de datos que tenemos, por lo que representan los siguientes porcentajes:
7 Q1
10 Primer cuartil
11 = 25% de la
11 muestra
12 Q2
12 Segundo cuartil
12
= 50% de
13
la
muestra
13
Q3
14
Tercer cuartil
14
= 75% de
15
la
15 muestra
15
15
15
16
16
16
16
16
17
17
17
17
17
18
18
18
18
19
19
19
20
23
23
24
25
25
32
5
5
Ahora que ya sabes cómo calcular los cuartiles vamos a interpretarlos. En nuestra
muestra de la edad a la que empezaron a fumar, tenemos los siguientes cuartiles:
Q1= 14 años.
Significa que 25% de los encuestados empezaron
a fumar antes de los 14 años, por lo tanto, el 75%
restante empezó a fumar después de los 14 años.
Q2= 16 años.
Significa que 50% de los encuestados empezaron
a fumar antes de los 16 años, y el otro 50%
empezó después de esa edad.
Q3= 18 años.
Significa que 75% de los encuestados empezó a
fumar antes de los 18 años, por lo tanto, el 25%
restante empezó a fumar después de los 18 años,
ya siendo mayores de edad.
Esto puede parecer alarmante, pues la mayoría empieza a fumar antes de ser mayor de
edad, y si calculamos de desviación estándar vemos que es de 5.4 años, lo cual
muestra una variabilidad grande, porque hay quien empezó a fumar muy chico o ya
siendo adulto.
Por eso ahora pondremos atención en la parte central de la muestra, esto es las dos
cuartas partes de en medio, que es el Rango intercuartil y abarca desde el primer
cuartil y hasta el tercer cuartil. El Rango intercuartil es importante porque se refiere a la
parte central de la muestra, quitando las respuestas extremas.
56
7
10
11
11
12
12 ¿Y esto se puede representar en una gráfica?
12 ¡Por supuesto!
13 Para eso se utiliza la gráfica de ojiva
13
14 ascendente,
14 que es como ésta:
15
15
15
15
15
16
16
16
16
16
17
17
17
17
17
18
18
18
18
19
19
19
20
23
23
24
25
25
32
5
7
Aprendamos cómo hacer la gráfica de ojiva creciente con
una tabla de frecuencias simples
Gráficas de Ojiva
58
daría 10, puedo hacerlo de manera manual o también lo jalo para que ya me
dé todas las frecuencias relativas acumuladas.
Observa que la última frecuencia relativa acumulada siempre debe dar el
100%, porque nos da el total de la frecuencia relativa, un vez que ya tenemos
completa la columna de la frecuencia relativa acumulada vamos a graficar.
Vamos a seleccionar todos los datos de nuestra cuarta columna y en el menú
superior vamos a buscar los tipos de gráfica, ya sea que le des insertar y
después graficar, o como en este caso que nos aparecen los gráficos,
seleccionamos la gráfica de línea, y automáticamente tendremos nuestra
gráfica.
Podemos darle el formato que queramos si elegimos de los diseños que se
sugiere, aquí en la parte superior tenemos, podemos ir probando, observa que
esta nos da espacio para poner el título de los ejes, aquí nos dan los valores de
cada uno de los puntos, podemos observar varias, me voy a quedar con la de
los ejes porque es importante.
Entonces nuestro eje horizontal es la edad y nuestro eje vertical es la
frecuencia. ¡Listo! Le voy a quitar este para que se vea mejor la gráfica, y ya
tengo mi gráfica. Observa que por default el inicio del eje horizontal nos da el
1, pero en nuestros datos la primera edad no es un 1, sino es un 7, entonces lo
que vamos a hacer para modificar el eje, damos clic derecho colocando
nuestro mouse sobre el eje horizontal y vamos a buscar donde dice seleccionar
datos, se abre un cuadro de diálogo y donde dice categoría de etiqueta de ejes
de la categoría x nos colocamos ahí y seleccionamos los datos que queremos
que aparezcan, decimos aceptar y listo.
Ahora sí tenemos que empieza de los 7 años a los 31, tal como tenemos en
nuestra tabla de datos, ahora sí quedó lista nuestra gráfica de ojiva. Es tu
turno: te invito a realizar tu gráfica y compararla con la de la plataforma.
D1 D2 D3 D4 D5 D6 D7 D8 D9 D10
10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
59
Hagamos un ejemplo: si queremos saber a qué edad empezó a fumar el 40% de la población
estaríamos hablando del cuarto decil, por lo que podemos calcularlo con la regla de 3:
100%40
----------datos
40% ---------- X
Y tendremos:
Recuerda que el cálculo da una posición, por lo que después de tener la posición debes
buscar en los datos ordenados previamente cuál es el valor que ocupa esa posición.
Veamos en la tabla qué dato ocupa el lugar 16
60
6
1
1. Ahora calcula el D6 y el
D2 D6= __________
2. Esto significa que el ______% de los encuestados empezaron a fumar antes
de los ______ años.
3. D2= __________
4. Esto significa que el ______% de los encuestados empezaron a fumar antes
de los ______ años.
¿Y qué pasa si quiero saber a qué edad empezó a fumar el 43% de la población?
Entonces calculemos los percentiles.
Por lo tanto, el primer percentil (p1) muestra el valor por debajo del cual se encuentra el
1% de los datos.
62
La imagen muestra el percentil 80, esto es, el valor por debajo del
cual se encuentra el 80% de los datos.
Hagamos un ejemplo:
1500 1700 1750 1800 1810 2000 2012 2025 2025 2030
2038 2040 2040 2087 2110 2110 2150 2200 2236 2250
63
Por lo tanto el lugar 7 lo ocupa el dato 2012,
esto quiere decir que el 33% de los
trabajadores gana menos de $2012
Ahora calcula cuánto gana el 17% redondeando la cifra que obtengas. Recuerda que
menos de 0.5 se redondea al dígito anterior y 0.5 o más se redondea al dígito superior.
(escribe la cifra sin signo de pesos, y sin puntos decimales)
P17= _______
Esto significa que el _______% de los trabajadores gana menos de _______ pesos
Para aplicar la regla de 3 primero cuenta cuántos datos hay antes del dato que quieres,
en este caso, antes de 2100 y sustituye en la regla de 3 como sigue:
100 ----------
% 20
K 14
----------
64
Por lo tanto 70% de los trabajadores ganan
menos de 2100 pesos.
¡Es tu turno! Calcula qué porcentaje de trabajadores gana menos de 2000 pesos.
Pk= _______ %
Por lo tanto _______% de los trabajadores ganan menos de _______ pesos.
Las siguientes son horas extra semanales que laboraron algunos empleados de oficina:
5 6 6 7 7 8 9 10 10 11 15 15
65
El 50% de los empleados trabaja más de _______hrs. extras a la semana.
66
Actividad integradora
Ahora que terminamos la unidad, puedes entregar a tu asesor el análisis estadístico que
has venido realizando. Recuerda entregarlo en un archivo de Excel y que contenga el
análisis de los reactivos relacionados con tu hipótesis de investigación.
Media
Mediana
Moda
Rango intercuartil
67
Realiza la actividad en plataforma:
Análisis estadístico
68
Dónde se aplica la estadística descriptiva
69
Como puedes apreciar, el artículo tiene otros indicadores estadísticos además
de los que se revisan en esta unidad, pero nosotros nos centraremos en los
que estudiamos. ¡Vamos a practicar lo aprendido!
a. 46 hombres y 12 mujeres
b. 22 hombres y 36 mujeres
c. 31 hombres y 27 mujeres
d. 32 hombres y 26 mujeres
3. Respecto de los hijos que tienen los participantes se puede decir que:
a. Falso
b. Verdadero
5. Los varones tienen una realización más baja que las mujeres
a. Verdadero
b. Falso
Burnout a. Falso
70
b. Verdadero
7. En todos los aspectos hay mayor variabilidad para las mujeres que para
los varones.
a. Verdadero
b. Falso
Respuestas: c, d, a, b, a, b, a, b
71
Tomada para fines educativos de:
http://www.socialpolit.com.br/wp-content/uploads/2016/07/cropped-area_marketing.png
Este texto es interesante porque revela hábitos de los mexicanos sobre el uso de redes
sociales. Muchos artículos, como éste que acabas de leer se basa en medidas estadísticas,
aunque no las menciona por su nombre técnico, sino por otro más coloquial. Vamos a ver si
identificaste dónde retomó los indicadores estadísticos
a. X = 9 hrs.
b. X = 10 hrs.
c. X = 11 hrs.
d. X = 6 hrs.
a. Decil 9
b. 90%
c. 10%
d. Decil 10
Respuestas: d, a
72
Finalmente, si te interesa conocer un poco sobre la aplicación de la
estadística, te invitamos a ver la:
Aquí encontrarás diferentes tipos de gráficos. Observa que en todos ellos se emplean
las frecuencias relativas, es decir, porcentajes, debido a que la población encuestada
es muy grande.
Comentarios:
_________________________________________________________________________
_________________________________________________________________________
_________________________________________________________________________
_________________________________________________________________________
__________________________________________
73
Referencias
74