Ing.
En Innovación agrícola sustentable
Estadística
M.C. Yolanda Ruíz Suárez
Semestre Febrero-Julio 2023
ESTADÍSTICA DESCRIPTIVA
Unidad 2
Competencias de la unidad
• Específica(s): Diferencía los fundamentos sobre medidas de tendencia
central y dispersión para datos agrupados y no agrupados, ser capaz de la
Organización y presentación de datos.
• Genéricas: Organiza sesiones grupales de discusión de conceptos.
Promueve la investigación. Relaciona los contenidos de esta asignatura
con las demás del plan de estudios para desarrollar una visión
interdisciplinaria en el estudiante.
Temario
2.1. Introducción. 2.3.1. Desviación media.
2.2. Medidas de tendencia central 2.3.2. Varianza.
para datos agrupados y no agrupados. 2.3.3. Desviación estándar.
2.2.1. Media. 2.3.4. Coeficiente de variación.
2.2.2. Mediana. 2.3.5. Rango.
2.2.3. Moda. 2.4. Organización y presentación de
2.2.4. Cuartiles y percentiles. datos.
2.3. Medidas de dispersión para datos
agrupados y no agrupados.
Criterios de evaluación
Actividad Ponderación Fecha de entrega
(%)
a) Resolución de serie de ejercicios 30 10 de marzo
Periódicamente durante la
b) Tareas 30
unidad
c) Examen escrito 40 10 de marzo
2.1
INTRODUCCIÓN
Describe, analiza y
representa un grupo de
Descriptiva datos utilizando métodos
numéricos y gráficos que
resumen y presentan la
información contenida en
ellos
.
Estadística Apoyándose en el cálculo
de probabilidades y a partir
de datos de muestras,
efectúa estimaciones,
Inferencial decisiones, predicciones u
otras generalizaciones sobre
un conjunto mayor de
datos.
Dato
• Valor particular de la variable
• Se dividen en discretos o continuos.
Distribución de frecuencias
El primer paso para el estudio estadístico de una muestra es
su ordenación y presentación en una tabla de frecuencias.
Una distribución de frecuencia es una tabla resumen en la
que se disponen los datos divididos en grupos ordenados
numéricamente y que se denominan clases o categorías.
A) Tabulación de datos cualitativos
La construcción de una distribución de frecuencia de atributos o distribución
de frecuencia de variable cualitativa es simple, basta enumerar los diversos
atributos con su respectiva frecuencia de ocurrencia.
Frecuencia absoluta ( fi ): indica el número de veces que se repite un
atributo.
Ejemplo
B) Tabulación de variable cuantitativa
Tabulación de variable discreta (que toma un conjunto pequeño de
datos distintos)
Las tablas de frecuencia de variable discreta llevan cinco columnas donde
los elementos que participan son los siguientes:
Ejemplo
Solución
2) Tabulación de variable continua o discreta
• Para tabular una variable continua o discreta (que tome un
gran número de datos distintos) se necesitan los siguientes
elementos:
Ejemplo
Representaciones gráficas
Las representaciones gráficas de los datos ofrecen una idea más
intuitiva y más fácil de interpretar de un conjunto de datos
sometidos a investigación.
Por ello las representaciones gráficas se convierten en un medio
muy eficaz para el análisis ya que las regularidades se recuerdan
con más facilidad cuando se observan gráficamente.
Representaciones gráficas para datos sin agrupar
• Diagrama de barras: representa frecuencias sin acumular.
Estos gráficos son válidos para datos cuantitativos (de tipo
discreto) y cualitativos. En el eje ‘y’ se pueden representar
tanto las frecuencias absolutas como relativas.
• Diagrama de escalera: representa frecuencias acumuladas de
un conjunto de datos. Este gráfico puede representar tanto las
frecuencias absolutas como relativas.
Representaciones gráficas para datos
agrupados
Histograma: representa frecuencias sin acumular.
• Es el gráfico adecuado cuando los datos están ordenados en tablas con
intervalos, es decir, para datos de variables continuas.
• También el histograma es una conformación de rectángulos, pero uno al
lado de otro cuya área es proporcional a la frecuencia de cada intervalo.
• Los extremos de la base de cada rectángulo son los límites reales del
intervalo.
• Polígono de frecuencia: este gráfico sirve para mostrar la tendencia
de la variable, se puede determinar a partir de un histograma uniendo los
puntos medios superiores de cada rectángulo del histograma. También, se
determina el polígono uniendo los puntos formado por la marca de clase
con la frecuencia absoluta del intervalo respectivo.
• Ojiva: es un gráfico que se usa para mostrar como se acumulan las
frecuencias absolutas, relativas o porcentuales. Se obtiene al unir los
puntos formados por los límites superiores de cada intervalo con la
frecuencia absoluta o relativas acumuladas del intervalo respectivo. Si se
consideran las frecuencias porcentuales acumuladas se llama ojiva
porcentual.
Tarea 1
• Realizar la distribución de frecuencias y
representaciones gráficas de los ejercicios 1 y
2 de la serie de ejercicios.
2.2. Medidas de tendencia central para datos agrupados y no
agrupados.
En todo análisis y/o interpretación se pueden utilizar diversas
medidas descriptivas que representan las propiedades de
tendencia central, dispersión y forma para extraer y resumir las
principales características de los datos. Si se calculan a partir de
una muestra de datos, se les denomina estadísticos; si se les
calcula a partir de una población se les denomina parámetros.
Medidas de tendencia central
La mayor parte de los conjuntos de datos muestran una tendencia a agruparse
alrededor de un punto "central" y por lo general es posible elegir algún valor
que describa todo un conjunto de datos. Un valor típico descriptivo como ese
es una medida de tendencia central o "posición". Las medidas de tendencia
central a estudiar son:
• Media aritmética y ponderada
• Mediana
• Moda
• Cuartiles y percentiles
MEDIA
Es la medida de tendencia central que se utiliza con
mayor frecuencia.
• Se calcula sumando todas las observaciones de un
conjunto de datos, dividiendo después ese total
entre el número total de elementos involucrados.
Ejemplo
Calcular la media aritmética de los siguientes datos relacionados
con las notas de test en Estadística obtenidas por un cierto
alumno:
Media aritmética
a) Para datos no agrupados:
Media para frecuencias simples (Tablas sin intervalos)
Para calcular la media, debe añadirse una columna fx a la tabla original en la que se
registren los resultados correspondientes al producto de la frecuencia por su valor
nominal (fx).
Ejemplo
• Las calificaciones de Matemáticas de los grupos “A” y “B” se muestran en
la siguiente tabla. Calcular el promedio (la media) obtenido por esos
grupos.
En excel
Ejercicio 1
Los precios de los 97 artículos que se venden en una tienda están señalados
en la tabla de la derecha. Calcular el precio promedio (la media) que existe en
dicha tienda.
Media aritmética
b) Para tablas con intervalos
Ejemplo
Calcular la media de los valores agrupados en intervalos de la
tabla de la derecha.
Ejercicio
• Calcular la media aritmética para el peso de 40 trabajadores,
según la siguiente tabla.
Ejercicio
• Calcule las medias aritméticas de los valores
contenidos en los ejercicios de la unidad 1
Media ponderada
Una media ponderada ( Xw) es una media o promedio de
cantidades a las que se ha asignado una serie de coeficientes,
llamados pesos, para tener en cuenta adecuadamente su
importancia relativa.
Ejemplo
En la clase de Probabilidad y Estadística, para determinar la nota que un alumno obtendrá en el
curso se asignan pesos de importancia, de la siguiente forma: Unidad I (20% del curso), Unidad II
(35% del curso), Unidad III (20% del curso), Unidad IV (15% de la calificación), Unidad V (20% de la
calificación). Si las calificaciones de un alumno son 80 en la primera unidad, 50 en la segunda, 80
en la tercera unidad, 100 en la cuarta unidad y 80 en la última unidad, obtiene la siguiente tabla:
EJERCICIO
Para la calificación final de una asignatura, se tendrán en cuenta:
1. Nota del examen final: 70%
2. Trabajos y ejercicios: 20%
3. Asistencia: 10%
Un alumno que tuvo un “6” en el examen final; un “7” en trabajos; y, asistió
todos los días a clase, por lo tanto tuvo un “10” en asistencia, ¿cuál es su nota
final?
Moda
• La moda es la medida de tendencia central que se
define como aquel valor nominal que tiene la
frecuencia mayor.
• Por lo tanto, una distribución de frecuencias puede
tener más de una moda o, inclusive, no tener moda
cuando todos los datos tienen frecuencia 1.
Moda para datos en tablas de frecuencias simples
Cuando los datos recolectados han sido organizados en una tabla
de frecuencias simples, la moda se obtiene buscando en la
columna de frecuencias el o los valores que tengan mayor
frecuencia.
La moda se simboliza con sus dos primeras iniciales: Mo
Ejemplos
• En las siguientes tablas identifique la moda.
Cálculo de la moda para datos en tablas con intervalos
Existe más de una forma de calcular la moda:
Ejemplo
Ejercicios
Mediana
Se define como aquel valor nominal que tiene, dentro de un
conjunto de datos ordenados, arriba y abajo de él, el mismo
número de datos nominales.
En otras palabras, es el dato que está a la mitad, es el dato que
divide en dos partes iguales a un conjunto de datos.
La mediana se simboliza con las letras: Mdn
Por ejemplo, del conjunto 3, 3, 3, 4, 5, 5, 5, 5, 5, 6, 6, 7, 8, 9, 9 el
cinco remarcado en negrita y subrayado es el que está a la mitad
del conjunto ordenado, ya que antes de él existen 7 datos y
después de él también.
Cálculo de la mediana en una tabla de
frecuencias
• Para facilitar la localización de la mediana en una tabla, conviene agregarle
una columna en la que se anoten las frecuencias acumuladas fa. Entonces,
el número total de datos recolectados más uno, dividido entre dos da el
dato central dc:
• Ese resultado se busca en la columna de las frecuencias acumuladas y al
dato nominal que le corresponda, es la mediana.
La mediana para distribución en
frecuencias simples
• Cuando los datos recolectados han sido organizados en una
tabla de frecuencias simples, la mediana se obtiene buscando
en la columna de frecuencias acumuladas el valor que esté
situado exactamente a la mitad, conforme a la fórmula
anterior.
• El valor nominal de dicha frecuencia acumulada será la
mediana.
Ejemplo 1: Mediana para frecuencias simples
La tabla corresponde a las calificaciones de 117 alumnos.
Mdn = 8
Ejemplo 2: Mediana para frecuencias simples
• Localizar la mediana del conjunto de datos mostrado en la siguiente tabla.
Significa que tanto el dato ordinal 287
como el 288 (el que ocupa en orden el
lugar 287 y el 288) son los que están
situados a la mitad de todos.
Mdn = 48
Ejemplo 3: Mediana para frecuencias simples
• Las edades de un grupo de 28 personas
van de los 45 a los 58 años, mostrado ya
organizado en la siguiente tabla.
Localizar la mediana de dicho conjunto
de datos.
Que significa que tanto el dato ordinal 14
(décimo cuarto) como el 15 (décimo
quinto) son los que están situados a la
mitad de todos. Mdn = 49.5
La mediana para frecuencias por intervalos o
agrupadas
Cuando los datos recolectados han sido organizados en una tabla
de frecuencias por intervalos, la mediana podría considerarse el
punto medio del intervalo en donde se localiza el valor central
de las todas frecuencias; sin embargo, se acostumbra más bien
localizar con exactitud un punto dentro de ese intervalo que sea
el más representativo., por lo que la mediana se obtiene por
medio de una fórmula.
Cálculo de la mediana en frecuencias
agrupadas en intervalos
1. Para utilizar la fórmula mencionada debe añadirse primero a la tabla
original una columna de frecuencias acumuladas.
2. Se localiza el intervalo de la mediana o “clase de la mediana”. Para ello se
procede igual que para datos no agrupados.
3. Se calcula el valor de la mediana con la siguiente fórmula y el resultado
que se obtiene es un valor que se encuentra dentro de la clase de la
mediana.
Fórmula
Ejemplo 1: Mediana para frecuencias
agrupadas
• Localizar la mediana del conjunto de datos organizados en intervalos,
mostrado en la siguiente tabla.
Esto significa que dentro del intervalo 181 - 210
está el dato ordinal número 25, que es el
central. Por lo tanto, la clase de la mediana es
181 - 210.
Ejemplo 2: Mediana para frecuencias
agrupadas
• Localizar la mediana del conjunto de datos organizados en
intervalos, mostrado en la siguiente tabla.
Ejercicio 1: Mediana para frecuencias
agrupadas
• Localizar la mediana del conjunto de datos organizados en
intervalos, mostrado en la siguiente tabla.
Ejercicio 1
Probl.
Ejercicio 2
• La oficina de Censo, proporcionó las edades de hombres y mujeres
divorciados ( en miles de personas de 15 años de edad o más ).
Obtener las medidas de tendencia central
Est y prob
2.2.4
CUARTILES Y PERCENTILES
Cuartiles y percentiles
• Si un conjunto de datos se ordena de acuerdo con su magnitud, el valor
central que divide al conjunto de datos en dos partes iguales es la
mediana.
• Los valores que dividen al conjunto en 4 partes iguales se llaman cuartiles,
y se denotan por , y denominados primero, segundo y tercer cuartiles.
Donde es igual a la mediana.
• Los valores que dividen a los datos en 100 partes iguales se conocen como
percentiles y se indican como , , …, .
• Los percentiles 25º y 75º corresponden al primero y tercer cuartiles
respectivamente.
Pasos para calcular cuartiles y percentiles
1. Calcular el número de datos a considerar (utilizando la siguientes
fórmulas), donde N es el número de datos y X es el percentil que se
desea calcular.
Cuartil o Fórmula
percentil
Q1 N/4
Q2 2N/4
Q3 3N/4
P1 N/100
P2 2N/100
PX XN/100
Pasos para calcular cuartiles y percentiles
1. Calcular el número de datos (dt) a considerar en el cuartil X (Qx), o percentil X (Px), siendo X el
número del cuartil o percentil a calcular.
2. Seleccionar en la columna de frecuencias acumuladas (Fa) el número mas cercano al número de datos
(dt) calculado anteriormente (sin pasarse).
3. Determinar el número de datos faltantes (df), restando al número de datos (dt) (paso 1) el número de
datos mas cercano en Fa (paso 2). df=dt-Fa
4. Identificar el Límite superior (Ls) del intervalo donde se encuentra la Fa mas cercana.
5. Identificar la frecuencia absoluta del intervalo siguiente a donde se encuentra la Fa mas cercana (fa).
6. Identificar la amplitud del intervalo (diferencia entre dos límites inferiores consecutivos) (a).
7. Sustituir los datos en la siguiente fórmula
Ejemplo pag. 80. Libro Estadística de Murray.
• Encuentre:
a) Los cuartiles Q1, Q2 y Q3
b) El percentil 35° (P35) y 60°(P60)
Para los salarios de los 65 empleados de la empresa P&R que se muestran en la
tabla siguiente:
Salarios ($) Número de Fa
empleados
(fa)
250-259.99 8
260-269.99 10
270-279.99 16
280-289.99 14
290-299.99 10
300-309.99 5
310-319.99 2
Total: 65
Ejemplo pag. 80. Libro Estadística de Murray.
• Encuentre:
a) Los cuartiles Q1, Q2 y Q3
b) El percentil 35° (P35) y 60°(P60)
Para los salarios de los 65 empleados de la empresa P&R que se muestran en la
tabla siguiente:
Salarios ($) Número de Fa
empleados
(fa)
250-259.99 8
260-269.99 10
270-279.99 16
280-289.99 14
290-299.99 10
300-309.99 5
310-319.99 2
Total: 65
Tarea
• Calcular el cuartil 3 (Q3) y percentil 80 (P80) del
ejercicio 3 de la serie.
3.1
MEDIDAS DE DISPERSIÓN PARA UN CONJUNTO
DE DATOS Y DATOS AGRUPADOS.
Las medidas de centralización vistas anteriormente reducen la
información recogida de la muestra a un solo valor. Sin embargo,
dicho valor central, o medio, será más o menos representativo
de los valores de la muestra dependiendo de la dispersión que
las medidas individuales tengan respecto a dicho centro.
Medidas de dispersión
• Analizan la representatividad de las medidas de centralización.
• Indican la variabilidad de los datos en torno a su valor promedio,
es decir si se encuentran muy o poco esparcidos en torno a su
centro.
• Las medidas de dispersión a estudiar son:
– Rango
– Desviación media
– Varianza
– Desviación estándar.
Rango
• Indica el número de valores que toma la variable.
• El rango es la diferencia entre el valor máximo y el valor mínimo de un
conjunto de datos.
• El rango mide "la dispersión total" del conjunto de datos. Aunque el rango
es una medida de dispersión simple y que se calcula con facilidad, su
debilidad preponderante es que no toma en consideración la forma en que
se distribuyen los datos entre los valores más pequeños y los más grandes.
Ejemplo
Ejercicio 1: Rango
En una industria dos operarios en siete días de trabajo, son
capaces de producir, por día, y en forma individual la siguiente
cantidad de árboles para fresa de 25 cm de longitud por 30 cm
de diámetro.
• Determine la dispersión total de los datos, es decir: Rango del
operario A y del operario B e interprete los resultados.
Desviación media
• Es el promedio de los valores absolutos de las
desviaciones de todos los datos respecto a la
media aritmética.
• Su símbolo es DM
Desviación media
a) Para datos no agrupados:
Ejemplo
Ejercicio 2: Desviación media para datos no agrupados
Las notas de un estudiante en sus certámenes han sido 84, 91,
72, 68, 87 y 78. Hallar la desviación media de los datos e
interpretar el resultado.
Desviación media
b) Para datos agrupados (con o sin intervalos):
Ejemplo
• Determine la desviación media de los siguientes datos
agrupados :
Ejercicio 3: desviación media para datos agrupados
Se hace una encuesta entre 100 personas acerca del número de
horas diarias que se dedican a ver televisión, obteniéndose la
siguiente información :
Calcular la desviación media de los datos e interpretar los
resultados.
Varianza
• La varianza se define como el promedio de las diferencias
entre cada uno de los valores del conjunto de datos y la media
aritmética del conjunto elevadas al cuadrado.
• Su símbolo es S2 si estamos trabajando con una muestra y σ2
si estamos trabajando con una población.
Varianza
b) Para datos no agrupados
Ejemplo
• Determine la varianza del siguiente conjunto de datos:
Ejercicio 4: Varianza para datos no agrupados
En una industria dos operarios en siete días de trabajo, son
capaces de producir, por día, y en forma individual la siguiente
cantidad de árboles para fresa de 25 cm de longitud por 30 cm
de diámetro.
• Determine la varianza de ambos operarios e interprete los
resultados.
Varianza
b) Para datos agrupados (con o sin intervalos)
Ejemplo
• Considere la tabla con los datos de los edades de 26 personas.
Desviación típica o estándar
• Es la raíz cuadrada positiva de la Varianza.
• Su símbolo es S si se está trabajando con una muestra
y es σ si se está trabajando con una población.
• Su interpretación es " en promedio los valores se
alejan de la media en ..... unidades"
Desviación típica o estándar
a) Para datos no agrupados
Ejemplo
Interpretación: en promedio los valores se alejan de la media en 6.26
unidades
Esto indica que la mayor parte de los datos de esta muestra se agrupan dentro
de 6.26 unidades por encima y por debajo de la media aritmética, es decir,
entre 20 -6.26= 13.74 y 20+6.26= 26.26
Ejercicio 5 : varianza y desviación típica o estándar
para datos no agrupados
• El gerente de una empresa de alimentos desea saber que tanto varían los
pesos de los empaques (en gramos), de uno de sus productos; por lo que
opta por seleccionar al azar cinco unidades de ellos para pesarlos. Los
productos tienen los siguientes pesos (490, 500, 510, 515 y 520) gramos
respectivamente. Calcule el peso promedio de los empaques, la varianza y
la desviación estándar de dichos datos.
el peso promedio de los empaques es de 507 gramos, con una
tendencia a variar por debajo o por encima de dicho peso en 12
gramos. Esta información le permite al gerente determinar cuanto
es el promedio de pérdidas causado por el exceso de peso en los
empaques y le da las bases para tomar los correctivos necesarios
en el proceso de empacado.
Desviación típica o estándar
a) Para datos agrupados en intervalos o sin
intervalos
Ejemplo
Interpretación: en promedio los valores se alejan de la media en 7.18
años
Ejercicio 6: varianza y desviación estándar para datos
agrupados
La siguiente tabla corresponde a la estatura de 80 estudiantes de una
determinada carrera:
Hallar varianza y desviación estándar de la estatura e interpretar los resultados
3.2
COEFICIENTE DE VARIACIÓN
(DE PEARSON)
Coeficiente de Variación (CV)
• En estadística el coeficiente de variación (de Pearson), es una medida de
dispersión útil para comparar dispersiones a escalas distintas pues es una
medida invariante ante cambios de escala.
• Sirve para comparar variables que están a distintas escalas pero que están
correlacionadas estadísticamente y sustantivamente con un factor en común.
• Su fórmula expresa la desviación estándar como porcentaje de la media
aritmética, mostrando una mejor interpretación porcentual del grado de
variabilidad que la desviación típica o estándar.
Fórmula del CV
Donde:
• S= Desviación estándar
• = Media aritmética
Una serie de valores será más dispersa que otra mientras su CV sea
mayor.
Ejemplo
• Se pretende comparar el desempeño en ventas de 3 vendedores. Los
resultados siguientes dan los promedios de puntajes obtenidos en los
cinco años pasados por la concreción de los objetivos.
Ejercicio 7
• Determina el coeficiente de variación del ejercicio 5 y 6.
Tarea 5
• Calcula las medidas de dispersión para tu
proyecto.
3.3
COEFICIENTE DE ASIMETRÍA DE PEARSON
Asimetría o sesgo
• Evalúa el grado de distorsión o inclinación que
adopta la distribución de los datos respecto a su
valor promedio tomado como centro de gravedad.
• Sesgo es el grado de asimetría de una distribución,
es decir, cuánto se aparta de la simetría.
Tipos de asimetría
1) Simétrica. Se da cuando en una
distribución se distribuyen aproximadamente
la misma cantidad de los datos a ambos lados
de la media aritmética. No tiene
alargamiento o sesgo. Se representa por una
curva normal en forma de campana llamada
campana de Gauss (matemático Alemán
1777-1855) o también conocida como de
Laplace (1749-1827).También se dice que una
distribución es simétrica cuando su media
aritmética, su mediana y su moda son
iguales, en símbolos
2) Asimetría negativa o a la izquierda
• Se da cuando en una distribución la minoría
de los datos está en la parte izquierda de la
media. Este tipo de distribución presenta un
alargamiento o sesgo hacia la izquierda.
• La distribución de los datos tiene a la
izquierda una cola más larga que a la
derecha.
• El valor de la media aritmética es menor que
la mediana y éste valor de la mediana a su
vez es menor que la moda, en símbolos
3) Asimetría Positiva o a la Derecha
• Se da cuando en una distribución la
minoría de los datos está en la parte
derecha de la media aritmética.
• La distribución de los datos tiene a la
derecha una cola más larga que a la
izquierda.
• El valor de la media aritmética es mayor
que la mediana y éste a valor de la
mediana a su vez es mayor que la moda.
Coeficiente de asimetría de Pearson
• Evalúa el grado de distorsión o inclinación que adopta la
distribución de los datos respecto a su valor promedio.
Interpretación del As
El Coeficiente de Pearson varía entre -3 y 3
• Si As < 0 → la distribución será asimétrica negativa.
• Si As = 0 → la distribución será simétrica.
• Si As > 0 → la distribución será asimétrica positiva.
Ejemplo
• Calcular el Coeficiente de Pearson, dada la siguiente
distribución: 6, 9, 9, 12, 12, 12, 15 y 17 .
Ejercicio 8
• Determina el coeficiente de Asimetría de
Pearson del ejercicio 5 y 6.
GRACIAS POR SU
ATENCIÓN