Estadística Descriptiva
Como se ha desarrollado en clase, esta parte de la Estadística se caracteriza por
la recolección de datos, agrupación, presentación, análisis e interpretación de
datos obtenidos de una población o muestra.
Se han estudiado los siguientes aspectos:
Métodos Estadísticos. (visto)
Medidas de Tendencia Central. (visto)
Medidas de Posición. (explicado)
Medidas de Dispersión. (explicado)
Medidas de Forma. (explicado)
Medidas de Posición
Las medidas de posición son medidas estadísticas que dividen la distribución de
los datos en partes iguales y describen la posición que tiene un dato dentro de
una distribución, una vez que se ordena de forma creciente. Estudiaremos los
Percentiles, Deciles y Cuartiles.
Percentiles: Son Cuantiles que dividen la distribución en 100 partes iguales y nos
dan la situación de los datos según el lugar que ocupan en tanto por ciento
Deciles: Son los cuantiles que dividen una distribución en 10 tantos a intervalos,
por lo que se tienen nueve puntos de división, los deciles, que originan los 10
intervalos.
Cuartiles: Son los puntos que dividen a una distribución de valores en cuatro
porciones iguales o intervalos. Se representan por Q1, Q2, Q3 y se ilustran en el
esquema siguiente:
La ojiva de Galton (el polígono de frecuencias relativas acumuladas) puede
utilizarse en un análisis exploratorio, para ubicar cualquier cuantil (cuartiles,
deciles, centiles o la mediana) en una distribución dada.
Ejemplo 1
En el caso de las siguientes ojivas se encuentra:
a) El centil de la puntuación 49.5.
b) La puntuación correspondiente a D6 o C60.
c) La mediana.
a) b) c)
Para realizarlos con fórmulas tenemos las dos opciones, para datos no
agrupados y agrupados
Datos sin agrupar
Se ordenan los datos de forma creciente. Seguidamente calculamos
𝑘𝑛 𝑘𝑛 𝑘𝑛
𝐶𝑘 = 𝐷𝑘 = 𝑄𝑘 =
100 10 4
para determinar la posición del percentil, decil y cuartil. Para hallar el valor
buscamos en la columna de frecuencia acumulada, en qué elemento se ubican
por lo menos 𝐶𝑘 𝐷𝑘 𝑄𝑘 datos.
Datos agrupados.
El percentil será hallado mediante la siguiente fórmula:
𝑘𝑛
− 𝐹𝑖−1
𝑄𝑘 = 𝐿𝑖 + 𝐴 ( 4 )
𝐹𝑖 − 𝐹𝑖−1
𝑘𝑛
− 𝐹𝑖−1
𝐷𝑘 = 𝐿𝑖 + 𝐴 (10 )
𝐹𝑖 − 𝐹𝑖−1
𝑘𝑛
− 𝐹𝑖−1
𝐶𝑘 = 𝐿𝑖 + 𝐴 (100 )
𝐹𝑖 − 𝐹𝑖−1
k.n = indica la posición donde está ubicado el percentil.
𝐿𝑖 = límite inferior real de la clase donde está ubicado el percentil
𝐹𝑖−1 = frecuencia acumulada de la clase anterior de donde está ubicado el
percentil.
𝐹𝑖 = frecuencia absoluta de la clase donde está ubicado el percentil.
A = amplitud real del intervalo.
Ejemplo 2:
Ejemplo: Los siguientes datos corresponden a los sueldos semanales (en miles
de pesos) de 80 bioanalistas del Laboratorio X.
Sueldo semanal (en miles de pesos) de 80 bioanalistas del Laboratorio X
Xi Fi Fi
100 6 6
105 10 16
115 25 41
120 18 59
123 12 71
135 7 78
220 2 80
• Calcule P 60
𝑘𝑛 60 ∗ 80
𝐶𝑘 = = 𝐶𝑘 = = 48
100 100
La posición de este percentil es 48
De esta forma en la columna de la frecuencia acumulada buscamos el dato que
por lo menos tenga 48 y el más cercano es 59.
Entonces 𝑃60 = 120
• Calcule Q3
𝑘𝑛 3 ∗ 80
𝑄𝑘 = = 𝑄3 = = 60
4 4
La posición de este cuartil es 60
De esta forma en la columna de la frecuencia acumulada buscamos el dato que
por lo menos tenga 60 y el más cercano es 71
Entonces 𝑄3 =123
• Calcule D9
𝑘𝑛 9 ∗ 80
𝐷𝑘 = = 𝐷9 = = 72
4 10
La posición de este decil es 72
De esta forma en la columna de la frecuencia acumulada buscamos el dato que
por lo menos tenga 72 y el más cercano es 78
Entonces 𝐷9 =135
Ejemplo 3: Siguiendo con los datos de las estaturas de 50 estudiantes de la
facultad MVZ
• Calcule P66
𝑘𝑛 66 ∗ 50
𝐶𝑘 = 𝑃𝑘 = = 𝑃66 = = 33
100 100
La posición de este percentil es 33
De esta forma en la columna de la frecuencia acumulada buscamos el dato que
por lo menos tenga 33 y el más cercano es 37
33−28
𝐶𝑘 = 1,60 + 0,03 (37−28 )= 1,62
Entonces 𝑃66 =1,62m
• Calcule Q1
𝑘𝑛 1 ∗ 50
𝑄𝑘 = = 𝑄3 = = 12,5
4 4
La posición de este cuartil es 12,5
De esta forma en la columna de la frecuencia acumulada buscamos el dato que
por lo menos tenga 12,5 y el más cercano es 13
12,5 − 9
𝑄1 = 1,51 + 0,03 ( ) = 1,54
13 − 9
Entonces 𝑄1 =1,54m
Ejercicio1: De esta forma en el libro de Excel llamado dispersión calcule tanto
por gráficos como por formulas los cuartiles del ejercicio que esta en la hoja taller
Diagrama de caja
Una forma de representar gráficamente los cuantiles, así como los valores
atípicos y extremos (el mínimo y el máximo) de un conjunto de datos, es una caja
rectangular ubicada en un eje, vertical u horizontal.
Para este tema se anexa documento donde se explica el diagrama de cajas y
Bigotes tomado de (Milton, Susan. Estadística para Ciencias de la Salud)
Con el cual ustedes deben desarrollar el siguiente ejercicio
Ejercicio 2:
En su libro de Excel llamado dispersión calcule si existen datos atípicos y
extremos en la hoja que dice taller de acuerdo a la explicación del diagrama de
cajas y Bigotes propuesto anteriormente también realice con Excel la grafica de
cajas
MEDIDAS DE DISPERSIÓN O VARIABILIDAD
Las Medidas de Tendencia Central o de Localización dan una visión del grupo,
pero la misma es incompleta. Ellas dan información acerca del centro de los
datos, pero no qué tan dispersos son los mismos.
Para complementar las medidas de tendencia central se usan las medidas de
variabilidad, ellas miden la dispersión de los datos alrededor de la medida de
localización usada.
Las medidas de variabilidad indican qué tan diseminados son los datos del grupo
al cual se le calcula la medida. Si un grupo tiene una baja variabilidad esto indica
que está compuesto por individuos aproximadamente iguales, los datos están
poco esparcidos, están bastante agrupados. La mayoría de los puntajes estarán
alrededor de la medida de tendencia utilizada. En este caso se dice que los
individuos poseen características homogéneas.
Varianza
Se define como el cuadrado de la desviación típica. Se interpreta como la
desviación típica solo que difiere en la magnitud y unidad de medida.
Datos sin agrupar
̅̅̅ 2
(𝑥−𝑥) (𝑥−𝑥̅ )2
𝜎2 = ∑ 𝑛
; 𝑆2 = ∑ 𝑛−1
Datos agrupados
(𝑥𝑖 − 𝑥̅ )2 𝑓𝑖
𝑆2 = ∑
𝑛−1
Desviación Típica
La Desviación Típica es una medida que da una mejor idea de cómo los datos
se dispersan de la media. La Desviación Típica mide cómo los datos difieren de
la Media Aritmética
Datos sin agrupar
̅̅̅ 2
(𝑥−𝑥) (𝑥−𝑥̅ )2
= √∑ 𝑛
; 𝑆 = √∑ 𝑛−1
Datos agrupados
(𝑥𝑖 − 𝑥̅ )2 𝑓𝑖
𝑆 = √∑
𝑛−1
Coeficiente de Variación
Las medidas de variabilidad en general se expresan en las mismas unidades de
los datos. A menudo es deseable comparar la variabilidad cuando las unidades
de medición son diferentes. Así el Coeficiente de Variación es un índice de
variabilidad que permite comparar el grado de dispersión entre distribuciones con
respecto a la media aritmética. Nos permite expresar el grado de homogeneidad
del grupo de datos considerados en su conjunto. Su fórmula es:
𝜎
𝐶𝑣 = ∗ 100%
𝑥̅
Ejemplo 4: Suponga que tiene dos grupos de ocho personas (grupo A y grupo B)
de una escuela secundaria, y desea comparar el número de errores obtenidos
por cada uno de sus integrantes al aplicarles una prueba que consta de 20
reactivos:
Como podemos ver al calcular las medidas de tendencia central no hay
diferencia, pero si vemos detenidamente los datos se puede observar que los
grupos no son iguales por estas razones debemos apoyarnos en otras medias
para poder analizar nuestros datos
Como se puede observar el grupo de mayor variabilidad es el A con u 78% por
lo tanto no son homogéneos
Ejercicio 3:
En el departamento de investigación de una distribuidora de frutas, se
compararon cuatro métodos de congelación y dos clases de conservadores (A y
B). Se realizó un experimento con fresas, 8 bolsas con la misma cantidad de
producto y de la misma cosecha. Después de 3 meses de congelamiento a 0º C,
se midió la pérdida de color en una escala de 1 a 10, considerando la puntuación
baja con menos decoloración, y la puntuación alta con más pérdida de color. Se
obtuvieron los datos que siguen (libro de Excel medidas de dispersión, hoja
ejercicio de dispersión). ¿analice el ejercicio con medidas de dispersión y escoja
con cual método se quedaría justifique su respuesta?
Medidas de Forma
Una distribución queda bien caracterizada mediante la tendencia central y la
variabilidad, pero quedará mejor si estas medidas son acompañadas con medidas
que describan la asimetría y apuntamiento de la distribución.
Sesgo
Las curvas que representan las observaciones de datos pueden ser simétricas o
asimétricas (sesgadas). El Sesgo es un indicador que mide el grado de asimetría o
falta de simetría de una distribución.
Simetrica
Asimetrica: positiva
Asimetrica: negativa
Curtosis
Es el grado de apuntamiento de una distribución con respecto a una curva modelo
o curva normal de Laplace-Gauss. La fórmula es:
a) Leptocurtica b)Mesocurtica c) Platicurtica
Si K> 0,263 entonces la distribución es leptocúrtica
Si K = 0,263 entonces la distribución es mesocúrtica
Si k < 0,263 entonces la distribución es platicurtica
𝑄3 − 𝑄1
𝑘=
2(𝑃90 − 𝑃10 )
De esta forma hallamos que tipo de apuntamiento tiene la curva normal
Ejercicio 4:
En la hoja de Excel (medias de dispersión) determine qué tipo de grafica es
según lo explicado en medidas de forma. Argumente su respuesta
Señor estudiante usted deberá aplicar en la hoja de Excel pestaña taller lo
aprendido hasta el momento. Con lo cual usted entregará un informe con
pantallazos y su análisis de cada uno de los puntos, además deberá entregar el
archivo de Excel donde desarrollo el ejercicio
a. Construir una tabla de distribución de frecuencias: en este punto usted
describirá los pasos para llegar a esta tabla
b. Construir el histograma, el polígono de frecuencias y la ojiva para la
distribución dada: en este punto usted describirá gráficamente lo aprendido
en medidas de forma donde debe justificar su respuesta, se deben visualizar
los cuartiles en el grafico de ojiva
c. Hallar (por medio de gráficos) el número de estudiantes ubicados en el cuartil
superior.
d. Hallar en la Gráfica: i. La calificación más alta.
ii. La más baja
Los puntos c y d deben realizarlo con el diagrama de Caja y Bigotes
e. Calcular la media, la mediana y la moda para datos agrupados y no
agrupados (comparar los resultados y razonar)
f. Calcular la desviación estándar, la varianza y el coeficiente de variación para
datos agrupados y no agrupados (comparar los resultados y razonar).
Los puntos e y f debe construir una tabla donde muestre los estadísticos para
datos agrupados como para no agrupados
g. Posteriormente se tomó otra muestra aleatoria de otros 40 estudiantes del 6to
semestre y se tabularon, de igual manera, sus rendimientos en Matemática 1,
obteniéndose
h. En otra Universidad se realizó el mismo estudio, obteniéndose los siguientes
resultados (calificaciones sobre 20 puntos):
8vo
2do 6to semestre
semestre semestre
Universidad A
Media 11 12,5 14
desviación estándar 2 3,5 4
numero de datos 70 50 30
¿Considera que el rendimiento de los estudiantes de esta segunda Universidad
es más o menos variable que la primera?
Nota: En este caso como se desean comparar dos universidades y estas emplean distintas
calificaciones, se deben hallar los CV conjuntos de cada universidad para poder compararlas,
ya que es adimensional. (Utilizar las fórmulas de media, coeficiente de variación y varianza
conjunta)