Estadística Descriptiva: Organización de Datos
Estadística Descriptiva: Organización de Datos
CAPITULO 2
ESTADÍSTICA DESCRIPTIVA
2.1 Introducción
En el capítulo 1 se estableció que la toma de mediciones y el proceso de conteo producen números que contienen
información. El objetivo de la gente que aplica herramientas estadísticas a esos números es determinar la naturaleza
de esa información. Esta tarea es mucho más fácil si los números están organizados y resumidos. Cuando se hacen
las mediciones sobre entidades de una población o muestra, los valores resultantes están disponibles para el
investigador o estadístico como una masa de datos desorganizados. Las mediciones que no han sido organizadas,
procesadas o manejadas de alguna otra forma se les llama datos crudos (materia prima). A menos que el número de
observaciones sea extremadamente pequeño, es improbable que esos datos crudos proporcionen suficiente
información hasta que sean puestos en algún orden.
Ahora se enseñaran algunas técnicas para organizar y procesar datos de tal manera que sea más fácil determinar
qué información contienen. Lo más actual en procesamiento de datos es el cálculo de un número individual que de
alguna manera incluye información importante acerca de los datos que sirvieron para calcularlo. A estos números
individuales utilizados para describir datos se les llama medidas descriptivas. Después de estudiar este capítulo el
estudiante podrá calcular algunas medidas descriptivas tanto para poblaciones como para muestras de datos.
En éste capitulo nos proponemos desarrollar en el estudiante habilidades para poder manejar la información
numérica que se encuentre como profesional en biología o ciencias de la salud. Entre mejor capacitado esté para
manejar tal información, tendrá una mejor idea del ambiente y de las fuerzas que generan la información.
El primer paso para organizar datos es preparar un arreglo ordenado. Un arreglo ordenado es una lista de valores de
un grupo (sea población o muestra) en orden de magnitud de menor a mayor valor. Se recomienda el uso de la
computadora si el número de mediciones a ordenar es bastante grande.
Un arreglo ordenado permite determinar con rapidez los valores de las mediciones más pequeñas, de las más
grandes, y otros aspectos acerca de los datos arreglados que pudieran necesitarse en caso de urgencia.
EJEMPLO 2.2.1
Vamos a considerar 60 datos que se obtuvieron en una investigación sobre el peso en kilogramos de unos perros
realengos.
7.2 4.9 10.7 10.4 6.4 4.8 4.7 4.6 6.0 5.4
4.8 4.7 8.3 3.8 4.8 8.3 6.4 6.6 4.5 8.0
3.6 2.4 8.5 8.8 7.7 4.9 8.6 12.0 4.9 7.0
11.0 4.9 3.9 4.9 4.4 4.9 4.9 8.0 3.6 7.4
7.9 4.9 5.8 3.9 11.6 10.3 3.4 3.9 5.0 3.9
8.0 3.5 4.9 5.8 4.1 3.9 3.5 4.8 5.9 3.6
2.4 3.6 3.9 4.7 4.9 4.9 5.9 7.2 8.0 10.3
3.4 3.8 4.1 4.8 4.9 4.9 6.0 7.4 8.3 10.4
3.5 3.9 4.4 4.8 4.9 5.0 6.4 7.7 8.3 10.7
3.5 3.9 4.5 4.8 4.9 5.4 6.4 7.9 8.5 11.0
3.6 3.9 4.6 4.8 4.9 5.8 6.6 8.0 8.6 11.6
3.6 3.9 4.7 4.9 4.9 5.8 7.0 8.0 8.8 12.0
Una distribución simple de frecuencia absoluta es una tabla que indica el número de veces que ha ocurrido cada
valor en un conjunto de datos. La representación en una tabla se puede hacer con dos columnas donde una indica el
valor de la variable y la otra columna la frecuencia de cada valor. Por lo general estas tablas en su última fila incluyen
el total de las frecuencias que se representa con una N mayúscula.
Ejemplo: Siguiendo con el ejemplo de los perros ralengos, su distribución de frecuencias es:
Aunque un conjunto de observaciones puede hacerse más comprensible y más significativo por medio de un arreglo
ordenado, es más útil el resumen que se obtiene mediante la agrupación de datos. Antes de la era de las
computadoras, uno de los principales objetivos de agrupar grandes conjuntos de datos era el de facilitar el cálculo de
varias medidas descriptivas, como porcentajes y promedios. Debido a que las computadoras pueden ejecutar esos
cálculos a partir de grandes conjuntos sin agrupación previa, actualmente el propósito principal de agrupar los datos
es el de resumir la información. Se debe tener en mente que los datos contienen información y que el resumen es
una forma sencilla para determinar su naturaleza.
Para agrupar un conjunto de observaciones se debe seleccionar un conjunto de intervalos contiguos que no se
traslapen, para que cada valor en el conjunto de observaciones pueda ser puesto en uno y sólo uno de los intervalos.
Estos intervalos normalmente se identifican como intervalos de clase.
Cualquier tabla de frecuencias agrupadas debería poseer las tres características siguientes:
1. Uniformidad: cada clase debería tener la misma amplitud.
2. Unicidad: dos clases no se traslapan.
3. Completez: cada uno de los datos debe pertenecer a alguna clase.
Para la construcción de una distribución agrupada de frecuencia absoluta hay varias metodologías más o menos
semejantes y con algunos niveles de dificultad operativa, pero, de acuerdo con los objetivos del curso y sin perdida
de rigurosidad conceptual, los siguientes pasos dan una opción válida y sencilla de hacerla:
2. Divido el rango por el número de intervalos seleccionado inicialmente. Este resultado se aproxima siempre a la
cifra decimal mayor. Se toma el mismo número de cifras decimales de los datos
w = ℜ / c ≅ decimal siguiente
CAPITULO 2 4
Compilador: Hernando Castaño Buitrago
Establecer los límites de cada agrupamiento de clase para evitar los traslapes:
1. Hallar la longitud del Rango Ampliado: Al redondear la longitud de cada intervalo al decimal mayor, se amplía el
rango inicial. El rango ampliado se halla multiplicando el número de intervalos por la longitud de cada intervalo.
ℜA = W x C
2. Hallar los límites del Rango Ampliado: Se hallan restando y sumando respectivamente al Xmin y al Xmáx la mitad
de la cantidad en que se amplió el Rango. Esta cantidad ampliada (Ca) se calcula restando del rango ampliado el
rango inicial.
3. Calcular los límites de cada intervalo: Al límite inferior del rango ampliado se le agrega sucesivamente la longitud
del intervalo hasta llegar al límite superior del rango ampliado.
k = 1 + 3.322(1,7781) = 6,9068 ≈ 7.
9,6
Por lo tanto, la longitud de cada intervalo será: w = = 1,37 . De acuerdo con los datos que poseen una sola cifra
7
decimal, la longitud del intervalo, 1,37, se redondeada a 1,40
Para evitar que estos intervalos se traslapen, se recomienda cerrarlos a la izquierda y dejarlos abiertos a la derecha
exceptuando el último que se cierra a ambos lados.
La frecuencia relativa se obtiene dividiendo las frecuencias de cada clase por el número total de observaciones. Este
resultado se puede expresar como una proporción o como un porcentaje.
Por lo general se utiliza más la distribución de frecuencia relativa expresada en porcentajes que expresada en
proporciones.
La distribución de frecuencia relativa es esencial si se quieren comparar datos de dos distribuciones diferentes.
Toda información cuantitativa puede representarse de tres formas: aritmética, geométrica y algebraica, que es como
decir con números, gráficas y finalmente con símbolos. En ocasiones, una gráfica puede ayudar a transmitir mucha
más información que una tabla de datos y en la mayor parte de las situaciones, el público se ve menos amenazado
por una gráfica que por una tabla.
En la presentación de las tablas se comenzó con aquellas apropiadas para datos categóricos y luego numéricos. De
igual forma en esta unidad primero se describirán las tablas apropiadas para una variable categórica (nominal u
ordinal), después para una variable numérica y finalmente para dos variables, una categórica y la otra numérica o
ambas numéricas.
Gráficas circulares
Independiente: 22.2%
Conservador: 44.4%
Es una de las gráficas que más se utilizan. Sirve para representar diferencias tanto en frecuencias como en
porcentajes y proporciones entre las diferentes categorías de una variable nominal u ordinal.
Las categorías aparecen como sectores del interior de un círculo. El tamaño de cada sector depende del porcentaje
que representa y el círculo en su totalidad representa un 100%. A menudo los sectores que se quieren hacer
resaltar aparecen sobresaliendo del círculo y en colores que refuerzan el contraste.
Las gráficas circulares no se usan si hay muchas categorías o éstas son tan pequeñas que se hace difícil
identificarlas.
Antiguamente se creaban usando el compás y el transportador para determinar la medida de los ángulos. El ángulo
se determinaba por medio de la proporción ángulo/360 = por ciento/100
CAPITULO 2 8
Compilador: Hernando Castaño Buitrago
Independiente: 22.2%
Conservador: 44.4%
Los programas como Excel han resuelto este problema al construir las gráficas automáticamente.
Gráficas de barras
Estas gráficas proveen una alternativa a la presentación de las gráficas circulares.
Cada categoría se representa por una barra que puede ser horizontal o vertical. Cada día se ven más libros
presentando las gráficas de barras horizontalmente con las categorías descritas en el eje vertical o en la misma
barra.
En una gráfica de barras todas las barras deben ser del mismo ancho, donde el largo de la barra indica la frecuencia
o porcentaje de cada categoría.
Gráfico de barras
Independiente: 22.2%
Conservador: 44.4%
0 5 10 15 20 25 30 35 40 45 50
A menudo la gráfica de barras se utiliza para representar dos variables categóricas. En cada categoría de la primera
variable se construyen varias barras que representan las categorías de la segunda variable.
CAPITULO 2 9
Compilador: Hernando Castaño Buitrago
Total, 100
Total Hombre , 51
Mujer , 49
Total, 12
Casa de amigo Hombre , 11
Mujer , 1
Total, 47
Casa Hombre , 28
Mujer , 19
Total, 41
Escuela Hombre , 17
Mujer , 24
0 20 40 60 80 100 120
Características:
a. A menudo se usan barras horizontales para distinguir las variables categóricas de las numéricas que se
representan por medio de barras verticales.
b. Todas las barras tienen el mismo ancho. La diferencia entre ellas radica en el largo.
c. Los espacios entre barras deben ser de más o menos la mitad del ancho de cada barra
d. En el eje horizontal se marcan las frecuencias comenzando con el cero. Este cero para la frecuencia debe
indicarse en el eje horizontal.
Gráfica de puntos
La gráfica de puntos es una modificación de la gráfica de barras. Consiste de líneas de puntos que representan las
barras y terminan con un punto grande. Son más simples de construir.
Independiente: 22.2%
Conservador: 44.4%
10 20 30 40 50 60
Porcentaje de personas en los partidos
CAPITULO 2 10
Compilador: Hernando Castaño Buitrago
Histograma
El histograma se utiliza para representar las diferencias en frecuencias absolutas y relativas entre los intervalos o
clases de una variable intervalar o de razón.
Es un tipo de gráfica de barras verticales donde el ancho de cada barra corresponde a los límites de cada clase. Por
lo tanto se diferencia de las gráficas de barras de variables categóricas en que las barras son contiguas (se tocan).
Histograma
34 32
32
30
28
26
24
22
Frecuencia
20
18
16
14 12
12
10 9
8
6 4
4 2
2 1
0
1.2 3.2 5.2 7.2 9.2 11.2 13.2
Los límites de cada clase aparecen en el eje horizontal y la frecuencia en el vertical. A veces se indica la frecuencia
exacta señalándola en la parte superior de la barra.
Los intervalos siempre están ordenados de derecha a izquierda, de mayor a menor, como se espera del eje de x.
Hay histogramas de frecuencia, de proporción o de porcentaje dependiendo del tipo de distribución que representen.
La forma del histograma se parece mucho a la del diagrama de tallo y hoja cuando los tallos corresponden a los
intervalos. El histograma ofrece una muy buena idea visual de la distribución de frecuencias
A veces se utiliza cuando se quieren comparar dos grupos diferentes. Para lograrlo se presentan dos histogramas,
uno al lado del otro compartiendo el mismo eje vertical, como lo vimos en los diagramas de tallo y hoja. Esta
representación de dos histogramas se hace, a veces, compartiendo el eje horizontal de forma que en un histograma
las frecuencias se encuentran hacia arriba y en el otro hacia abajo.
CAPITULO 2 11
Compilador: Hernando Castaño Buitrago
Polígono de frecuencia
35
30
25
20
15
10
0
0.6 2.2 4.2 6.2 8.2 10.2 12.2 14.2
R ep r esent ant e d e clase
Como el histograma, también sirve para representar frecuencias absolutas o relativas en los intervalos de una
variable intervalar o de razón.
Los límites de los intervalos se indican en el eje horizontal y la frecuencia, proporción o por ciento en el vertical.
La diferencia con respecto al histograma es que el polígono de frecuencias sólo toma en consideración el punto
medio como representativo de cada clase.
Construcción:
a. Se colocan los puntos medios de cada clase o intervalo en la parte superior de cada barra del histograma.
b. Se añaden dos puntos medios adicionales correspondientes a un primero y último intervalo inexistentes.
c. Se conectan todos estos puntos medios.
A veces no se añaden dos puntos adicionales, de manera que el polígono de frecuencia se extiende del punto medio
del primer intervalo al punto medio del último.
El polígono de frecuencia se utiliza principalmente cuando se comparan dos o más grupos con respecto a la misma
variable. Cuando son sólo dos es posible poner un histograma al lado de otro, pero si son más, no hay forma de
poder hacerlo.
Cada punto en el eje vertical indica la frecuencia acumulada hasta el límite superior del intervalo.
Construcción:
a. En el límite superior de cada clase se traza el punto que corresponda a la frecuencia, proporción por ciento
acumulado hasta ahí.
b. El primer punto que se marca es el límite inferior de la primera clase, que corresponde a 0 %
c. Se conectan todos estos puntos con segmentos.
64
Perros sin dueño
60
56
52
48
Perros con dueño
Frecuencia acumulada
44
40
36
32
28
24
20
16
12
8
4
0
0,6 2,2 4,2 6,2 8,2 10,2 12,2
Peso
La ojiva permite la comparación de dos grupos de datos de forma visual y de manera más efectiva que el polígono
de frecuencia. Puesto que con la simple utilización de una regla se puede determinar la frecuencia acumulada que se
encuentra por debajo de ciertos valores.
Es importante observar que en esta situación no se está hablando de frecuencias como ocurría cuando se
presentaba una variable categórica o numérica en un eje y su frecuencia en el otro.
CAPITULO 2 13
Compilador: Hernando Castaño Buitrago
Cuando ambas variables son numéricas la gráfica que se crea se llama un diagrama de dispersión
La siguiente gráfica representa las puntuaciones de 50 estudiantes que tomaron una prueba en Matemáticas y otra
en Sociales con puntuaciones desde 00 hasta 100. Cada punto representa un estudiante.
Diagráma de dispersión
80
70
60
50
Química
40
30
20
10
0
0 10 20 30 40 50 60 70 80
Escritura
Corte del eje vertical del histograma o polígono de frecuencias para dar la impresión de que el aumento fue mayor
CAPITULO 2 15
Compilador: Hernando Castaño Buitrago
Cuando se construye un histograma o un polígono de frecuencias jamás se debe cortar el eje vertical de las
frecuencias. Si esto se hace la gráfica es engañosa. Sin embargo el eje horizontal si se puede cortar y hasta el cero
se puede excluir, siempre que todas las clases aparezcan en la gráfica.
Estiramiento de los ejes del histograma para dar la impresión de que el aumento fue mayor
Si se estira el eje horizontal o se encoge el eje vertical, se puede modificar el impacto visual de la gráfica dando a
entender que el cambio ha sido mayor.
Ampliación del histograma para dar la impresión de que el aumento fue mayor
CAPITULO 2 16
Compilador: Hernando Castaño Buitrago
A menudo se utilizan barras o figuras para representar frecuencias. El problema con las barras y otras figuras es que
los cambios se representan aumentando el volumen total de la figura, no solamente el alto. Esto crea la impresión de
que el cambio ha sido mayor.
En muchos textos de estadísticas se habla de “medidas de tendencia central” en vez de “medidas de localización”.
Pero en esta sección se incluyen los percentiles que no son medidas de tendencia central. Los percentiles presentan
un lugar, una localización en la distribución. Lo mismo puede decirse de la moda, media y mediana, las otras
medidas que se presentan en el documento. Todas ellas representan una localización en la distribución. Por lo tanto
el nombre que se ha adoptado para el documento es medidas de localización.
En muchas ocasiones el conjunto de datos bajo estudio es grande, no sólo en cuanto a la cantidad de sujetos, sino
también en términos de la cantidad de variables que se quieren estudiar. En tales casos, no es eficiente utilizar
tablas y gráficas para llevar a cabo la comparación entre las variables. Es preferible utilizar ciertas medidas mucho
más simples que permiten la comparación. Las medidas de localización son las primeras que permiten hacer eso.
Las medidas de dispersión, que se tratan en el próximo documento, permiten precisar estas comparaciones.
Las tres medidas de localización más importantes son la moda, la mediana y la media. Se les llama medidas de
tendencia central porque son números o categorías que describen lo que es típico o promedio en la distribución.
Moda La moda es la medida de tendencia central más fácil de determinar. Corresponde a la categoría o valor de la
variable con la frecuencia mayor (la que aparece más a menudo). La moda se utiliza principalmente con variables
nominales y es la única medida de tendencia central que se puede usar con variables nominales. A veces no hay
moda porque ningún valor se repite. Otras veces hay dos o más modas puesto que varios valores se repiten la
misma cantidad de veces.
Ejemplos:
En la distribución (2, 3, 4, 4, 5 8, 12) la MODA es 4
La distribución (2, 3, 3, 4, 5, 5, 12) es bimodal y las modas son 3 y 5
En la distribución (2, 3, 6, 7, 8, 10, 12) NO HAY MODA
Al igual que la mediana, la moda no se afecta por los valores extremos de la distribución.
La moda en frecuencias agrupadas Cuando los datos ya se encuentran agrupados en una distribución de
frecuencias, podemos suponer que la moda está localizada en la clase que contiene el mayor número de elementos,
es decir, en la clase que tiene la mayor frecuencia. Para determinar un solo valor para la moda a partir de esta clase
modal, se utiliza la siguiente expresión:
⎛ d1 ⎞
Mo = L Mo + ⎜⎜ ⎟⎟ ⋅ w
⎝ d1 + d 2 ⎠
en la que:
LM o = límite inferior de la clase modal
d1 = frecuencia de la clase modal menos la frecuencia de la clase que se encuentra
inmediatamente por debajo de ella.
d2 = frecuencia de la clase modal menos la frecuencia de la clase que se encuentra
inmediatamente por encima de ella.
w= ancho del intervalo de la clase modal
CAPITULO 2 17
Compilador: Hernando Castaño Buitrago
~ ) La mediana se utiliza principalmente con variables ordinales y junto con la moda son las únicas dos
Mediana ( m
medidas de tendencia central que se puede usar con variables ordinales.
La mediana se define como la puntuación que queda en el medio exacto de la distribución. En términos visuales
corresponde a la puntuación en el mero medio, después que todas las puntuaciones han sido colocadas en orden
(ascendente o descendente).
El método para determinar la mediana en el caso de variables numéricas depende de si el número de observaciones
es par o impar. Si hay un número impar de observaciones, la mediana corresponde al valor que se encuentra en el
medio. Pero si el número de observaciones es par, entonces se toman los dos valores que se hallan en el medio de
la distribución, se suman y se divide entre dos. Cuando el número de observaciones es impar, la mediana
corresponde a un valor de la distribución. Cuando el número de observaciones es par, la mediana no es
necesariamente un valor de la distribución
Ejemplos:
En la distribución (2, 7, 9, 12, 15), la mediana = 9
En la distribución (2, 7, 9, 12, 15, 20), la mediana = (9+12)/2 = 10.5
En la distribución (2, 7, 9, 9, 15, 20), la mediana = (9+9)/2 = 9
Sin embargo, cuando la variable es ordinal, no es apropiado promediar los dos valores medios. Simplemente se dice
que la mediana se encuentra entre esos dos valores
Ejemplos:
1. En un cuestionario que utiliza la escala Likert, las respuestas a una pregunta fueron “nunca, nunca, de vez en
cuando, a menudo, muy frecuentemente”.
Mediana = de vez en cuando
2. En un cuestionario que utiliza la escala Likert, las respuestas a una pregunta fueron “nunca, nunca, de vez en
cuando, a menudo”.
Mediana = se encuentra entre "nunca" y "de vez en cuando"
Una de las características de la mediana es que no se afecta por los valores extremos de la distribución.
Ejemplo:
En la distribución (2, 7, 9, 12, 15), la mediana = 9
En la distribución (2, 7, 9, 12, 245), la mediana = 9
La mediana en frecuencias agrupadas (variable categórica con escala ordinal) Cuando las observaciones han
sido tabuladas en una tabla de distribución de frecuencias, la mediana corresponde a la categoría en la que se
encuentra la frecuencia acumulativa del 50% de las observaciones.
Ejemplo:
En la siguiente tabla de frecuencias se observa que la mediana corresponde a la categoría "algo gordo" a pesar de
que dicha categoría no es la categoría que aparece en el medio de la lista. Esto se debe a que el 50% de la
distribución acumulada se encuentra en la categoría "algo gordo"
CAPITULO 2 18
Compilador: Hernando Castaño Buitrago
La mediana en frecuencias agrupadas (variable intervalar o de razón) Cuando la variable es intervalar o de razón y
las frecuencias se encuentran agrupadas en una tabla, el proceso de determinación de la mediana es más
complicado y se utiliza una fórmula. Hoy día los datos, por lo general, se guardan individualmente en el programa de
computadora y en muy raras ocasiones se necesita de esta fórmula.
⎡ n +1 ⎤
⎢ 2 − (F + 1) ⎥
~ = Lin + ⎢
Mediana = m ⎥ ⋅w
⎢ f m ⎥
⎣⎢ ⎦⎥
donde :
~
m = mediana de la muestra
n = número total de elementos de la distribución
F = Suma de todas las frecuencias de clase hasta, pero sin incluir, la clase mediana
fm = frecuencia de la clase mediana
Lin = límite inferior del intervalo de clase mediano
w = ancho del intervalo de clase
Ejemplo:
Intervalos frecuencias frec. Relativa frec. acumulada
10≤ x < 20 35 6.6 6.6
20 ≤ x < 30 80 15.0 21.6
30 ≤ x < 40 183 34.3 55.9
40 ≤ x < 50 124 23.2 79.1
50 ≤ x < 60 69 12.9 92
60 ≤ x < 70 37 6.9 98.9
70 ≤ x ≤ 80 6 1.1 100
Total 534 100
CAPITULO 2 19
Compilador: Hernando Castaño Buitrago
534 + 1
− (115 + 1)
~ = 30 + 2 267.5 − 116
m ⋅ 10 = 30 + ⋅ 10 = 38.27
183 183
El rango medio Es el promedio de las observaciones menores y mayores de una serie de datos. Esto puede
escribirse como
X menor + X mayor
Rango medio =
2
El rango medio a menudo es usado como una medición de resumen tanto por analistas financieros como por
reporteros meteorológicos, puesto que puede proporcionar una medición adecuada, rápida y simple para caracterizar
toda una serie de datos. Es necesario tener presente que por tratar solamente con los valores extremos, el rango
medio se distorsiona si esta presente una observación extrema, en éste caso es mejor tratar con el eje medio que se
verá más adelante.
Percentiles y rango percentil La mediana es un caso especial de las medidas de localización llamadas percentiles.
El percentil es una puntuación o dato en el cual o por debajo del cual se encuentra un porcentaje específico de la
distribución. El percentil n es el dato por debajo del cual (e incluyéndose) se encuentra el n por ciento de la
población.
Los percentiles se utilizan a menudo cuando se informan las puntuaciones en las pruebas estandarizadas. Le
permiten al examinado determinar qué porcentaje de la población de examinados se encuentra por debajo de él. El
percentil es un dato
Ejemplo:
En la siguiente tabla
Puntuación frec. frec. acum.
24 1 1
25 1 2
26 0 2
27 0 2
28 0 2
29 1 3
30 1 4
31 0 4
32 2 6
33 3 9
34 1 10
35 2 12
36 4 16
37 5 21
38 4 25
CAPITULO 2 20
Compilador: Hernando Castaño Buitrago
¿Qué valor o puntuación es el percentil 20? ¿Qué valor o puntuación tiene el 20% de los datos por debajo
(incluyéndose él mismo)?
x 20 3600
= , x= = 36
180 100 100
Este 36 corresponde al número de datos (frecuencia acumulada) comenzando por el valor más pequeño. El valor 41
tiene las frecuencias 33, 34, 35, 36 y 37. Por lo tanto, P20 = 41 porque hay 36 puntuaciones por debajo (incluyendo el
41) de un total de 180 puntuaciones.
Ejemplo:
P50 = ?
¿Qué valor o puntuación es el percentil 50? ¿Qué valor o puntuación tiene el 50% de los datos por debajo
(incluyéndose él mismo)?
CAPITULO 2 21
Compilador: Hernando Castaño Buitrago
x 50 9000
= , x= = 90
180 100 100
Este 90 corresponde al número de datos (frecuencia acumulada) comenzando por el valor más pequeño. El valor 49
tiene las frecuencias 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92. Por lo tanto P50 = 49 porque hay 90 puntuaciones por
debajo (incluyendo el 49) de un total de 180 puntuaciones.
El rango percentil es la posición que ocupa un dato. El rango porcentil de un valor dado se determina hallando el
por ciento de datos con valores iguales o inferiores al dato dado.
Ejemplo:
El rango percentil de 35 es 6.7, puesto que hay 12 datos con valor igual o menor de 35 y 12 es el 6.7 por ciento de
180.
12 x 1200
= , x= = 6.7
180 100 180
De igual manera el rango percentil de 63 es 94.4 puesto que hay 170 datos en por debajo de 63. 170 es el 94.4% de
180
170 x 1700
= , x= = 94.4
180 100 180
La ojiva nos permite pasar del percentil al rango percentil y viceversa de forma visual.
100%
80%
60%
40%
20%
0%
24 32 36 40 44 48 52 56 60 64 69
Ejemplo:
Los percentiles y los rangos percentiles en una tabla de distribución de frecuencias agrupadas (variable
intervalar o de razón) Cuando la variable es intervalar o de razón y las frecuencias se encuentran agrupadas en
una tabla el proceso de determinación de los percentiles y los rangos percentiles es más complicado y por lo general
se utilizan fórmulas. Hoy día los datos por lo general se guardan individualmente en el programa de computadora y
en muy raras ocasiones se necesita de estas fórmulas. (Estas fórmulas no se trabajarán en la clase. Se incluyen
aquí como referencia exclusivamente)
Cuartiles (cuarteles) Los cuartiles son otra medida de uso común en estadística.
"Q1" o primer cuartil corresponde al percentil 25.
"Q2" o segundo cuartil o mediana corresponde a la mediana o percentil 50.
"Q3" o tercer cuartil corresponde al percentil 75.
Para hallar los cuartiles se determina primero la posición utilizando la fórmula posicional de los percentiles que se ha
presentado anteriormente en la conferencia.
(En otras definiciones, para ser más exacto se interpola. Pero como Excel hace eso por nosotros, no vale la pena
complicarse la vida)
Ejemplo:
Q2: (6+1)/2 = 3.5 y por lo tanto se utiliza la puntuación entre la tercera y la cuarta
Por lo tanto
Q1 = 3.4
Q3 = 7.8
Para hallar los cuartiles también se determina la posición utilizando una forma intuitiva cuando son pocos valores. Se
escoge la mediana como el valor en el medio exacto de la distribución. Como la media separa la distribución en dos
grupos del mismo tamaño, se seleccionan como primer cuartil y tercer cuartil las medianas de dichos grupos
Ejemplo:
Halla la mediana y los cuartiles de la siguiente muestra:
2; 2; 3; 4; 5; 6; 8; 8; 8
Ejemplo:
Halla la mediana y los cuartiles de la siguiente muestra:
2; 2; 3; 4; 8; 8; 9; 9
El eje medio es el promedio del primer y tercer cuartil de una serie de datos. Es decir
Q + Q3
Eje medio = 1
2
Es una medición de resumen usada para zanjar problemas potenciales introducidos por los valores extremos de los
datos.
CAPITULO 2 24
Compilador: Hernando Castaño Buitrago
Media La media aritmética es la medida de tendencia central más conocida. La mayor parte de la gente la llama el
promedio. Se puede utilizar solamente con variables intervalares o de razón. Esto se debe a que en su cómputo es
necesario usar suma y división. Estas operaciones sólo tienen sentido con valores numéricos.
En una muestra el símbolo de la estadística de la media es X pero en una población el parámetro se indica por
medio de la letra griega μ x.
La media corresponde a la suma de todas las observaciones dividida por el número de observaciones
n
∑ xi
i=1
x=
n
Ejemplo:
Las siguientes son tres muestras de la matrícula en 6 colegios universitarios de tres estados de EEUU
Propiedades de la media
1. Como la media requiere de la suma y la división para su cómputo, sólo puede determinarse para variables
intervalares o de razón.
2. La media es el centro de gravedad de la distribución.
Visualmente se puede interpretar como el fiel de una balanza en la que se han puesto todas las puntuaciones.
Esta propiedad, matemáticamente puede verse como el hecho de que la suma de todas las desviaciones con
respecto a la media es cero
∑ (x i − x ) = 0
Ejemplo:
En la muestra de matrícula de Pennsylvania los valores son: 4.9 6.3 7.7 8.9 10.3 11.7
3. Por esta misma razón de ser el centro de gravedad, la media puede verse muy afectada por los valores
extremos de la distribución
Si en el ejemplo de la muestra de universidades del estado de Carolina del Norte uno de los valores fuera 30.0 en
vez de 9.0
La media pasaba a ser 11.8 y dejaba de ser representativa del grupo como tal.
En los casos en que la media no es un buen descriptor de la muestra es conveniente recurrir a la mediana.
4. La suma de los cuadrados de las desviaciones con respecto a la media es menor que con respecto a cualquier
otro valor de la distribución
∑ (x i − x )
2
Ejemplo:
En Pennsylvania (ejemplo anterior) donde los valores son: 4.9 6.3 7.7 8.9 10.3 11.7
Si a cada puntuación de la muestra se le resta la media, el resultado es siempre menor que si se resta a cada
puntuación cualquier otro valor de la distribución:
(4.9 - 8.3)2 + (6.3 - 8.3)2 + (7.7 - 8.3)2 + (8.9 - 8.3)2 + (10.3 - 8.3)2 + (11.7 - 8.3)2 = 31.84
(4.9 - 8.9)2 + (6.3 - 8.9)2 + (7.7 - 8.9)2 + (8.9 - 8.9)2 + (10.3 - 8.9)2 + (11.7 - 8.9)2 = 34 etc.
La media de dos grupos Cuando se combinan dos grupos el proceso de combinar sus medias es un poco más
complejo de como puede aparecer a primera vista.
Puesto que puede haber más sujetos en un grupo que en el otro se debe dar peso a la media de cada grupo
dependiendo de la cantidad de valores que tiene. Por lo tanto se multiplica la media de cada grupo por la cantidad de
valores del grupo, se suma y luego se divide el total obtenido entre el número de total de puntuaciones en el grupo.
n1 ⋅ x 1 + n 2 ⋅ x 2
x=
n1 + n 2
Ejemplo:
106 mujeres y 74 hombres tienen medias de 45.26 y 54.89 en el examen final. Por lo tanto la media del grupo es:
x=
(106)(45,26) + (74 )(54,89)
106 + 74
Para encontrar la media aritmética de datos agrupados, calculamos el punto medio de cada clase, se multiplica
por la frecuencia de las observaciones de dicha clase, sumamos todos los resultados y dividimos esta suma entre el
número total de observaciones de la muestra. La formula es la siguiente:
x=
∑ (f × x )
n
en la cual:
x = media de la muestra
∑ = símbolo que significa “la suma de”
CAPITULO 2 26
Compilador: Hernando Castaño Buitrago
Codificación: En aquellas situaciones en que no se tenga disponible una computadora y tengamos que realizar las
operaciones aritméticas a mano, podemos simplificar aún más nuestro cálculo de la media de datos agrupados.
Mediante una técnica que se conoce como codificación podemos eliminar el problema de tener puntos medios muy
grandes o inconvenientes. En lugar de utilizar los puntos medios reales para llevar a efecto nuestro cálculo, podemos
asignar enteros consecutivos de valor pequeño, conocidos como códigos, a cada uno de los puntos medios. El
entero cero puede ser asignado a cualquier punto medio, pero para que nuestros enteros sean pequeños,
asignaremos el cero al punto medio de la parte media de la distribución (o la parte más cercana a ésta). Entonces
podemos asignar enteros negativos a los valores menores a dicho punto medio y enteros positivos a los valores más
grandes.
Simbólicamente, los estadísticos usan X0 para representar el punto medio al que se le ha asignado el código 0 y μ
para el punto medio codificado. La siguiente formula se utiliza para determinar la media de la muestra mediante
códigos:
x = x0 + w
∑ (μ × f )
n
en la que:
x = media de la muestra
x0 = valor del punto medio al que se le asignó código 0
w = ancho numérico del intervalo de clase
μ = código asignado a cada punto medio de clase
f = frecuencia o número de observaciones de cada clase
n = número total de observaciones de la muestra
Las medidas de tendencia central permiten describir una distribución por medio de sus valores típicos. Sin embargo
estas medidas son sólo parte de la información que se puede obtener de la distribución. A menudo, al conformarse la
descripción a una medida de tendencia central se cae en la sobre-simplificación y el estereotipo. Hacen falta otras
medidas que reflejen la variedad y la multiplicidad. Estas medidas que hablan de las diferencias y la diversidad son
las medidas de dispersión.
Ejemplo: Dos grupos de estudiantes toman un mismo examen y ambos grupos obtienen una media o promedio de
C. Pero en uno de los grupos las 15 personas que tomaron la prueba obtuvieron una nota de C. En el otro grupo las
notas de las 15 personas fueron desde A hasta F. Con la presentación de media exclusivamente no se describe
adecuadamente ninguno de los dos grupos que, obviamente, son muy diferentes.
De nuevo la escala de medición de la variable va a ser la clave en la selección que se haga en el estudio sobre la
medida de dispersión adecuada para la situación.
CAPITULO 2 27
Compilador: Hernando Castaño Buitrago
El IVC se utiliza para medir la variación de variables nominales. En EEUU se utiliza mucho para medir la diversidad
racial y cultural en escuelas y organizaciones.
El IVC varía desde 0 hasta 1. El cero se obtiene cuando todos los casos de la distribución están en una sola
categoría. El 1 se obtiene cuando los casos están distribuidos equitativamente en todas las categorías.
Definición
El IVC es la razón entre el número total de diferencias reales en la distribución y el número máximo de posibles
diferencias en la misma distribución.
1. El número total de diferencias se obtiene sumando todos estos pares. Esto se puede simplificar
matemáticamente multiplicando la frecuencia de cada categoría por la frecuencia en cada una de las otras
categorías y sumando cada producto: Como hay 3 cristianos, 1 judío y 1 musulmán, los productos son
(3 × 1) + (3 × 1) + (1 × 1) = 7
La fórmula se expresa como
∑ fi f j
2. El máximo de posibles diferencias se interpreta como el hecho de que en cada categoría haya el mismo número
de personas.
3 (3 − 1) ⎛ 5 ⎞
2
⎛ 25 ⎞ 25
⎜ ⎟ = 3⎜ ⎟ =
2 ⎝3⎠ ⎝ 9 ⎠ 3
3. El IVC se obtiene dividiendo el número total de diferencias entre el máximo posible de diferencias. Se utiliza la
siguiente fórmula:
CAPITULO 2 28
Compilador: Hernando Castaño Buitrago
∑ fi f j
K (K − 1) ⎛ N ⎞
2
⎜ ⎟
2 ⎝K ⎠
El IVC se puede representar como un porcentaje al transformar la proporción en porcentaje cuando se multiplica
por 100.
7 21
En el ejemplo anterior = = 0.84 = 84.0%
25 25
3
Actividad:
Calcula el IVC de una organización estudiantil universitaria que cuenta con 10 estudiantes que pertenecen al partido
Conservador (C), 8 al Polo Democrático (PD) y 15 son independientes (I)
Datos numéricos
Amplitud o alcance se utiliza con variables intervalares o de razón. Es la medida de dispersión más fácil de obtener.
Se obtiene hallando la diferencia entre la observación mayor y la menor (el valor máximo menos el valor mínimo).
El alcance es una medida muy influenciada por los valores extremos y por lo tanto puede dar una impresión falsa
sobre los valores reales de la distribución.
Ejemplo: En una distribución los valores que se obtienen son 2.1 3.4 4.2 5.6 7.8 9.0 ¿Cuál es la amplitud de
la muestra?
Ejemplo: Si en la distribución anterior los valores fueran 2.1 3.4 4.2 5.6 7.8 52.1. El alcance o amplitud es
(52.1 - 2.1) = 50
Realmente las dos distribuciones se diferencian solamente por un dato con un valor extremo que en la segunda
distribución da una impresión falsa de los otros valores.
Para evitar la descripción errónea de los datos cuando en la distribución hay valores atípicos se ha diseñado otra
medida de dispersión llamada la amplitud intercuartílica. Se ha definido como la diferencia entre Q3 y Q1
Ejemplo:
En la distribución 2.1 3.4 4.2 5.6 7.8 9.0
La amplitud intercuartílica es (7.8 - 3.4) = 4.4
CAPITULO 2 29
Compilador: Hernando Castaño Buitrago
Valores atípicos (outliers) La definición de valor atípico depende mucho de la distribución y del investigador. Para
determinarlo es preciso situar los valores en el contexto de la gráfica de caja y bigote.
Muchos autores definen un valor como atípico cuando éste se encuentra a una distancia mayor de 1. 5 de la
amplitud intercuartílica de Q1 (hacia la izquierda) o de Q3 (hacia la derecha). En términos visuales esto quiere decir
que todo valor que se encuentre en los bigotes a una distancia mayor de caja y media del cuartil más cercana es un
valor atípico.
Algunos autores prefieren tomar como distancia para determinar los valores atípicos 2 veces y hasta 2.5 veces la
amplitud intercuartílica. En esta clase se utilizará l.5 veces la amplitud intercuartílica como la distancia para
determinar los valores atípicos.
Ejemplo:
Determina si hay algún valor atípico en la siguiente distribución: 0.1 3.4 4.2 5.6 7.8 19.0
Nota: Debe tenerse cuidado de no llevar los bigotes hasta los límites razonables. Los límites razonables, por lo
general, no son valores reales de la distribución, sino límites matemáticos obtenidos para determinar qué es un valor
atípico.
Desviación media Es la suma de los valores absolutos de la diferencia entre cada valor y la media; dividido todo por
la cantidad de observaciones. Esta medida generalmente no se usa, pues resulta difícil trabajar matemáticamente
con valores absolutos.
DM =
∑ xi − x
n
Varianza Esta medida refleja cuánto, en promedio, cada puntuación de la distribución se desvía de la media.
En una muestra el símbolo que se usa es s2 y en una población es σ2
Es un promedio de los cuadrados de las diferencias entre cada valor y la media.
s 2
=
(x1 − x ) + (x 2 − x ) + .......... .. + (x n − x )
2 2 2
n −1
donde la media es x
n = tamaño de la muestra
xi = i-esimo valor de la variable
Debe notarse que el denominador no es n para la muestra sino n-1. Para una población, sin embargo, el
denominador es N
Sin embargo es importante recordar que la varianza es un promedio de desviaciones de cada valor con
respecto a la media.
Todo estudiante es responsable de saber hallar la varianza y la desviación estándar con su calculadora.
n
∑ (x i − x )2
i =1
s=
n −1
La desviación estándar se prefiere a la varianza pues usa la misma unidad de las observaciones. No tiene sentido
hablar de unidades cuadradas.
La varianza eleva al cuadrado la diferencia entre cada valor y la media, pues si no lo hiciera la suma de las
diferencias sería cero.
(4.9 - 8.3)+ (6.3 - 8.3) + (7.7 - 8.3) + (8.9 - 8.3) + (10.3 - 8.3) + (11.7 - 8.3) = 0
Así pues, la desviación estándar, como una medición de la variación promedio alrededor de la media, nos ayuda a
comprender cómo se distribuyen las observaciones por encima y por debajo de la media y nos ayuda a enfocar y
señalar observaciones inusuales (es decir, extremas) al analizar una serie de datos numéricos.
CAPITULO 2 31
Compilador: Hernando Castaño Buitrago
La regla de Bienaymé Chebyshev Hace más de un siglo, los matemáticos Bienaymé y Chebyshev examinaron de
manera independiente la propiedad de variabilidad de los datos alrededor de la media. Encontraron que, sin importar
cómo se distribuye una serie de datos, el porcentaje de observaciones que están contenidas dentro de las distancias
de k desviaciones estándar alrededor de la media debe ser al menos
⎛ 1 ⎞
⎜⎜ 1 − ⎟⎟100%
⎝ k2 ⎠
Por tanto, para datos con cualquier forma:
⎡ 1⎤
- Al menos ⎢1 − × 100% = 75,0% de las observaciones deben estar contenidas dentro de distancias de
⎣ 2 2 ⎥⎦
± 2 desviaciones estándar alrededor de la media.
⎡ 1⎤
- Al menos ⎢1 − × 100% = 88,89% de las observaciones deben estar contenidas dentro de distancias de
⎣ 3 2 ⎥⎦
± 3 desviaciones estándar alrededor de la media.
⎡ 1⎤
- Al menos ⎢1 − × 100% = 93,75% de las observaciones deben estar contenidas dentro de distancias de
⎣ 4 2 ⎥⎦
± 4 desviaciones estándar alrededor de la media.
Aunque la regla de Bienaymé Chebyshev se aplica a cualquier tipo de distribución de datos, veremos más adelante
que si los datos forman la distribución normal de “campana” o gaussiana, 68.26% de todas las observaciones
estarán contenidas dentro de distancias de ± 1 desviaciones estándar alrededor de la media, mientras que 95.44%,
99.73% y 99.99% de las observaciones estarán incluidas, respectivamente, dentro de distancias de ± 2, ± 3 y ± 4
desviaciones estándar alrededor de la media.
A diferencia de las mediciones previas que hemos estudiado, el coeficiente de variación es una medición relativa
de variación. Se expresa como un porcentaje antes que en términos de las unidades de los datos particulares.
El coeficiente de variación, denotado por el símbolo CV, mide la dispersión en los datos relativa a la media. Puede
calcularse mediante
⎛S⎞
C.V. = ⎜ ⎟ × 100%
⎝X⎠
Las distribuciones pueden describirse según la forma que asume su gráfica. Cuando se construye el polígono de
frecuencias la gráfica tiene una forma que puede ser simétrica o asimétrica.
CAPITULO 2 32
Compilador: Hernando Castaño Buitrago
Distribuciones simétricas y distribuciones sesgadas Se dice que la distribución es simétrica si se puede dividir
en dos mitades que parecen ser la imagen una de la otra. En estos casos las frecuencias en los extremos de la
distribución son idénticas. La gráfica puede tener diferentes formas. Una de estas formas es la de campana.
Si la distribución tiene algunos valores extremos muy bajos, entonces en la gráfica se nota una cola larga y fina hacia
la izquierda de la distribución y se dice que la distribución está sesgada negativamente o que tiene un sesgo a la
izquierda.
Si la distribución tiene algunos valores extremos altos, entonces en la gráfica se nota una cola larga y fina hacia la
derecha de la distribución y se dice que la distribución está sesgada positivamente o que tiene un sesgo a la
derecha.
CAPITULO 2 33
Compilador: Hernando Castaño Buitrago
Si la media es menor que la mediana (la media a la izquierda de la mediana) entonces la distribución está sesgada a
la izquierda (negativamente)
Ejemplo
En estos casos la media siempre está más cerca del sesgo que la mediana.
Relación entre las gráficas de dos distribuciones con medidas de tendencia central y dispersión iguales o
diferentes
Si dos distribuciones tienen la misma desviación estándar, pero medias diferentes; entonces van a tener la misma
forma. La diferencia consiste en que se encuentran desplazadas a lo largo del eje de x.
Si dos distribuciones tienen la misma media, pero sus desviaciones estándar son diferentes; entonces se diferencian
en que la que tiene la desviación estándar más pequeña tiene los valores más concentrados alrededor de la media y
por lo tanto es más "alta".
CAPITULO 2 35
Compilador: Hernando Castaño Buitrago
Ejercicio
Ahora que hemos estudiado las tres principales propiedades de los datos numéricos (localización o tendencia
central, variación y forma), es importante que identifiquemos y describamos las principales características de los
datos en un formato resumido. Una forma de abordar éste “análisis de datos exploratorio” es desarrollar un resumen
de cinco números y construir una gráfica de cajas y sesgos.
Xmenor Q1 ~
m Q3 Xmayor
Combina tres mediciones de localización o tendencia central (la mediana, el eje medio y el rango medio) y dos
mediciones de variación (el rango intercuartil y elalcance medio) para darnos una mejor idea de la forma de la
distribución.
2. En distribuciones sesgadas a la derecha, mediana < eje medio y < rango medio.
3. En distribuciones sesgadas a la izquierda la distancia de X menor a Q1 excede en gran medida a la distancia de Q3
a X mayor.
4. En distribuciones sesgadas a la izquierda rango medio < eje medio < mediana.
La gráfica de caja y sesgos o bigote provee visualmente una cantidad considerable de información sobre la
distribución. Con las medidas de localización que se han presentado hasta ahora es posible construirla, pero el total
de la información que puede ofrecer no quedará claro hasta que se hayan visto las medidas de dispersión y las
formas de las distribuciones.
La gráfica de caja y bigote se construye utilizando el valor mínimo, Q1, la mediana, Q3 y el valor máximo.
Estas gráficas también se pueden representar verticalmente. El programa SPSS permite cambiar la orientación de
estas gráficas dependiendo de nuestra preferencia.
CAPITULO 2 37
Compilador: Hernando Castaño Buitrago
(En la clase se podría discutir un ejemplo utilizando la información de los perros ralengos para construir un gráfico de
caja)
b. Si los bigotes son diferentes y la mediana no se encuentra en el medio de caja entonces la distribución está
sesgada. Negativamente, si el bigote y la parte de la caja largos se encuentran a la izquierda. Positivamente, si
el bigote y la parte de la caja largos se encuentran a la derecha.
CAPITULO 2 38
Compilador: Hernando Castaño Buitrago
d. Si los bigotes y las partes de la caja son todos del mismo largo, entonces la distribución es rectangular o
uniforme. Tiene la misma frecuencia en cada uno de sus valores.
e. Si los bigotes son cortos y la caja muy larga la distribución tiene forma de U, con mucha concentración de
valores en los extremos.