Introducción a Estadística Descriptiva
Introducción a Estadística Descriptiva
Estadística Descriptiva
1: ESTADÍSTICA DESCRIPTIVA Y ANÁLISIS DE DATOS
1
o Inducción estadística: analiza una población o universo basada en un
estudio muestral. Otros métodos estadísticos distintos de los inducti-
vos son referidos como Estadística Descriptiva.
Estadística Descriptiva
o Análisis de series de tiempo: analiza los cambios en las actividades de
negocios y económicas.
o Análisis de relación: analiza las relaciones entre dos o más conjuntos
de datos estadísticos.
Interpretación
Una conclusión válida puede ser alcanzada después de que los resultados
del análisis son interpretados.
Síntesis
Sintetizar consiste en organizar, comprender, proce-
sar e integrar la información proveniente de múltiples
fuentes.
La síntesis es la reestructuración o reelaboración de
la información en formatos nuevos o diferentes para
po- der cumplir con los requisitos del trabajo.
La síntesis puede ser tan simple como transmitir un hecho específico o lo
bastante compleja, como para contener varias fuentes, varios formatos de
presentación o diferentes medios de información y permitir la
Estadística Descriptiva
comunicación efectiva de ideas abstractas.
En esta etapa es importante enfocarse en comprender la información ex-
traída para presentarla (como producto) en sus propias palabras y en la
forma requerida por la tarea.
Descripción
La descripción de los datos cuantitativos, tales como longitudes,
consumos, etcétera, se refiere al cálculo de toda clase de estadísticos
(medidas de tendencia central, medidas de dispersión, medidas de posición
no centrada, medidas de asimetría, medidas de apuntamiento, entre
otras).
Así mismo, las descripciones se pueden contemplar en
modo gráfico, con histogramas, gráficos de tallo y ho-
jas, gráficos de caja y extensiones, diagramas de ba-
rras y circulares, con las correspondientes opciones
tridimensionales y sus correspondientes propiedades
de rotación horizontal y vertical, etcétera.
La descripción de datos categóricos, tales como zonas geográficas, niveles
de aptitud de operarios y alumnos, grados de satisfacción de clientes,
etcé- tera, se realizan mediante efectivos procedimientos de tabulación y
tabula- ción cruzada, que junto con las opciones gráficas, permiten
determinar los posibles grados de asociación, entre las categorías
analizadas (por ejemplo, la relación entre la afición a la lectura de los
padres y el grado de rendi- miento escolar de los hijos).
Estadística Descriptiva
respáldelos con investigaciones relevantes, observaciones convincentes y
cualquier otro tipo de evidencia que fortalezca el tema de su presentación.
Use un formato y diseño consistentes. Recuerde que los gráficos deben
complementar, no desvirtuar el contenido de la presentación.
Exprese con claridad sus ideas y conclusiones.
No base su informe estadístico en una serie de impresiones con salidas de
un programa estadístico que carezcan de sentido para el lector.
Es necesario que realice una interpretación de los resultados obtenidos, e
incluso que presente un informe en un lenguaje más cercano a las personas
que deben usar los resultados estadísticos sin necesidad de ser expertos
en Estadística.
estadístico realiza- do, se debe destacar la importancia de la automotivación en la Educación a Distancia, ya que es el alumno el que gestiona su aprendizaje
Estadística Descriptiva
Cuando se comienza a analizar una variable estamos interesados en saber
los valores que puede tomar, el número total de datos y cuántas veces aparecen
los diferentes valores. La distribución de una variable nos proporciona esta
informa- ción.
Para presentar variables, tanto cualitativas como cuantitativas, lo
podemos hacer mediante una tabla o cuadro, que ofrece una visión numérica
sintética y global de dicha variable.
Ejemplo :
En un estudio realizado por el Instituto del hierro y el acero de Estados Unidos
durante el año 1992, se analizó las cantidades (en miles de toneladas) de impor-
taciones de acero, en distintos países:
Fuente: U.S. Department of Commerce. Datos preparados por el American Iron and Steel
Institute, publicados en Charting Steel’s Progress in 1992.
Nota: Para poder operar con los datos de la tabla o referirnos a ella, podemos
representar la característica a observar (países) mediante la variable X y a la
modalidad i-ésima de di- cha variable con la notación xi.
Estadística Descriptiva
Frecuencia simple absoluta (fi ): representa el número de individuos que
presentan cada modalidad xi.
Frecuencia simple relativa (fri ): nos permite valorar la representatividad
de cada categoría respecto al total de los datos. Se calcula: fi / n.
Frecuencia simple relativa porcentual (fri%): representa en porcentajes
las frecuencias simples relativas. Se calcula: fri . 100%.
Ejemplo :
Las siguientes son las alturas, en centímetros, de sesenta alumnos universitarios:
150 160 161 160 160 172 162 160 172 151
161 172 160 169 169 176 160 173 184 172
160 170 153 167 167 175 166 173 169 178
170 179 175 174 160 174 149 162 161 168
170 173 156 159 154 156 160 166 170 169
163 168 171 178 179 164 176 163 182 162
en 2004
Estadística Descriptiva
162 3 0,0500 5,00 % 23 0,3833 38,33%
163 2 0,0333 3,33 % 25 0,4167 41,67%
164 1 0,0167 1,67 % 26 0,4333 43,33%
166 2 0,0333 3,33 % 28 0,4667 46,67%
167 2 0,0333 3,33 % 30 0,5000 50,00%
168 2 0,0333 3,33 % 32 0,5333 53,33%
169 4 0,0667 6,67 % 36 0,6000 60,00%
170 4 0,0667 6,67 % 40 0,6667 66,67%
171 1 0,0167 1,67 % 41 0,6833 68,33%
172 4 0,0667 6,67 % 45 0,7500 75,00%
173 3 0,0500 5,00 % 48 0,8000 80,00%
174 2 0,0333 3,33 % 50 0,8333 83,33%
175 2 0,0333 3,33 % 52 0,8667 86,67%
176 2 0,0333 3,33 % 54 0,9000 90,00%
178 2 0,0333 3,33 % 56 0,9333 93,33%
179 2 0,0333 3,33 % 58 0,9667 96,67%
182 1 0,0167 1,67 % 59 0,9833 98,33%
184 1 0,0167 1,67 % 60 1,0000 100,00%
n = 60
Fuente: Datos hipotéticos
Variable (xi): para poder operar con los datos de la tabla o referirnos a
ella, podemos representar la característica a observar (estatura de los
estu- diantes universitarios) mediante la variable X y a la modalidad i-
ésima de dicha variable con la notación xi.
Frecuencia simple absoluta (fi): representa el número de individuos que
presentan cada modalidad xi.
Frecuencia simple relativa (fri): nos permite valorar la representatividad
de cada categoría respecto al total de los datos. Se calcula: fi / n.
Frecuencia simple relativa porcentual (fr i%): representa en porcentajes
las frecuencias relativas. Se calcula: fri . 100%.
Frecuencia acumulada (Fi): representa el número de individuos que presen-
tan una modalidad inferior o igual a x i . Se obtiene sumando las frecuencias
absolutas correspondientes a todos los valores menores o iguales a xi.
Frecuencia acumulada relativa (Fri): nos permite valorar la representativi-
dad de cada categoría respecto al total de los datos. Se calcula: Fi / n.
Frecuencia acumulada relativa porcentual (Fri%): representa en porcenta-
jes las frecuencias acumuladas relativas. Se calcula: Fri . 100%.
Muchas veces, es necesario o resulta más cómodo trabajar con los datos
Estadística Descriptiva
agrupa- dos en intervalos (o clases). La manera de agrupar los datos será
estudiada más adelante, por ahora planteamos una posibilidad de agrupación
para ver la aplica- ción en nuestro ejemplo:
Estadística Descriptiva
estadística, que es fundamentalmente numérica.
Las representaciones gráficas pueden hacerse utilizando un sistema
geomé- trico de representación, en cuyo caso gozan de rigurosidad y precisión,
o bien pueden utilizarse símbolos alusivos al tema en estudio (por ejemplo,
casas, árbo- les, figuras humanas, etcétera). Mediante este último sistema de
representación no se persigue una rigurosa exactitud, sino lograr efectos
visuales en quien está leyendo la información.
Existe una gran variedad de gráficos. Su elección depende de las variables
en estudio y de las características que se quieren destacar. Para la
construcción de gráficos no hay reglas únicas. Siempre se debe tener presente
que un gráfico da información más rápida pero menos precisa que la tabla.
A. Datos cualitativos
Ejemplo :
Veremos las distintas representaciones gráficas en el ejemplo anterior:
Gráfico de barras verticales
Estadística Descriptiva
Principales fuentes de importaciones de acero en Estados Unidos durante 1992
(en miles de toneladas) Cantidad de acero
14 00
12 00
10 00
800
600
400
200
0
Reino Unido
Japón
Otros
Alemania
Canadá
Francia
Bélgica y
Paíse s
Luxemburgo
Fuente: U.S. Department of Commerce. Datos preparados por el American Iron and Steel Insti-
tute, publicados en Charting Steel’s Progress in 1992.
R ein o U n id o25 0
Fra n c ia29 9
Ca n a d á36 7
A le m a n ia46 0
Ja p ón
10 7 2
Bé lg ic a y L u xe m b u rg o12 4 7
C an tid ad d e acero
( en m iles de toneladas)
Fuente: U.S. Department of Commerce. Datos preparados por el American Iron and Steel Insti-
tute, publicados en Charting Steel’s Progress in 1992.
Gráfico de Pareto
Estadística Descriptiva
Una variante importante de los diagramas de barras es el diagrama de
Pare- to. Este diagrama tiene un uso muy amplio, sobre todo, por su valor para
realizar comparaciones.
Las categorías están ordenadas de modo tal que en la parte izquierda apa-
rezca la categoría con mayor frecuencia, seguida por la segunda mayor
frecuen- cia y así, sucesivamente. Este tipo de diagramas debe su nombre al
economista italiano V. Pareto.
1200 10 7 2
Cantidad de acero
1000
800
460
405
36 7
6 40 00 0 29 9
250
(en miles de toneladas)
200
0
Otros
Japón
Reino Unido
Francia
Alemania
Canadá
Bélgica y
Luxemburgo
Pa í s e s
Fuente: U.S. Department of Commerce. Datos preparados por el American Iron and Steel Ins-
titute, publicados en Charting Steel’s Progress in 1992.
Gráfico de sectores
Estadística Descriptiva
6% 31% Alemania Canadá
Francia Reino Unido
Otros
7%
9%
11%
26%
Fuente: U.S. Department of Commerce. Datos preparados por el American Iron and Steel Insti-
tute, publicados en Charting Steel’s Progress in 1992.
Otros
Bélgica y Luxemburgo
10%
Reino Unido 6% 31%
Francia 7%
Canadá
9%
Japón
Alemania 26%
11%
Fuente: U.S. Department of Commerce. Datos preparados por el American Iron and Steel Insti-
tute, publicados en Charting Steel’s Progress in 1992.
B. Datos cuantitativos
Estadística Descriptiva
Como hemos visto, es interesante conocer simultáneamente el valor indivi-
dual de cada una de las observaciones. El gráfico de tronco y hojas (también
llamado gráfico de tallo y hojas) fue descrito por Tukey.
Ejemplo :
Se desea analizar cuánto demora un procesador X en guardar un archivo de
cier- to tamaño. Los tiempos, en segundos, que se recopilaron fueron
veinticinco y es- tán dados en la siguiente tabla:
Estadística Descriptiva
0,7 0,8 0,9 0,9 1,2
1,2 1,2 1,4 1,4 1,5
1,6 1,9 2,1 2,2 2,4
2,6 2,6 3,7 3,8 3,9
0
1
2
3
2 0|24
9 0|5577899
(5) 1|22244
11 1|569
8 2|124
5 2|66
3 3|
3 3|789
El gráfico muestra al conjunto de datos dividido en ocho troncos seguidos de
una barra vertical separadora, representados en la segunda columna y seguidos
por sus hojas.
Estadística Descriptiva
Seguramente se preguntará por qué lo hace en ocho troncos si nosotros lo hici-
mos en cuatro.
No hay un único gráfico de tronco y hojas para un determinado conjunto de da-
tos, es posible realizarlo de distintas maneras, según la necesidad, la claridad
e, incluso, la estética que se quiera presentar para la descripción del conjunto
de datos.
En este caso, Statgraphics Plus 5.1 propone un tronco para los valores entre
0,0 y 0,4 (0|24); otro para los valores entre 0,5 y 0,9 (0|5577899); otro para
los valores entre 1,0 y 1,4 (1|22244); otro para los valores entre 1,5 y 1,9 (1|
569); y así sucesivamente hasta los troncos definidos para los valores entre
3,0 y 3,4 (que no tiene hojas porque no se han observado valores en ese
intervalo) y entre 3,5 y 3,9 (3|789).
En la primera columna aparecen las frecuencias acumuladas, pero no como esta-
mos acostumbrados, sino que se acumulan desde el menor valor hasta el tronco
que contiene al valor que está exactamente en el medio del conjunto de datos
(que más adelante estudiaremos y se llama mediana) y desde el mayor valor
(ubi- cado en el último renglón) hasta el tronco que contiene a la mediana. La
frecuen- cia correspondiente a este tronco es una frecuencia absoluta simple y
se indica entre paréntesis.
Iremos explicando cómo se han calculado las frecuencias en cada renglón:
9 0|5577899 En este tronco hay 7 valores, más los 2 del tronco anterior, que suman 9.
(5) 1|22244 Este tronco contiene a la mediana, por lo que se registra la frecuencia
absoluta simple 5 (hay 5 valores con este tronco) y se la coloca entre
paréntesis (5).
11 1|569 La frecuencia presentada es 11 porque es lo acumulado desde el valor
más grande (3,9) hasta el primer valor de este tronco (1,5). Es decir, es
la cantidad de valores que faltan para llegar al valor más grande.
8 2|124 Son 8 los valores que faltan, desde el primer valor de este tronco (2,1),
para llegar a completar los veinticinco datos del conjunto.
5 2|66 Son 5 los valores que faltan, desde el primer valor de este tronco (2,6),
para llegar a completar los veinticinco datos del conjunto.
3 3| Son 3 los valores que faltan, desde el primer valor de este tronco (no
hay valores), para llegar a completar los veinticinco datos del conjunto.
3 3|789 Son 3 los valores que faltan, desde el primer valor de este tronco (3,7),
para llegar a completar los veinticinco datos del conjunto.
Estadística Descriptiva
Gráfico de puntos
10
9
Frecuencia
8
7
6
5
4
3
2
1
0,1
Tiempo
Fuente: Datos hipotéticos
Tanto las variables discretas como las continuas, con un número grande de
valores, se suelen agrupar en intervalos al elaborar las tablas de frecuencias.
La primera decisión que hay que tomar para agrupar una variable es el
núme- ro de intervalos en que se debe dividir. No existe una regla fija, y en
última ins- tancia será un compromiso entre la pérdida de la información que
supone el agru- pamiento y la visión global y sintética que se persigue. Esta
‘flexibilidad’ para la
selección de la cantidad de intervalos puede provocar dudas o confusiones, es
por eso que Sturgess da una fórmula para quien no quiera o no pueda decidir la
canti- dad de clases a utilizar.
Estadística Descriptiva
Para proceder a la construcción de una distribución de frecuencias con da-
tos agrupados es preciso tener en cuenta las siguientes nociones:
Estadística Descriptiva
conjunto de datos será tomado como ejemplo de aquí en adelante)
150 160 161 160 160 172 162 160 172 151
161 172 160 169 169 176 160 173 184 172
160 170 153 167 167 175 166 173 169 178
170 179 175 174 160 174 149 162 161 168
170 173 156 159 154 156 160 166 170 169
163 168 171 178 179 164 176 163 182 162
El método consta de los siguientes pasos:
Ordenar los datos de menor a mayor
149 150 151 153 154 156 156 159 160 160
160 160 160 160 160 160 160 161 161 161
162 162 162 163 163 164 166 166 167 167
168 168 169 169 169 169 170 170 170 170
171 172 172 172 172 173 173 173 174 174
175 175 176 176 178 178 179 179 182 184
Determinar el tamaño de muestra
n = 60
Reconocer el máximo y el mínimo
xmáx = 184 xmín = 149
Calcular el alcance o recorrido
R = xmáx - xmín = 184 - 149 = 35
Calcular la cantidad de intervalos
k = 1 + 3,3.log n = 1 + 3,3 . log 60 6,87 k = 7 (El valor de k siempre debe ser redon-
deado a un número entero inferior o superior. Lo usual es hacer el redondeo matemático.)
Calcular la longitud de cada intervalo
l = R / k = 35 / 7 = 5 (Si el valor de l resultara ser un número decimal, hay que realizar un
redondeo por exceso, con la cantidad de posiciones decimales que se deseen. Por ejemplo,
si diera 6,270791, se puede redondear a 6,28 ó 6,3 ó 7, entre otras opciones, pero nunca
6,27 ó 6,2 ó 6.)
Armar una tabla con los intervalos obtenidos, las marcas de clase y las
fre- cuencias correspondientes
149 150 151 153 154 156 156 159 160 160
160 160 160 160 160 160 160 161 161 161
162 162 162 163 163 164 166 166 167 167
168 168 169 169 169 169 170 170 170 170
171 172 172 172 172 173 173 173 174 174
175 175 176 176 178 178 179 179 182 184
Intervalos Punto Frecuencia Frecuencia Frecuencia Frecuencia Frecuencia Frecuencia
o medio simple abso- simple rela- simple rela- acumulada acumulada acumulada
clases luta tiva tiva porcen- absoluta relativa relativa
tual porcentual
Estadística Descriptiva
xi fi fri fri% Fi Fri Fri%
n = 60 1,0000 100 %
Fuente: Datos hipotéticos
Nota 1: Como el límite superior de cada clase coincide con el límite inferior de la siguiente,
adoptamos como criterio que los intervalos se suponen semiabiertos por la dere-
cha, es decir, en cada clase se incluyen los valores de la variable que sean mayores
o iguales al límite superior, pero estrictamente menores que el límite superior.
Nota 3: En las frecuencias relativas (fr i), se debe redondear de tal manera que la suma dé
uno.
Histograma
20
Estadística Descriptiva
Cantidad de alumno
15
10
0//
Polígono de frecuencias
20
Cantidad de alumnos
15
10
0
//
147152157162167172177182187
144 149154159164169174 179184 189
Estatura (en cm)
Estadística Descriptiva
denados.
20
so 18
nm 16
ul 14
a 12
ed 10
da 8
di 6
tn 4
aC 2
0 //
146,5 151,5 156,5161,5 166,5 171,5 176,5181,5 186,5
144 149154159 164 169174179 184189
Estatura (en cm)
Ojiva
70
ad60
alu 50
mu 40
ca
30
ne 20
er 10
F
0//
139 144 149 154 159 164 169 174 179 184 189 194 199 204
Estadística Descriptiva
criben una distribución de frecuencias , es decir, muestran el patrón de distribu-
ción de las frecuencias. En general, las descripciones se refieren a aspectos de la
forma del histograma o del polígono de frecuencias.
4
3
2
1
0
0 1 2 3 4 5 6 7 8 9 10 11
Calificación
Ejemplo de distribución bimodal:
Estadística Descriptiva
Estadística
10
9
8
7
6
5
4
Frecuencia
3
2
1
0
01234567891011
Calificación
1
0
01234567891011
Calificación
¿Y qué pasa si todos los valores presentan la mis- ma frecuencia...?
Estadística Descriptiva
En estos casos diremos que... No hay moda.
Curso A
Calificación obtenida por los alumnos en un curso de Estadística
10
8
Frecuencia
6
4
2
0
0 1 2 3 4 5 6 7 8 9 1011
Calificación
Curso B
Calificación obtenida por los alumnos en un curso de Estadística
Estadística Descriptiva
10
8
Frecuencia
0 0 1 2 3 4 5 6 7 8 9 10 11
Calificación
Curso C
Calificación obtenida por los alumnos en un curso de Estadística
20
15
Frecuencia
10
0 1 2 3 4 5 6 7 8 9 10 11
Calificación
71.67%
Estadística Descriptiva
60
50
porcentaje
40
30
20
10
0
1 2 3
1: POCO 2: FRECUENTEMENTE 3: SISTEMÁTICAMENTE
Pelo C | 17 | 8 | 25
(Claro) | 28.33% | 13.33% | 41.67%
Pelo O | 6 | 29 | 35
(Oscuro) | 10.00% | 48.33% | 58.33%
Columna 23 37 60
Total 38.33% 61.67% 100.00%
80
16
Porcentaje
12 60
8 40
4
20
0
34 36 38 40 42 44 46 48 0
34 37 40 43 46 49
Calzado
Calzado
Estadística Descriptiva
Distribución de la Estatura de los alumnos (cm)
15
12
9
6
3
0
150160170180190200
Estatura
Estadística Descriptiva
parámetros, que vimos en la Introducción?
Es importante que revise estos conceptos antes de continuar...
Hemos visto que los datos de una muestra pueden ser representados
gráfi- camente, dando una idea global del conjunto de datos analizado.
La representación gráfica de los datos es una primera incursión en el
análi- sis de datos, pero tiene sus limitaciones. Si se desea describir más
profundamen- te el conjunto de datos no siempre es fácil hacerlo a partir de un
gráfico, e in- cluso, no es fácil comparar algunos conjuntos de datos. Por esto,
es fundamental resumir los datos.
Vimos que podíamos reducir los datos a una forma más compacta,
compren- sible y comunicable por la distribución de frecuencias.
Las distribuciones de frecuencias no sólo sirven para organizar datos, sino
que es también una medida descriptiva del modelo de distribución de una varia-
ble. Realmente, pueden ser consideradas como un conjunto de medidas
descripti- vas, porque cada número que muestra la frecuencia (o densidad) de
observacio- nes de una clase es una estadística . Pero, a menudo, necesitamos
medidas des- criptivas en forma de números que pueden concentrar mejor la
atención en varias propiedades de un conjunto de datos que se investiga.
En realidad, raras veces observamos o medimos poblaciones enteras, por
esto, nos dedicaremos a la descripción de conjuntos de datos , en términos de
muestras.
Estadística Descriptiva
modales, pero también se aplican a otros tipos de distribuciones.
Media Aritmética
Estadística Descriptiva
Desventajas de la media aritmética
Aunque la media es confiable en el sentido de que toma en cuenta todos los
valores del conjunto de datos, puede verse afectada por valores extremos
que no son representativos del resto de los datos.
El cálculo se hace tedioso cuando trabajamos con una gran cantidad de
valo- res diferentes.
Se presentan dudas al calcular la media para clases de extremo abierto,
ta- les como, “mayor que 14” o “menor que 6”.
Mediana
Estadística Descriptiva
Ventajas de la mediana
Los valores extremos no afectan a la mediana tan intensamente como
a la media.
La mediana es fácil de entender y se puede calcular a partir de cualquier
tipo de datos (excepto datos cualitativos nominales), incluso a partir de
da- tos agrupados con clases de extremo abierto, a menos que la clase
mediana sea justamente una de las de extremo abierto, por ejemplo, la
clase “mayor que 4”.
Desventajas de la mediana
Ciertos procedimientos estadísticos que utilizan la mediana son más
comple- jos que aquellos que utilizan la media.
Debido a que la mediana es una posición promedio, debemos ordenar los da-
tos antes de llevar a cabo cualquier cálculo, lo cual consume mucho tiempo
si el conjunto de datos es muy grande.
Ventajas de la moda
La moda, al igual que la mediana, se puede utilizar como una posición
central para datos tanto cualitativos como cuantitativos.
La moda no se ve mayormente afectada por los valores extremos.
Incluso si los valores extremos son muy altos o muy bajos, nosotros
escogemos el va- lor más frecuente del conjunto de datos como el valor
modal. Podemos utili- zar la moda sin importar qué tan grandes o qué tan
pequeños sean los valo- res del conjunto de datos, e independientemente
de cuál sea su dispersión.
Podemos calcular la moda aun cuando una o más clases sean de extremo
abierto.
Estadística Descriptiva
Desventajas de la moda
A menudo, no existe un valor modal debido a que el conjunto de datos
no contiene valores que se presenten más de una vez.
Cuando los conjuntos de datos contienen muchas modas, resultan
difíciles de interpretar y comparar.
Ejemplo :
Retomaremos el ejemplo de las estaturas de los alumnos universitarios. En primer
lugar, como datos individuales y luego como datos agrupados.
150 160 161 160 160 172 162 160 172 151
161 172 160 169 169 176 160 173 184 172
160 170 153 167 167 175 166 173 169 178
170 179 175 174 160 174 149 162 161 168
170 173 156 159 154 156 160 166 170 169
163 168 171 178 179 164 176 163 182 162
Datos individuales
xi fi Fi xi fi Fi
149 1 1 168 2 32
150 1 2 169 4 36
151 1 3 170 4 40
153 1 4 171 1 41
154 1 5 172 4 45
156 2 7 173 3 48
159 1 8 174 2 50
160 9 17 175 2 52
161 3 20 176 2 54
162 3 23 178 2 56
163 2 25 179 2 58
164 1 26 182 1 59
166 2 28 184 1 60
167 2 30 n=60
Media aritmética
Como la media aritmética de las observaciones x1, x2, ..., xn es el promedio arit-
Estadística Descriptiva
mético de éstas, se denota por:
x i
xi.fi
n
Para datos individuales, los xi son todos los posibles valores que pueda tomar la
variable en estudio y las fi, las frecuencias absolutas correspondientes.
xi.fi xi .f fi
= = xi.
i
Trabajando la expresión anterior, x i
n i n i n
Al dividir fi por n, obtenemos fi/n, que es la frecuencia relativa correspondiente
a cada valor xi. Esta frecuencia relativa es usualmente llamada peso de cada valor
xi de la variable estudiada.
Siguiendo la notación del inglés, este peso se indica como wi, por lo que fi/n = wi.
Así, y continuando el trabajo en la expresión de la media aritmética, tenemos:
xi . x .f f
fi
= xi. = xi.wi
i
xi = ii
n i n i n i
i xi.fi
x= = 149.1+...+166.2+...+184.1 9990
n = =166,55 cm
60 60
Interpretación: La estatura promedio de los estudiantes es de 166,55 cm
Mediana
Como n es par, para saber la posición del valor de la mediana, buscamos las posi-
ciones n/2 y (n+2)/2, luego, se ven los valores de variable correspondientes y
se calcula el promedio entre ellos, obteniendo así el valor de la mediana que
deja por encima y por debajo de él, el 50% de las observaciones.
La posición n/2 = 60/2 = 30º corresponde al valor 167 cm
La posición (n+2)/2 = (60+2)/2 = 31º corresponde al valor 168 cm
Luego, la mediana es el valor promedio entre 167 cm y 168 cm, es
decir:
x% = 167,50 cm
Interpretación: El 50% de los estudiantes universitarios observados miden
167,50 cm o menos y el otro 50% miden 167,50 cm o más.
Estadística Descriptiva
Modo, moda o valor modal
xi fi Fi
149 1 1
. . .
. . .
. . .
159 1 8
160 9 17 Œ Máxima frecuencia absoluta Valor
modal
161 3 20
. . .
. . .
. . .
184 1 60
n = 20
Datos agrupados
Intervalos xi fi Fi
[149 , 154) 151,5 4 4
[154 , 159) 156,5 3 7
[159 , 164) 161,5 18 25
[164 , 169) 166,5 7 32
[169 , 174) 171,5 16 48
[174 , 179) 176,5 8 56
[179 , 184] 181,5 4 60
n=60
Media aritmética
Para datos agrupados basta con extender la definición, considerando a los xi
co- mo los puntos medios de cada intervalo, también llamados marca de clase, y
Estadística Descriptiva
sien- do las fi, las frecuencias absolutas correspondientes a cada clase.
151,5.4 ... 181,5.4 10030
xi.fi
=
60 167,17 cm
x i 60
n
Interpretación: La estatura promedio de los estudiantes es de 167,17 cm
Mediana
Intervalos xi fi Fi
[149 , 154) 151,5 4 4
[154 , 159) 156,5 3 7
[159 , 164) 161,5 18 25
[164 , 169) 166,5 7 32 Œ Clase mediana
[169 , 174) 171,5 16 48
[174 , 179) 176,5 8 56
[179 , 184] 181,5 4 60
n=60
Estadística Descriptiva
⎞
⎛n 25
~⎞
Fant x ⎜ ⎟
⎜ ⎟ 2
~ = Linf x ~ + l . ⎜ 2
x ⎟ = 164 + 5 . ⎜ ⎟ = 167,57 cm
⎜ fx~ ⎟ ⎜ 7 ⎟
⎝ ⎠ ⎝ ⎠
Interpretación: El 50% de los estudiantes
universitarios observados miden
167,57 cm o menos y el otro 50% miden 167,57 cm o más.
Nota 2: La mediana puede calcularse a partir del gráfico de la distribución acumulativa (ojiva),
aunque en forma aproximada.
Es conveniente realizar la ojiva colocando en ordenadas la frecuencia acumulada por-
centual. Ubicar el 50% y ver a qué valor de abscisa corresponde.
120%
Frecuencia acumulada porcentual
100%
80%
60%
40%
20%
0%
//
159 144 149 154 159 164 169 174 179 184 189 194 199 204
Mediana
Estadística Descriptiva
Diremos que la moda, Mo, pertenece a este intervalo, pero es necesaria
una mayor precisión. Por esto buscaremos el valor de la moda dentro de la
clase modal.
Mo [159 , 164)
El valor de la moda se obtiene mediante la fórmula:
Mo = xMo = Linf Mo + l . ⎜⎛Δ1 ⎟⎞
Δ1 Δ2
⎝ ⎠
Siendo:
Linf Mo : límite inferior de la clase modal
Δ1 : diferencia entre la frecuencia de la clase modal y la clase premodal (an-
terior a la modal).
Δ2: diferencia entre la frecuencia de la clase modal y la clase posmodal
(posterior a la modal).
l: longitud de la clase modal
⎛ 15 ⎞
Mo = xMo = 159 + 5 . = 161,88 cm
⎜ 15 11⎟
⎝ ⎠
Siendo:
Δ1 = 18 - 3 = 15 Δ2 = 18 - 7 = 11
Interpretación: La estatura de los estudiantes universitarios
observados que se presenta con mayor frecuencia es 161,88 cm.
Para pensar
La siguiente es la distribución de los salarios de los empleados de una pequeña fá-
brica:
Salario Cantidad de empleados
$10000 1
$2500 1
$1000 1
$500 2
$200 4
Cátedra: Probabilidad y Estadística UT1
Facultad Regional Mendoza Estadística descriptiva y análisis de datos
Universidad Tecnológica Nacional D. Fernández & M. Guitart
Los empleados realizan una huelga para pedir mejora de sus salarios. Un periodista
realiza una nota preguntando cuál es el salario medio.
¿Qué medida de tendencia central daría usted si...
Estadística Descriptiva
a) ... fuera el dueño?
b) ... fuera un representante sindical?
c) ... fuera un investigador científico?
B. Medidas de Dispersión
Las medidas de tendencia central nos indican los valores alrededor de los
cuales se distribuyen los datos.
Las medidas de dispersión son estadísticos que nos proporcionan una
medida del mayor o menor agrupamiento de los datos respecto a los valores de
tendencia central.
Todas ellas son valores mayores o iguales a cero, indicando un valor cero,
la ausencia de dispersión.
20 20 20
Frecuencia
Frecuencia
Frecuencia
15 15
15
10 10 5
5 1 23 45 6 5 1 23 45 6 1 23 45 6
10
Puntuación Puntuación
39
Puntuación
0
0 0
Cátedra: Probabilidad y Estadística UT1
Facultad Regional Mendoza Estadística descriptiva y análisis de datos
Universidad Tecnológica Nacional D. Fernández & M. Guitart
Estadística Descriptiva
vemos que el valor de la media aritmética no es suficiente para describir cada
una de las situaciones.
Para precisar mejor lo que denominamos como ‘dispersión’ podemos
calcular unos estadísticos que nos den información, sin necesidad de
representar los da- tos.
Rango
Varianza
4
Cátedra: Probabilidad y Estadística UT1
Facultad Regional Mendoza Estadística descriptiva y análisis de datos
Universidad Tecnológica Nacional D. Fernández & M. Guitart
n 1
41
Desviación Estándar
Estadística Descriptiva
La raíz cuadrada de la varianza se denomina desviación estándar o desvío
típico.
x .f
2
i x i
s = i
n1
A menudo se prefiere la desviación estándar con relación a la varianza,
por- que se expresa en las mismas unidades físicas de las observaciones.
La desviación estándar nos permite determinar, con un buen grado de
preci- sión, dónde están localizados los valores de una distribución de
frecuencias con relación a la media. Podemos hacer esto de acuerdo con un
teorema es- tablecido por el matemático ruso P. L. Chebyshev (1821 -
1894).
El teorema de Chebyshev dice que no importa qué forma tenga la distribu-
ción, al menos el 75% de los valores caen dentro de 2 desviaciones están-
dar a partir de la media de la distribución, y al menos 89% de los valores
caen dentro de 3 desviaciones estándar a partir de la media.
Podemos medir aún con más precisión el porcentaje de observaciones que
caen dentro de un alcance específico de curvas simétricas con forma de
campana. En estos casos, podemos decir que:
Aproximadamente 68% de los valores de la población cae dentro de
1 desviación estándar a partir de la media.
Aproximadamente 95% de los valores de la población cae dentro de
2 desviación estándar a partir de la media.
Aproximadamente 99% de los valores de la población cae dentro de
3 desviación estándar a partir de la media.
Coeficiente de Variación
Estadística Descriptiva
El coeficiente de variación es una medida de dispersión relativa, nos indica
qué proporción de la media representa la desviación estándar. Por esto,
sue- le expresarse en forma porcentual.
A partir de la expresión s = CV . x , podemos interpretar a la desviación
estándar en términos de la media aritmética.
Un inconveniente del coeficiente de variación es que deja de ser útil cuando
x está próxima a cero.
Ejemplo :
Retomaremos el ejemplo de las estaturas de los alumnos universitarios, en primer
lugar, como datos individuales y luego como datos agrupados.
150 160 161 160 160 172 162 160 172 151
161 172 160 169 169 176 160 173 184 172
160 170 153 167 167 175 166 173 169 178
170 179 175 174 160 174 149 162 161 168
170 173 156 159 154 156 160 166 170 169
163 168 171 178 179 164 176 163 182 162
Datos individuales
xi fi Fi xi fi Fi
149 1 1 168 2 32
150 1 2 169 4 36
151 1 3 170 4 40
153 1 4 171 1 41
154 1 5 172 4 45
156 2 7 173 3 48
159 1 8 174 2 50
160 9 17 175 2 52
161 3 20 176 2 54
162 3 23 178 2 56
163 2 25 179 2 58
164 1 26 182 1 59
166 2 28 184 1 60
167 2 30 n=60
Rango
R = xmáx - xmín = 184 cm – 149 cm = 35 cm
Interpretación: La amplitud de la muestra es de 35
Estadística Descriptiva
cm.
Varianza
x
x 2 .f
s2 = i i
i (149 166,55)2 .1 ... (166 166,55)2 .2 ... (184 166,55)2 .1
n1 60 1
= 66,18 cm2
Interpretación: El promedio de los cuadrados de las desviaciones de las estatu-
ras respecto a la media aritmética es de 66,18 cm2.
Desviación estándar
x x .f
2
i i
s = i
= 8,14 cm
n1
Interpretación: Las estaturas se desvían, en promedio, respecto a la media
arit- mética, en 8,14 cm.
Coeficiente de variación
s 8,14 cm
CV 0,0489 CV% = 4,89%
x 166,55 cm
Interpretación: La desviación estándar representa un 4,89% de la media
aritmé- tica.
Datos agrupados
Intervalos xi fi Fi
[149 , 154) 151,5 4 4
[154 , 159) 156,5 3 7
[159 , 164) 161,5 18 25
[164 , 169) 166,5 7 32
[169 , 174) 171,5 16 48
[174 , 179) 176,5 8 56
[179 , 184] 181,5 4 60
n=60
Rango
R = xmáx - xmín = 184 cm – 149 cm = 35 cm
Interpretación: La amplitud de la muestra es de 35
cm.
Varianza
x 2 .f
x
Estadística Descriptiva
s2 = i i i
(151,5 167,17)2 .4 ... (166,5 167,17)2 .7 ... (181,5 167,17)2 .4
n1 60 1
= 63,11 cm2
Interpretación: El promedio de los cuadrados de las desviaciones de las estatu-
ras respecto a la media aritmética es de 63,11 cm2.
Desviación estándar
x x .f
2
i i
s = i
= 7,94 cm
n1
Interpretación: Las estaturas se desvían, en promedio, respecto a la media
arit- mética, en 7,94 cm.
Coeficiente
s 7,94decmvariación
CV 0,0475
x 167,17 cm
CV% = 4,75%
Interpretación: La desviación estándar representa un 4,75% de la media
aritmé- tica.
C. Puntuación Z
Ejemplo :
Supongamos que nos informan que Mariano, un estudiante del grupo de alumnos
universitarios que venimos analizando, mide 174 cm.
Si desconociéramos las estaturas del grupo sería difícil decir si Mariano es alto
o bajo, respecto al grupo de alumnos universitarios. Pero nosotros sabemos que
la estatura media es de 166,55 cm y el desvío estándar es de 8,14 cm. Con
Estadística Descriptiva
estos datos, queda claro que Mariano tiene una estatura superior al promedio.
También podemos ver que la estatura de Mariano está 7,45 cm por encima de la
media.
Supongamos que el conjunto de datos analizado es nuestra población, entonces
la media aritmética se debería indicar como = 166,55 cm y la desviación
están- dar como = 8,14 cm.
- 3 - 2 - 1 + 1 + 2 + 3
Estatura
media
Estatura
de Mariano
Ejemplo :
Volvamos a nuestro ejemplo de las estaturas de los alumnos universitarios.
Mariano, que mide 174 cm, tiene una puntuación Z de +0,92, es decir, Ma-
riano está a 0,92 desvíos estándar por encima de la media.
Florencia, que mide 160 cm, tiene una puntuación Z de -0,80, es decir,
Flo- rencia está a 0,80 desvíos estándar por debajo de la media.
Pedro, que mide 182 cm, tiene una puntuación Z de +1,90, es decir, Pedro
está a 1,90 desvíos estándar por encima de la media.
Julieta, que mide 154 cm, tiene una puntuación Z de -1,54, es decir,
Julie- ta está a 1,54 desvíos estándar por debajo de la media.
Estadística Descriptiva
Estatura Julieta Estatura Florencia Estatura media Estatura Mariano Estatura Pedro
150
171
174
180
183
153
156
159
162
165
168
177
0
+0,92
-1,54
-0,80
+1,90
¡Sí...! Ya sabemos... Se estará preguntando de dónde sacamos estos valores.
Estadística Descriptiva
Si Z = (X - )/, entonces X = Z. +
Cuartiles
Al dividir los datos en cuatro partes iguales, quedan definidos los cuartiles:
Q1, Q2 y Q3.
La fórmula para obtener el lugar del k-ésimo cuartil, siendo n el número de
observaciones, es: ºQk = k.(n+1)/4 y así, buscando en la lista ordenada
de los valores o en la columna de la frecuencia acumulada, se ve el valor de
la variable correspondiente. En caso que ºQk no sea un valor entero se
calcula por interpolación lineal el valor del cuartil.
La mediana es el cuartil 2.
Estadística Descriptiva
Deciles
Al dividir los datos en diez partes iguales, quedan definidos los deciles: D1, D2,
..., D9.
La fórmula para obtener el lugar del k-ésimo decil, siendo n el número de
observaciones, es: ºDk = k.(n+1)/10 y así, buscando en la lista ordenada
de los valores o en la columna de la frecuencia acumulada, se ve el valor de
la variable correspondiente. En caso que ºD k no sea un valor entero se
calcula por interpolación lineal el valor del decil.
La mediana es el decil 5.
Percentiles
Al dividir los datos en cien partes iguales, quedan definidos los percentiles: P1,
P2, ..., P99.
La fórmula para obtener el lugar del k-ésimo percentil, siendo n el número
de observaciones, es: ºPk = k.(n+1)/100 y así, buscando en la lista
ordena- da de los valores o en la columna de la frecuencia acumulada, se ve
el valor de la variable correspondiente. En caso que ºP k no sea un valor
entero se calcula por interpolación lineal el valor del percentil.
La mediana es el percentil 50.
El primer cuartil es el percentil 25.
El tercer cuartil es el percentil 75.
El cuarto decil es el percentil 40.
El.......................decil es el percentil 70.
El octavo decil es el percentil ........ .
Ejemplo :
Retomaremos el ejemplo de las estaturas de los alumnos universitarios, en primer
lugar, como datos individuales y luego como datos agrupados.
150 160 161 160 160 172 162 160 172 151
161 172 160 169 169 176 160 173 184 172
160 170 153 167 167 175 166 173 169 178
170 179 175 174 160 174 149 162 161 168
170 173 156 159 154 156 160 166 170 169
Estadística Descriptiva
163 168 171 178 179 164 176 163 182 162
Datos individuales
Ejemplo :
A modo de ejemplo, calcularemos el primer cuartil (Q 1), el octavo decil (D8) y el
percentil 43 (P43) en el ejemplo de las estaturas de los estudiantes universita-
rios.
1º 2º 3º 4º 5º 6º 7º 8º 9º 10º
149 150 151 153 154 156 156 159 160 160
11º 12º 13º 14º 15º 16º 17º 18º 19º 20º
160 160 160 160 160 160 160 161 161 161
21º 22º 23º 24º 25º 26º 27º 28º 29º 30º
162 162 162 163 163 164 166 166 167 167
31º 32º 33º 34º 35º 36º 37º 38º 39º 40º
168 168 169 169 169 169 170 170 170 170
41º 42º 43º 44º 45º 46º 47º 48º 49º 50º
171 172 172 172 172 173 173 173 174 174
51º 52º 53º 54º 55º 56º 57º 58º 59º 60º
175 175 176 176 178 178 179 179 182 184
Primer cuartil (Q1)
La posición del primer cuartil es ºQ 1 = 1.(n+1)/4 = 1.(60+1)/4 = 15,25º
Como el valor 15,25 no existe, se realiza interpolación lineal entre los valores co-
Estadística Descriptiva
rrespondientes a las posiciones 15º y 16º:
Posición Valor
15º 160
0,25 15,25º Q1 x
1 16º 160 0
Posición Valor
48º 173
0,8 48,8º D8 x
1 49º 174 1
0,8 x
x = 0,8
1 = 1
Luego, el octavo decil toma el valor 173,8 cm.
D8 = 173,80 cm
Interpretación: Significa que el 80% de las estaturas de los estudiantes
univer- sitarios observados son inferiores o iguales a 173,80 cm y el 20%
restante son mayores o iguales a 173,80 cm.
Percentil 43 (P43)
La posición del percentil 43 es ºP43 = 43.(n+1)/100 = 43.(60+1)/100 = 26,23º
Como el valor 26,23 no existe, se realiza la interpolación lineal entre los valores
correspondientes a las posiciones 26º y 27º:
Posición Valor
26º 164
0,23 26,23º P43 x
Estadística Descriptiva
1 27º 166 2
0,23 x
= x = 0,46
1
2
Luego, el percentil 43 es el valor 164,46 cm.
P43 = 164,46 cm
Interpretación: Significa que el 43% de las estaturas de los estudiantes
univer- sitarios observados son inferiores o iguales a 164,46 cm y el 57%
restante son mayores o iguales a 164,46 cm.
Datos agrupados
Estadística Descriptiva
⎝ ⎠
Siendo:
Linf Dk : límite inferior de la clase del decil k.
Fant Dk : frecuencia acumulada correspondiente a la clase anterior a la clase
del decil k.
fDk : frecuencia absoluta correspondiente a la clase del decil
k. l : longitud de la clase del decil k.
n : tamaño de la muestra.
⎛ k.n ⎞
⎜ Fant Pk ⎟
100
Pk = Linf Pk + l . ⎜ ⎟
⎜ f Pk ⎟
⎝ ⎠
Siendo:
Linf Pk : límite inferior de la clase del percentil k.
Fant Pk : frecuencia acumulada correspondiente a la clase anterior a la clase
del percentil k.
fPk : frecuencia absoluta correspondiente a la clase del percentil
k. l : longitud de la clase del percentil k.
n : tamaño de la muestra.
Ejemplo :
A modo de ejemplo, calcularemos el tercer cuartil (Q3), el segundo decil (D2) y el
percentil 95 (P95) en la serie de datos correspondiente a las estaturas de los
alumnos universitarios.
Intervalos xi fi Fi
[149 , 154) 151,5 4 4
[154 , 159) 156,5 3 7
[159 , 164) 161,5 18 25 Œ Clase del
[164 , 169) 166,5 7 32
[169 , 174) 171,5 16 48 D2 Œ Clase
[174 , 179) 176,5 8 56
[179 , 184] 181,5 4 60 del Q3 Œ
n=60
Clase del P95
Tercer cuartil (Q3)
La posición de la clase del tercer cuartil
Estadística Descriptiva
es ºQ3 = 3.(n+1)/4 = 3.(60+1)/4 = 45,75º.
Luego, buscando el valor obtenido en la columna de la frecuencia acumulada, se
ve el intervalo correspondiente a la clase del tercer cuartil.
Como el número obtenido en ºQ3 no existe, se toma el intervalo inmediato supe-
rior.
La clase del tercer cuartil es 169 ; 174).
Una vez identificada la clase del tercer cuartil, calculamos el valor del tercer
cuartil dentro del intervalo,⎞que se halla mediante la fórmula:
⎛ 3.n
Fant Q3
⎜ ⎟ ⎛ 45 32 ⎞
Q3 = Linf Q3 + l . ⎜ 4 ⎟ = 169 + 5 . ⎜ ⎟ = 173,06 cm
⎜ f Q 3 ⎟ ⎝ 16 ⎠
⎝ ⎠
Interpretación: El 75% de las estaturas de los estudiantes universitarios
obser- vados son iguales o inferiores a 173,06 cm y el otro 25% son iguales
o superiores a 173,06 cm.
Estadística Descriptiva
Como el número obtenido en ºP95 no existe, se toma el intervalo inmediato supe-
rior.
La clase del percentil noventa y cinco es 179 ; 184].
Una vez identificada la clase del percentil noventa y cinco, calculamos el valor del
percentil noventa⎛ y cinco dentro
95.n ⎞ del intervalo, que se halla mediante la fórmula:
⎜ Fant P95⎟
100 ⎛ 57 56 ⎞
P95 = Linf P95 + l . ⎜ ⎟ = 179 + 5 . ⎟= 180,25 cm
f ⎜ 4
⎜ P95 ⎟ ⎝ ⎠
⎝ ⎠
Interpretación: El 95% de las estaturas de los estudiantes universitarios
obser- vados son iguales o inferiores a 180,25 cm y el otro 5% son iguales o
superiores a 180,25 cm.
Nota: Las medidas de posición no centrada pueden calcularse a partir del gráfico de la distribu-
ción acumulada (ojiva), aunque de manera aproximada.
Es conveniente realizar la ojiva colocando en ordenadas la frecuencia acumulada porcen-
tual. Ubicar el porcentaje deseado en el eje de ordenadas y ver a qué valor de abscisa
corresponde.
Decil 2 Percentil
Mediana Cuartil 3
Estadística Descriptiva
Ejercicio integrador
Calcular e interpretar:
Estadística Descriptiva
a) La media aritmética
x = 28,76 años.
La edad promedio en este grupo de personas es, aproximadamente,
de 29 años.
b) La mediana
ºMe = (n+1) / 2 = 26 / 2 = 13 Me = 29 años (En este caso no hace falta
inter- polar porque la mediana está exactamente en el 13º lugar, o sea, corresponde a
29 años)
Esto indica que el 50% de las personas tienen 29 años o menos y el
otro 50% de las personas tienen 29 años o más.
c) El modo
Mo = 29 años
Esta edad es la más frecuente porque se presentó seis veces.
d) El primer cuartil
ºQ1 = (n+1)/4 = 26/4 = 6,25º Q1 = 27,25 años (Valor interpolado entre el
6º y 7º valor del conjunto de datos ordenados, o sea, entre los valores 27 y 28 años)
Esto indica que el 25% de las personas tienen 27,25 años o menos y el
otro 75% de las personas tienen 27,25 años o más.
e) El cuarto decil
ºD4 = 4.(n+1)/10 = 4.26/10 = 10,4º D4 = 28,40 años (Valor interpolado
entre el 10º y 11º valor del conjunto de datos ordenados, o sea, entre los valores 28 y
29 años)
Esto indica que el 40% de las personas tienen 28,40 años o menos y el
otro 60% de las personas tienen 28,40 años o más.
f) El percentil 82
ºP82 = 82.(n+1)/100 = 82.26/100 = 21,32º P82 = 30,32 años (Valor
interpolado entre el 21º y 22º valor del conjunto de datos ordenados, o sea, entre los
valores 30 y 31 años)
Esto indica que el 82% de las personas tienen 30,32 años o menos y
el otro 18% de las personas tienen 30,32 años o más.
Estadística Descriptiva
h) El coeficiente de variación
s
CV 0,0613
x 1,7626
28,76
El desvío estándar representa el 6,13% de la media.
X
252 6 2 72 82930 3 13 2
A trabajar solos...
42,3 35,7 47,5 31,2 28,3 37,0 41,3 29,3 32,4 41,3 34,3 35,2 43,0 36,3 35,7
41,5 43,2 30,7 38,4 46,5 43,2 31,7 36,8 43,6 45,2 32,8 30,7 36,2 34,7 35,3
Estadística Descriptiva
and whiskers’.
Para su construcción se utilizan cinco estadísticos de la distribución de fre-
cuencias: el mínimo, el primer cuartil, la mediana, el tercer cuartil y el máximo.
Explicaremos su construcción paso a paso:
Antes de comenzar la graficación debemos calcular algunos valores que
se- rán necesarios para realizar el gráfico:
o Valor mínimo: xmín
o Valor máximo: xmáx
~
o Mediana: x
o Media aritmética: x
o Primer cuartil: Q1
o Tercer cuartil: Q3
o Rango intercuartílico: RI = Q3 - Q1
o REF1 = Q1 - 3.RI
o REF2 = Q1 - 1,5.RI
o REF3 = Q3 + 1,5.RI
o REF4 = Q3 + 3.RI
Se traza una línea horizontal de longitud proporcional al recorrido de la
va- riable, que llamaremos eje. Sobre el eje se señalarán las subdivisiones
que se consideren necesarias, para representar los datos de la muestra.
Paralelamente al eje se construye una caja rectangular con altura
arbitraria y cuya base abarca desde el primer cuartil hasta el tercer
cuartil. Como ve- mos, esta caja indica gráficamente el intervalo de
variación de al menos el 50% de los valores centrales de la distribución.
La caja se divide en dos partes, trazando una línea a la altura de la
mediana. Cada una de estas partes indica, pues, el intervalo de variabilidad
de al me- nos una cuarta parte de los datos.
A la caja, así dibujada, se añaden dos guías paralelas al eje, que llamaremos
extensiones o bigotes, una de cada lado, de la siguiente forma:
o el primero de estos segmentos se prolonga, hacia la izquierda, desde
el primer cuartil (o sea, desde la caja) hasta el mínimo de la
distribución o hasta el valor (observado en la muestra) igual o
inmediato superior a la REF2, según cuál de estos valores sea mayor.
o el segundo de estos segmentos se prolonga, hacia la derecha, desde el
tercer cuartil (o sea, desde la caja) hasta el máximo de la distribución
o hasta el valor (observado en la muestra) igual o inmediato inferior a
la REF3, según cuál de estos valores sea menor.
Si alguno de los valores observados en la muestra queda fuera del
Estadística Descriptiva
intervalo cubierto por la caja y estas extensiones, se señala en el gráfico
mediante un asterisco o cualquier otro símbolo que lo represente como un
punto.
Estos datos son los llamados valores atípicos (‘outliers’), que son valores muy
alejados de los valores centrales de la distribución. Lo indicaremos con .
Si se observan valores menores que Q1 - 3.RI (REF1) o valores mayores
que Q3 + 3.RI (REF4), éstos son los llamados valores anómalos, que son
valores más alejados que los atípicos de los valores centrales de la
distribución. Lo indicaremos con C.
Finalmente, se indica con un signo + el valor de la media aritmética.
+
C
Ejemplo :
A partir de nuestro ejemplo (estaturas de los estudiantes universitarios), cons-
truiremos el gráfico de caja y extensiones. El gráfico de caja y extensiones se
realiza sólo para datos individuales, ya que es necesario identificar, si fuera ne-
cesario, los valores atípicos.
En primer lugar, anotaremos la información
necesaria: o Valor mínimo: xmín = 149 cm
o Valor máximo: xmáx = 184 cm
~
o Mediana: x = 167,5 cm
o Media aritmética: x = 166,55 cm
o Primer cuartil: Q1 = 160 cm
o Tercer cuartil: Q3 = 172,75 cm
o Rango intercuartílico: RI = Q3 - Q1 = 12,75 cm
o REF1 = Q1 - 3.RI = 121,75 cm
o REF2 = Q1 - 1,5.RI = 140,88 cm
o REF3 = Q3 + 1,5.RI = 191,88 cm
o REF4 = Q3 + 3.RI = 211,00 cm
Debemos elegir el máximo entre x mín = 149 cm y REF2 = 140,88 cm, que en
nuestro caso es 149 cm, y es el valor hasta donde llegará la extensión iz-
quierda.
Estadística Descriptiva
Debemos elegir el mínimo entre x máx = 184 cm y REF3 = 191,88 cm, que en
nuestro caso es 184 cm, y es el valor hasta donde llegará la extensión
dere- cha.
Por lo anterior vemos que en nuestra muestra no se presentan valores
atípi- cos ni valores anómalos.
149 151 153 155 157 159 161 163 165 167 169 171 173 175 177 179 181 183 185
Ejemplo :
Para verificar todas estas utilidades analizaremos una nueva serie estadística,
que contiene los pesos, en kilogramos, de un grupo de sesenta personas:
55 64 70 74 75 70 62 93 60 62 70 71
Varones
70 80 61 60 62 68 65 65 66 68 71 72
60 49 52 54 56 66 45 52 48 54 56 61
Mujeres 46 50 52 53 56 68 47 50 53 57 60 64
47 50 53 57 60 64 55 52 54 44 65 60
Estadística Descriptiva
o Tercer cuartil: Q3 = 66 kg
o Rango intercuartílico: RI = Q3 - Q1 = 13 kg
o REF1 = Q1 - 3.RI = 14 kg
o REF2 = Q1 - 1,5.RI = 33,5 kg
o REF3 = Q3 + 1,5.RI = 85,5 kg
o REF4 = Q3 + 3.RI = 92 kg
Debemos elegir el máximo entre xmín = 44 kg y REF2 = 33,5 kg, que en
nues- tro caso es 44 kg, y es el valor hasta donde llegará la extensión
izquierda.
Debemos elegir el mínimo entre xmáx = 93 kg y REF3 = 85,5 kg, que en
nues- tro caso es 85,5 kg, y es el valor hasta donde llegará la extensión
derecha.
Por lo anterior, vemos que en nuestra muestra, se presenta un valor
anómalo en el extremo superior de la muestra.
REF3 REF4
+ C
44 46 48 50 52 54 56 58 60 62 64 66 68 70 72 74 76 78 80 82 84 86 88 90 92 94
Varones
En primer lugar, tomaremos la muestra de los varones y anotaremos la in-
formación necesaria:
o Valor mínimo: xmín = 55 kg
o Valor máximo: xmáx = 93 kg
~
o Mediana: x = 68 kg
o Media aritmética: x = 68,083 kg
o Primer cuartil: Q1 = 62 kg
o Tercer cuartil: Q3 = 71 kg
o Rango intercuartílico: RI = Q3 - Q1 = 9 kg
o REF1 = Q1 - 3.RI = 35 kg
o REF2 = Q1 - 1,5.RI = 48,5 kg
o REF3 = Q3 + 1,5.RI = 84,5 kg
o REF4 = Q3 + 3.RI = 98 kg
Debemos elegir el máximo entre xmín = 55 kg y REF2 = 48,5 kg, que en
nues- tro caso es 55 kg, y es el valor hasta donde llegará la extensión
izquierda.
Estadística Descriptiva
Debemos elegir el mínimo entre xmáx = 93 kg y REF3 = 84,5 kg, que en
nues- tro caso es 84,5 kg, y es el valor hasta donde llegará la extensión
derecha.
Por lo anterior, vemos que en la muestra de varones, se presenta un valor
atípico en el extremo superior de la muestra.
Mujeres
Ahora tomaremos la muestra de las mujeres y anotaremos la información
necesaria:
o Valor mínimo: xmín = 44 kg
o Valor máximo: xmáx = 68 kg
~
o Mediana: x = 54 kg
o Media aritmética: x = 54,722 kg
o Primer cuartil: Q1 = 50 kg
o Tercer cuartil: Q3 = 60 kg
o Rango intercuartílico: RI = Q3 - Q1 = 10 kg
o REF1 = Q1 - 3.RI = 20 kg
o REF2 = Q1 - 1,5.RI = 35 kg
o REF3 = Q3 + 1,5.RI = 75 kg
o REF4 = Q3 + 3.RI = 90 kg
Debemos elegir el máximo entre xmín = 44 kg y REF2 = 35 kg, que en
nuestro caso es 44 kg, y es el valor hasta donde llegará la extensión
izquierda.
Debemos elegir el mínimo entre xmáx = 68 kg y REF3 = 75 kg, que en
nuestro caso es 68 kg, y es el valor hasta donde llegará la extensión
derecha.
Por lo anterior, vemos que en la muestra de mujeres, no se presenta
valores atípicos ni anómalos.
Mujeres
Varones
+
44 46 48 50 52 54 56 58 60 62 64 66 68 70 72 74 76 78 80 82 84 86 88 90 92 94
1.6 Aspectos éticos
Estadística Descriptiva
razones varias; entre ellas: datos estadísticos inadecuados, sesgos personales,
supuestos falsos, indicación falsa de relaciones, comparaciones impropias, erro-
res en las operaciones matemáticas y manipulación de datos.
Es momento de reflexionar acerca del comportamiento ético en el análisis
de datos. Resulta fácil utilizar las medidas adecuadas para que los datos
“digan” lo que el que está realizando el análisis, al describir los datos, quiere
que digan. Además, se presta para realizar gráficos que “dibujen” la realidad
deseada, a fin de engañar, a través de la manipulación de los datos.
Con frecuencia se escucha que “las estadísticas mienten”; en realidad, son
las personas las que mienten al utilizar las estadísticas “con intencionalidad”.
¡A repasar...!
Estadística Descriptiva
¿Cuáles son las ventajas y desventajas de cada una de las medidas de
tendencia central?
¿A qué llamamos media pesada o media ponderada?
¿Qué característica tienen las medidas de dispersión?
¿Qué es una puntuación Z? ¿Cuál es su utilidad?
¿Qué característica tienen las medidas de posición no centradas?
¿Qué aporta el gráfico de caja y extensiones al análisis gráfico de
da- tos?
¿Qué medidas descriptivas se pueden leer en un gráfico de caja y ex-
tensiones? ¿Cuáles no se pueden leer?
¿Cuándo un dato es atípico y cuándo es anómalo?
Para pensar
Según el mito popular, ¿qué tipo de distribución tiene la variable:
“Cantidad de maniobras que debe hacer una mujer para estacionar
correctamente un auto, entre otros dos”?
La respuesta depende de cuán machista o feminista sea el que
conteste, pe- ro tratando de encontrar un punto de equilibrio, y en
base al mito popular, podemos decir que una gráfica más o menos
representativa sería:
8
7
6
Frecuencia simple
5
4
3
2
1
0
0 2 4 6 8 10 12 14 16 18 20 22
Cantidad de maniobras
frecuencia de clase
15
Estadística Descriptiva
12
9
6
3
0
150 160 170 180 190 200
Estatura
o ¿Qué tipos de chistes causarían más efecto, los machistas o los fe-
ministas?
Según la distribución de los sexos, hay más mujeres que
hombres, por lo que seguramente agradarían y causarían más
efecto los chis- tes feministas.
Frecuencia Acumulada
Sexo Valor Absoluta Relativa Absoluta Relativa
71.67%
Frecuencia Acumulativa
Deporte Valor Absoluta Relativa Absoluta Relativa
Estadística Descriptiva
SISTEMÁTICAMENTE: Dos o más veces por semana
¿Cuál es la escala de medición?
La variable es cualitativa, medida en escala ordinal.
o ¿Qué puede decir respecto al patrón de comportamiento de la va-
riable “Número de Calzado”?
La variable “Número de Calzado” presenta un
comportamiento muy interesante, ya que la curva parece
tener dos partes.
Distribución para el Número de Calzado
24
20
Porcentaje
16
12
0
34 36 38 40 42 44 46 48
Calzado
24%
20%
16%
12%
8% 34 36 38 40 42 44 46 48
Númer o de calzado
4%
0%
Estadística Descriptiva
La estatura de los alumnos presenta un leve sesgo a
derecha, con un intervalo modal entre 162,50 cm y 168,75
cm.
Distribución de la Estatura de los alumnos
18
frecuencia de clase
15
12
9
6
3
0
150
160 170 180 190 200
Estatura
18
e 16
s
a 14
l
c 12
e
d 10
a 8
i
c
n 6
e
u
c 4
e
r
2
F
0
150 160 170 180 190 200
Estatura
Para pensar
La siguiente es la distribución de los salarios de los empleados de una pequeña fá-
brica:
Salario Cantidad de empleados
$10000 1
$2500 1
$1000 1
$500 2
$200 4
Los empleados realizan una huelga para pedir mejora de sus salarios. Un periodista
realiza una nota preguntando cuál es el salario medio.
¿Qué medida de tendencia central daría usted si...
Estadística Descriptiva
Si fuera el representante sindical daría el valor de la moda.
c) ... fuera un investigador científico?
Si fuera un investigador científico daría el valor de la mediana y además
acla- raría que la muestra es muy heterogénea.
A trabajar solos...
La precipitación anual de lluvias, aproximada a décima de centímetro, para un pe-
ríodo de 30 años es como sigue:
42,3 35,7 47,5 31,2 28,3 37,0 41,3 29,3 32,4 41,3 34,3 35,2 43,0 36,3 35,7
41,5 43,2 30,7 38,4 46,5 43,2 31,7 36,8 43,6 45,2 32,8 30,7 36,2 34,7 35,3
28,3 29,3 30,7 30,7 31,2 31,7 32,4 32,8 34,3 34,7
35,2 35,3 35,7 35,7 36,2 36,3 36,8 37,0 38,4 41,3
41,3 41,5 42,3 43,0 43,2 43,2 43,6 45,2 46,5 47,5
xmín = 28,3
xmáx = 47,5
R = xmáx - xmín = 19,2
k = 1 + 3,3.log n 5,8745
6 l = R / k = 19,2 / 6 =
3,2
Intervalos xi fi Fi
[28,3 ; 31,5) 29,9 5 5
[31,5 ; 34,7) 33,1 4 9
[34,7 ; 37,9) 36,3 9 18
[37,9 ; 41,1) 39,5 1 19
[41,1 ; 44,3) 42,7 8 27
[44,3 ; 47,5] 45,9 3 30
Estadística Descriptiva
Me = LiMe + l. 2 fM e
⎟ = 34,7 + 3,2. ⎜2 ⎟ = 36,8333... cm
⎜
⎜ 9
⎟ ⎜ ⎟
⎝ ⎠ ⎝ ⎠
Esto indica que el 50% de los años la precipitación anual fue de 36,792
cm o menos y en el otro 50% la precipitación anual fue de 36,792 cm o
más.
Modo:
Mo [34,7 ; 37,9) ⎛Δ ⎞ ⎛ 5 ⎞
Mo = x = L +l. 1 = 34,7 + 3,2. = 35,93 cm
Mo inf ⎜ ⎟ ⎜ ⎟
Mo ⎝ Δ1 Δ2 ⎠ ⎝5 8 ⎠
Siendo:
Δ1 = 9 - 4 = 5 Δ2 = 9 - 1 = 8
La precipitación anual más frecuente es de 35,93 cm.
Primer cuartil:
ºQ1 = (n+1) / 4 = 7,75 Q⎞1 [31,5 ; 34,7)
⎜⎛ 1.n Fant Q1⎟
4 ⎛7,5 5 ⎞
Q1 = Linf Q1 + l . ⎜ Q ⎟ = 31,5 + 3,2. ⎜ ⎟ = 33,5 cm
⎜ f 1 ⎟ ⎝ 4 ⎠
⎝ ⎠
Esto indica que el 25% de los años la precipitación fue de 33,5 cm o
menos y el otro 75% de los años la precipitación fue de 33,5 cm o más.
Cuarto decil:
ºD4 = 4.(n+1) / 10 = 12,4 ⎞ D4 [ 34,7 ; 41,1 )
⎛ 4.n Fant D4 ⎛ 12 9 ⎞
⎜ ⎟
D4 = Linf D4 + l. ⎜ 10 D ⎟ = 34,7 + 3,2. ⎜ ⎟ =35,7666... cm
⎜ f 4 ⎟ ⎝ 9 ⎠
⎝ ⎠
Esto indica que el 40% de los años la precipitación fue de 35,77 cm o
menos y el otro 60% de los años la precipitación fue de 35,77 cm o más.
Percentil 86:
ºP86 = 86.(n+1)/100 = 26,66 ⎞ P86 [41,1 ; 44,3)
⎜⎛ 86.n Fant P86⎟
100 ⎛ 25,8 19 ⎞
P86 = Linf P86 + l. ⎜ P ⎟ = 41,1 + 3,2. ⎜ ⎟ =43,82 cm
⎜ f 86 ⎟ ⎝ 8 ⎠
⎝ ⎠
Esto indica que el 86% de los años la precipitación fue de 43,82 cm o
menos y el otro 14% de los años la precipitación fue de 43,82 cm o más.
Desviación estándar:
s = 5,288269 cm
En promedio la precipitación anual de lluvias se aparta de la media en
Estadística Descriptiva
apro- ximadamente 5,2883 cm.
f
9
8
7
6
5
4
3
2