Estadística Descriptiva
Estadística Descriptiva
1. ESTADSTICA DESCRIPTIVA
1.1 Introduccin.
1
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva
Estas medidas son llamadas de tendencia central porque su valor por lo general se
encuentra en el centro de los datos que se analizan, si stos son ordenados de
menor a mayor.
Si las observaciones de una muestra aleatoria de tamao n son: x1, x2,...,xn, entonces
la media de la muestra se simboliza por.
n
_ x x ... x n x i
x 1 2 i 1
n n
Donde:
= letra griega que simboliza suma.
xi = valor de la variable aleatoria.
n = nmero de observaciones.
Ejemplo. Sea una muestra de seis estudiantes donde la variable en estudio son
los aos de edad de cada uno de ellos.
x1 x2 x3 x4 x5 x6
19 23 21 24 20 18
_
19 23 21 24 20 18 125
x 20.83
6 6
La media aritmtica es un punto potencial que equilibra todos los puntos ubicados a
uno y otro lado de ella; o sea representa el valor promedio de todas las
observaciones de la muestra.
x1 x2 x3 x4 x5
9 11 20 19 150
2
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva
_
209
x 41.8
5
Como puede apreciarse el valor 41.8 cae fuera del grupo de observaciones, cuando
esto suceda es recomendable verificar si el valor atpico que aparece en los datos es
correcto (150), una observacin atpica es un valor que es inusual en relacin con el
resto de los datos. Si el valor es correcto, la medida de tendencia central
recomendada para analizar la informacin es la mediana.
x1 x2 x3 x4 x5 x6
4 2 6 2 7 15
2
2 4 7 15
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
0 0 0 0 0 0 0 0
X i
i 1
N
Donde:
= letra griega que simboliza suma.
Xi = variable que se esta estudiando.
N = total de elementos que componen la poblacin.
Puede observarse que para definir los parmetros de la poblacin se utilizan letras
maysculas o griegas, mientras que para definir los estimadores de la muestra se
emplean letras minsculas o nmeros.
1.2.2 Mediana ( M ).
3
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva
Sea x1, x2,...,xn los elementos arreglados en orden creciente de una muestra,
donde x1 indica el valor ms pequeo y xn el valor ms grande. Entonces la mediana
queda definida por:
9 5 8 2 0 1 5 n es impar
x1 x2 x3 x4 x5 x6 x7
0 1 2 5 5 8 9
Lo anterior nos indica que el 50% de las familias tienen hasta cinco hijos y el 50%
restante tienen cinco hijos o ms.
23 17 36 01 49 33 2520
01 17 23 33 36 49 2520
4 3 7 9 5 3
Ordenado:
x1 x2 x3 x4 x5 x6
3 3 4 5 7 9
4
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva
45
M 4.5
2
1.2.3 Moda ( Mo ).
Ejemplo, sea la variable aleatoria las calificaciones finales obtenidas en una muestra
de 10 alumnos en la materia de probabilidad.
x1 x2 x3 x4 x5 x6 x7 x8 x9 x10
91 87 99 86 91 79 93 82 91 86
Noventa y uno es la moda ya que ocurre tres veces, lo que significa que el 30% de
los estudiantes obtuvieron de calificacin 91 puntos.
Hay ocasiones en que se encuentran dos modas, en este caso se dice que tiene una
distribucin bimodal, ejemplo:
1 7 3 6 3 2 4 6
Aqu la moda puede ser 3 y 6. Cuando se tenga ms de una moda se dice que se
trata de una distribucin multimodal.
_ w x i i
xw i 1
n
w
i 1
i
Donde:
xi = valor de la variable aleatoria.
wi = nmero de observaciones de la variable aleatoria.
Ejemplo. Un turista carga gasolina en 4 estaciones y paga en cada una 14.70, 13.90,
12.95 y 13.80 pesos por litro, si carg 15 litros en la primer gasolinera, 20 en la
segunda, 15 en la tercera y 10 en la cuarta. Cul es el costo promedio por litro?
xi = precio de la gasolina.
Wi = nmero de litros en cada gasolinera.
5
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva
_
1514.70 2013.90 1512.95 1013.80 830.75
xw 13.846
60 60
Lo que significa que el costo promedio por litro de gasolina es de $ 13.85 pesos.
El lder sindical argumenta que esto es falso ya que la muestra es muy pequea y
adems estn mezclados los sueldos de los empleados de base con los de
confianza, ya que sueldos de 17,700 en adelante corresponden a empleados de
confianza. Por lo tanto el sueldo promedio de los empleados de base es el que ms
se repite, o sea la moda, la cual es Mo = 10,800.
Como puede apreciarse, las medidas de tendencia central son utilizadas en funcin
del comportamiento de los datos, en este ejemplo se observa un valor atpico
(27,600) por lo que la medida de tendencia central ms recomendable para el
anlisis es la mediana.
Es por todo conocido que un nmero por s mismo carece de significado, solo lo
adquiere cuando se compara con otros nmeros o estadsticos.
La media de ambas muestras es igual a 248 psi, sin embargo la dispersin de los
datos de la muestra dos es mayor a la de la muestra uno, como puede apreciarse en
el siguiente grfico.
x x x x x x
* * * ** * Muestra 1 = *
x = 248
1.3.1 Rango.
4 1 3 9 8 11 13 7 29
Rango = (29 - 1) + 1 = 29
Si quitamos el 29 el nuevo rango ser: (13 - 1) + 1 = 13 lo que nos indica que los
datos estn ms compactos.
7
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva
Ejemplo.
x1 x2 x3 x4 x5
8 10 5 4 3
_
30
La media aritmtica es x 6
5
xi x = 2 4 -1 -2 -3
5
x
i 1
i x 12
12
Por lo tanto la desviacin media ser igual a D.M . 2.4
5
Su interpretacin ser: tanto mayor sea la desviacin media, tanto mayor es la
dispersin de las calificaciones.
La desviacin media por s sola tiene muy poco uso, si la estudiamos es debido a:
Dentro de sus mayores defectos estn los mismos que los del rango.
8
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva
x x
n
2
i
S2 i 1
n 1
Dicha frmula aplicando las leyes del lgebra podemos redefinirla como:
2
n
n
x i
xi
2
S
2 i 1
i 1
n 1 n n 1
Para ver como la varianza de la muestra mide la dispersin de los datos, tomemos
los valores de la muestra dos, de la resistencia al rompimiento en libras por pulgadas
de las botellas.
x x x x x x
x = 248
La varianza nos sirve para medir la variabilidad de los datos en una poblacin, o sea
nos permite conocer la homogeneidad o heterogeneidad de los datos que se estn
estudiando.
Muestra 1 Muestra 2
n1 = 6 n2 = 6
x1 = 1,488 x2 = 1,488
x 2
1= x 2
=
2
369,814 376,534
x1 = 248 x2 = 248
9
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva
Al comparar estas dos varianzas vemos que la muestra uno tiene menor variabilidad
que la muestra dos, o sea que los datos estn ms apiladitos alrededor de su
promedio, dicho en otras palabras los datos de la muestra uno son ms
homogneos. Una varianza igual a cero significa que los valores de la variable
aleatoria son iguales.
2 2
S1 S1 158 12.57 psi S 2 S 2 1,502 38.75 psi
De igual forma que para la muestra hay una varianza, existe una medida de
variabilidad para la poblacin, la cual se denota con la letra griega 2, su clculo es:
2
N N
N
X Xi Xi
2 2
i
2 i 1
i 1 i 1 2
N N N
S
CV (100)
x
10
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva
12.57 38.75
CV1 (100) 5.1% CV2 (100) 15.6%
248 248
1 = 5 mm. 2 = 17 Km.
21 = 2.67 mm2. 22 = 24 Km2.
1 = 1.63 mm. 2 = 4.9 Km.
Hasta aqu podramos suponer que la poblacin uno parece tener menor variabilidad
en sus datos que la poblacin dos.
1.63 4.9
CV1 100 32.6% CV2 100 28.8%
5 17
11
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva
1.3.5 Percentiles
Sea x1, x2,...,xn los elementos arreglados en orden creciente de una muestra,
donde x1 indica el valor ms pequeo y x n el valor ms grande. Entonces un percentil
puede calcularse de la siguiente manera:
5 8 2 0 1 5
x1 x2 x3 x4 x5 x6
0 1 2 5 5 8
Como es obvio estas cantidades no tienen ni pies ni cabeza a menos que las
organicemos de un modo sistemtico. Las razones para ordenarlos en una tabla de
frecuencias son:
b) Algunos puntos tienen asociada una frecuencia tan baja o inclusive cero, que no
se justifica para mantenerlas como unidades distintas o separadas.
Como puede observarse no existe una regla definida para determinar el nmero de
intervalos, ya que solo la experiencia del investigador es la que lo decide. Sin
embargo como apoyo a los alumnos que inician en este tema, podemos citar estas
dos formas.
El empleo de estas dos formas para la obtencin del nmero de intervalos no debe
considerarse como una verdad absoluta, ya que si al obtener las frecuencias en cada
uno de los intervalos en el trabajo que realicemos, encontramos que algunas son
muy bajas o incluso ceros, estos intervalos no tienen sentido tenerlos. Por lo que se
recomienda reducir el nmero de intervalos e iniciar nuevamente con los clculos
desde el principio.
Para iniciar con nuestro ejemplo, tenemos el caso prctico donde n = 72, por lo tanto
el nmero de intervalos a tomar ser k = 72 = 8.48 8.
1. Obtencin del rango. Se obtiene restando al dato mayor de los datos el dato
menor y sumando uno.
Nota. Cuando los valores de la variable que se est analizando sean menores que
uno, o sean muy parecidos entre s, se recomienda no sumarle uno al rango.
2. Obtencin del tamao del intervalo de clase. Para esto se divide el rango entre el
nmero de intervalos, si el resultado es fraccionario redondee al nmero entero
ms cercano.
168 8 = 21
14
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva
176 196 !!
197 217 !!!!
218 238 !!!!! !!!!
239 259 !!!!! !!!!! !!!!
260 280 !!!!! !!!!! !!!!! !!!!! !!!!! !!
281 301 !!!!! !!!
302 322 !!!!
323 343 !!!!
Nota. Si algunas de las frecuencias de clase son muy bajas o incluso ceros, se
recomienda reducir el nmero de intervalos e iniciar nuevamente con los
clculos desde el principio.
Nota. Si los datos son pequeos, con decimales o el lmite inferior del primer
intervalo inicia con cero, no obtenga los lmites reales de clase.
6. Clculo del punto medio o marca de clase. Se obtiene de sumar los lmites
reales de cada intervalo y dividirlos entre dos.
Total 72 1.00
Con los valores de esta tabla ya podemos obtener informacin que anteriormente no
podamos, tales como:
x f i i
x i 1
n
Donde:
xi = punto medio o marca de clase.
fi = frecuencia de clase .
n = nmero de observaciones.
i = 1,2..., k intervalos.
Significa que en promedio, una botella tiene una resistencia de 263 libras por
pulgada cuadrada.
16
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva
d1
Mo L w Donde:
d1 d 2 L = lmite inferior del
intervalo donde se encuentra la moda.
d1 = diferencia (sin consideracin de signo) entre la frecuencia del intervalo
donde se encuentra la moda y la frecuencia del intervalo precedente.
d2 = diferencia (sin consideracin de signo) entre la frecuencia del intervalo
donde se encuentra la moda y la frecuencia del intervalo siguiente.
w = tamao del intervalo de clase.
13
Mo 259.5 21 268.03
13 19
Significa que la mayor parte de las botellas tiene una resistencia de 268.03 psi.
Tambin podramos decir que aproximadamente el 37% de las botellas tiene una
resistencia de 268.03 psi.
n 1
2 S
M L w
f
Para encontrar su valor en la tabla de frecuencias, lo primero que tenemos que hacer
es localizar el intervalo donde se encuentra la mediana. sta se localiza exactamente
a la mitad de los datos, en nuestro caso est en el quinto intervalo, ya que ah se
encuentra del 41 al 77% de la informacin, su estimador se obtiene por:
72 1
2 29
M 259.5 21 265.33
27
Lo anterior significa que el 50% de las botellas tienen una resistencia hasta de
265.33 psi y el 50% restantes tienen una resistencia de 265.33 o ms.
17
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva
2
k k k
x i x fi
2
x i
2
fi xi f i
2 i 1 i 1 i 1
S
n 1 n 1 n n 1
5055138 189362
S2 1055.92
71 5112
S S 2 1055.92 32.49
S 100 32.49100
C.V . 12.35%
x 263
Otras medidas importante que podemos obtener de la tabla de frecuencias son los
percentiles. El algoritmo matemtico para su clculo se expresa de la siguiente
manera:
d
Di L w
f
Donde:
L = lmite inferior del intervalo donde se encuentra el percentil buscado.
18
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva
Por lo tanto la estimacin del percentil diez o el primer decil se obtiene por:
1.7
D10 217.5 21 221.47
9
Lo que significa que el 10% de las botellas tienen una resistencia menor o igual a
221.47 psi. O lo que es lo mismo, el 90% de las botellas tienen una resistencia mayor
o igual a 221.47 psi.
3.5
D25 238.5 (21) 243.75
14
El rango del segundo cuartil es: 0.5 72 0.5 36.5 su valor estimado ser:
7.5
D50 259.5 (21) 265.33
27
Cuyo valor debe ser idntico al obtenido en la mediana, lo cual sirve para verificar si
su clculo fue bien realizado.
25.5
0.75 72 0.5 54.5 D75 259.5 ( 21) 279.33
27
Significa que le 75% de las botellas tienen una resistencia hasta de 279.33, mientras
que el 25% restante tienen una resistencia mayor o igual a 279.33 psi.
1.5.1 Histograma.
Con el fin de evitar que un grfico sea mal interpretado, se recomienda la realizacin
de grficas mediante la regla de los tres cuartos de altura. Dicha regla consiste en
que el eje de la ordenada (y) debe medir tres cuartas partes de lo que mide el eje de
la abscisa (x). Por ejemplo si el eje x mide 20 centmetros de longitud, el eje y debe
medir 15 cm.
Si unimos los centros de la parte superior de cada rectngulo obtenemos una nueva
grfica que se llama polgono de frecuencias, podemos ver que la figura que tiene
20
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva
El histograma visto como histograma no nos dice mucho, para ver su aplicacin
tomemos como ejemplo una mquina despachadora de refrescos en vaso, donde
sirve un promedio de = 355 ml. y sus lmites de calidad son: LIC = 350 y LSC =
360 ml. Si tomamos una muestra de n vasos y realizamos su histograma, ste puede
presentar las siguientes figuras:
EN CONTROL Y ES CAPAZ
21
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva
EN CONTROL NO CAPAZ
22
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva
F F
r r
e e
c c
u u
e e
n n
c c
i i
a a
La interpretacin para este grfico es: en la parte izquierda se leen los datos de la
muestra, as para cualquier punto considerado en el eje y (ordenada) nos
proporciona un nmero de elementos que son menores o iguales al eje de la x
(abscisa); as podemos observar que 29 botellas tienen una resistencia menor o
igual a 259.5 psi.
Una grfica de caja es una representacin grfica, que por lo general nos describe
de manera simultnea varias caractersticas de la muestra con la que estamos
trabajando, tales como: centro de los datos, la dispersin, la desviacin de la simetra
y valores que caen inusualmente lejos del grueso de los datos.
Un valor atpico puede surgir por: trasponerse dgitos cuando se registra una
medicin, realizar una mala lectura en un instrumento, mal funcionamiento de una
23
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva
pieza de equipo o por otras causas. Estos valores atpicos pueden traer como
consecuencia la obtencin de estimadores con cierto sesgo.
5. Forme una caja arriba de la recta horizontal con los extremos derecho e izquierdo
en D25 y D75 .
Los datos que queden fuera de los lmites inferior y superior se consideran valores
atpicos y se marcan en la grfica con un asterisco y los valores atpicos extremos se
marcan con un crculo.
Para mostrar como se realiza una grfica de caja, tomemos el ejemplo la resistencia
al rompimiento en libras por pulgada cuadrada (psi) de las 72 botellas de vidrio visto
con anterioridad.
Grfica de caja de C2
360
320
280
C2
240
200
C1
25
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva
1 8
2 4
3 12
4 2
5 14
6 10
7 6
8 16
9 18
10 10
11 14
12 8
13 16
230 250 245 258 265 240 255 248 252 260
C1
26
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva
1 230
2 250
3 245
4 258
5 265
6 240
7 255
8 248
9 252
10 260
Para ilustrar la manera de como Minitab es utilizado para elaborar los intervalos de
clase, la tabla de frecuencias y el histograma correspondiente con datos agrupados,
utilizaremos el ejemplo de la resistencia en psi. de las 72 las botellas de vidrio.
C1
1 265
2 205
3 263
4 307
. .
. .
27
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva
. .
69 337
70 250
71 278
72 254
Minitab le proporciona lo siguiente: Mnimo 176, mximo 343 y rango 167. Ahora
empleando la regla de Sturges o la regla prctica, obtenga de manera manual el
nmero de intervalos y el tamao de ellos de la siguiente manera.
El lmite inferior del primer intervalo es el mnimo valor encontrado en los datos que
es 176 y el lmite superior del primer intervalo ser 176 + (tamao del intervalo 1), o
sea 176 + 20 = 196.
El lmite inferior del segundo intervalo, es el entero consecutivo al lmite superior del
primer intervalo o sea 197 y el lmite superior del 2 intervalo es 197 + (tamao del
intervalo 1), o sea 197 + 20 = 217. Y as sucesivamente para los otros seis
intervalos. Por lo que los intervalos de clase son:
176 196
197 217
218 238
239 259
260 280
281 301
302 322
323 343
2. Elegir Codificar.
6. Elegir Tablas.
Para ilustrar la forma de cmo Minitab es utilizado para obtener un diagrama de caja,
tomemos el ejemplo de la resistencia al rompimiento en psi. de 72 botellas de vidrio
no retornable (pgina 13). Para generar los estimadores correspondientes siga los
pasos siguientes:
C1
1 265
2 205
3 263
4 307
5 220
6 268
7 260
8 234
9 197
. .
. .
. .
71 278
72 254
30
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva
1. capturar los 72 datos como lo indica el punto 1 del ejemplo de diagrama de caja.
Para ilustrar la forma de cmo Excel es utilizado para obtener una distribucin de
frecuencias con datos cuantitativos, tomaremos el ejemplo de la resistencia al
rompimiento en psi. de 72 botellas de vidrio no retornable (pgina 13).
A B C D E
1 Resistencia Resistencia Limite Frecuencia
Superior
2 265 176-196 196
3 205 197-217 217
4 263 218-238 238
5 307 239-259 259
6 220 260-280 280
7 268 281-301 301
8 260 302-322 322
9 234 323-343 343
10 197
. .
. .
. .
72 278
73 254
32
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva
2. Elaboracin de un histograma.
A B
1 2 186
2 4 207
3 9 228
4 14 249
5 27 270
6 8 291
7 4 312
8 4 333
5. Hacer clic derecho dentro del cuadro que aparece en blanco en la pantalla.
Hacer clic en Seleccionar datos.
33
Lic. Vicente Snchez y Ramrez
Estadstica Descriptiva
En los cuadros de dilogo, Excel tiene otras posibilidades ms que usted puede
aprovechar seleccionando las opciones que desee.
34