Introducción a la Estadística Descriptiva
Introducción a la Estadística Descriptiva
BOGOTÁ
2008
Jaime Antonio Quiceno / Luis Farley Ortiz / Luis Miguel Cabrera G / Karla Salguero / Rodolfo Prada / Sergio Chica
Diseño Gráfico. Monica Silva Elías / Fredy David Gil R / Camilo Carrillo
Estadística descriptiva
1. CONCEPTOS BÁSICOS
Estos elementos pueden ser simples como un estudiante o compuestos como una
universidad. El total de elementos constituyen el tamaño de la población, la cual puede
ser finita o infinita.
Los elementos de la población tienen ciertas cualidades que llamamos caracteres. Así las
personas tienen ciertos caracteres como edad, religión, nivel de estudios; las galaxias
pueden ser luminosidad o forma.
Como las poblaciones tienen infinidad de caracteres la estadística por lo general no los
toma en cuenta en forma masiva sino a aquellos que se consideran necesarios al objeto
de la investigación. Por ejemplo, de la población de un país queremos conocer su grado
de estudio de acuerdo con su edad y su estrato económico. Es así que la selección de los
caracteres es el primer paso – fundamental – en la investigación estadística.
2
Estadística descriptiva
Las variables pueden ser discretas si sólo pueden tener unos cuantos valores dentro de
un intervalo, por ejemplo el número de accidentes en un sitio de la ciudad. Si pueden
tomar infinitos valores dentro de un intervalo, se llaman continuos, por ejemplo
85,22467 ...km/h. Sin embargo, esta presentación es teórica porque las variables
continuas las presentamos como discretas. 85,2 km/h.
Para los atributos debemos definir la modalidad correspondiente, nacionalidad, CI, etc.
Para ordenar tenemos que establecer algunas convenciones arbitrarias que a veces son
de aceptación universal o establecidas por el investigador; por ejemplo, en un concurso
de belleza: la ‘más bella’ el número 1 y la que le sigue el número 2. Es claro que estos
números no los podemos manipular como en el caso de los obtenidos para las variables.
Los resultados obtenidos los podemos llamar datos u observaciones.
En algunos casos las variables las podemos convertir en atributos: baja temperatura,
mediana temperatura, alta temperatura. Es obvio que los atributos no los podemos
convertir en variables así se expresen en ‘números’.
Las variables o atributos los podemos observar a través del tiempo y del espacio.
3
Estadística descriptiva
f) Subpoblaciones y muestras: cuando las poblaciones son muy grandes y el tiempo y los
recursos son escasos, no pueden observarse todos los caracteres. Lo mismo sucede
cuando éstos tienen que ser destruidos – control de calidad – solamente se puede
observar una parte. Este tipo de observación parcial la podemos denominar
subpoblación o muestra y su objetivo final es sacar conclusiones sobre la población. Si
los elementos que queremos investigar tienen ciertas características especiales,
hablamos de subpoblación. Por ejemplo, si queremos analizar la evolución de las ventas
del sector farmacéutico, podemos escoger entre las miles de empresas del sector las
cinco más grandes, que venden más de $1000’ al año y que probablemente representen
el 60% del total de ventas. Este tipo de investigación nos reduce en forma significativa
costos y tiempo. Podríamos afirmar que el estudio de la canasta familiar es una
subpoblación porque entre los miles de elementos de consumo de las familias, se
escogen los más significativos. Si los elementos escogidos de la población no reúnen
ciertas características especiales que los distingan de los demás pero que representen la
población, estamos hablando de una muestra. En el caso anterior – sector farmacéutico
– aparecerán micro, medianas y grandes empresas.
Si a espacios regulares, por ejemplo cada tres meses, observamos varios caracteres de
una parte de una población, nos estamos refiriendo a una encuesta.
i – Tablas de frecuencias
4
Estadística descriptiva
Ejemplo 1:
Tabla 1
6 5 1 4 3 4
3 4 5 3 4 4
4 5 3 4 5 4
2 3 4 5 4 3
5 2 2 4 5 6
Tabla 2
Personas # de
< 40 años familias
1 1
2 3
3 5
4 10
5 8
6 3
Ejemplo 2:
Hasta aquí todo es fácil, pero si estuviéramos analizando el nivel salarial de 50.000
ingenieros, el análisis se complica. Tal vez lo pudiéramos representar así:
5
Estadística descriptiva
Tabla 3
1 2 3 4
Salario # de % Punto
($millones) ingenieros medio
1–2 8.700 17,4 1’5
2–3 17.400 34,8 2’5
3–4 13.050 26,1 3’5
4–5 7.250 14,5 4’5
5–6 3.600 7,20 5’5
Total 50.000 100%
6
Estadística descriptiva
Gráfica 1
10
8
# de familias
φ 1 2 3 4 5 6
Personas < 40 años
Gráfica 2
20.000 2 –3
s
o
r 15.000 3– 4
e
i
n 1 –2
e 10.000 4– 5
g
n
i 5 –6
e 5.000
d
# 0
Salario
∗
No debemos olvidar que toda tabla y toda gráfica debe tener su fuente.
7
Estadística descriptiva
Gráfica 3
Si trazáramos una línea suavizada por los puntos medios de cada clase, tendríamos una
representación ideal del ejemplo 2. Teóricamente, a medida que crece la muestra y
hacemos más pequeños los valores de cada clase, todo histograma tiende hacia la
representación de una curva suavizada.
iii – Distribuciones
Gráfica 4
φ a) φ b) φ c)
8
Estadística descriptiva
Por supuesto hay infinidad de asimetrías las cuales dependen de las variables a
investigar y del tamaño de la muestra.
La anterior distribución fue descubierta y formulada por el matemático Gauss por lo que
también se le conoce como curva de Gauss.
i– Tablas de frecuencias
Ejemplo 3:
Si analizamos un grupo de 135 familias para poder establecer la relación entre tamaño
de la familia (# de personas) y el # de habitantes por vivienda podríamos hacer una tabla
de frecuencias con dos variables de la siguiente forma:
9
Estadística descriptiva
Tabla 4
Tamaño de # de # de familia
la familia habitantes (frecuencia)
2 2 35
2 3 30
2 4 25
3 3 20
3 4 15
4 4 10
135
Este tipo de representación es de poco uso aunque es útil por su sencillez. Sin embargo,
es preferible realizar la tabulación con una tabla de doble entrada; veamos,
B Total
2 3 4 A = tamaño de la familia
A B = # de habitantes
2 35 30 25 90
3 φ 20 15 35
4 φ φ 10 10
Total 35 50 50 135
Columna 3, fila 3: hay 20 familias que tienen tres personas y les corresponden tres
cuartos.
Columna 2, fila 4: no encontramos familias de cuatro personas y dos cuartos. ¿Qué
significado tienen la última columna y la última fila?
Ejemplo 4:
Al analizar la relación de las edades de parejas (esposa y esposo) obtuvimos la siguiente
información:
10
Estadística descriptiva
Tabla 6
X 15-25 25-35 35-45 45-55 55-65 65-75
Total
Y 20 30 40 50 60 70
15-25
100 100
20
25-35
200 1.100 100 1.400
30
35-45
400 1.000 100 1.500
40
45-55
300 600 100 1.000
50
55-65
200 300 200 700
60
65-75
100 200 300
70
Total 300 1500 1400 900 500 400 5000
Fuente: Gugarati, Econometría
Esta tabulación nos entrega gran cantidad de información en una forma condensada:
Tabla 7
B 2 3 4 %
A
2 25.9 22.2 28.5 66.6
3 φ 14.8 11.1 25.9
4 φ φ 7.5 7.5
% 25.9 37.0 37.1 100
11
Estadística descriptiva
ii – Representación gráfica
Gráfica 6
70
60
50
40
30
20
20 30 40 50 60 70
Cada uno de los ejes corresponde a una variable y establecemos su relación a través de
una nube de puntos. Convencionalmente se puede establecer que los puntos con mayor
frecuencia sean más gruesos.
12
Estadística descriptiva
Si la relación entre las variables es inversa cuando una se incrementa de valor la otra
disminuye; es el caso de la teoría clásica de la función de demanda con respecto a
precio.
c) Estadísticas de atributos
i– Estadísticas de un atributo
Los conocimientos previos en gran medida los podemos aplicar para el estudio de los
atributos.
Ejemplo 5:
En el gran centro - agro - industrial de Labateca investigamos la ocupación de la
población económicamente creativa – por sectores – y obtuvimos la siguiente
información:
Tabla 8
# de
Sector %
trabajadores
Industria 400 10
Comercio 1200 30
Servicios 800 20
Agricultura 1600 40
Total 4.000 100%
En esta sencilla tabulación tenemos los sectores – modalidades – con sus frecuencias
absolutas y frecuencias relativas. Aquí surge la duda en cuanto a cómo clasificamos a un
trabajador que labore en dos actividades. En este caso lo incorporamos en la que
∗
Algunos investigadores los denominan variables cualitativas, ficticias o dummy.
13
Estadística descriptiva
Gráfica 7
#
%
trabajadores
1600 40
1200 30
800 20
400 10
φ φ
Comercio
Servicios
Agricultura
Industria
Ejemplo 6:
Necesitamos averiguar cómo se encuentra clasificada la población – económicamente
activa – del centro agroindustrial de Labateca: por estado civil y sexo con el fin de
mejorar la inversión social:
Tabla 9
Estado civil
Sexo Soltero Casado Viudo Total
Hombres 800 1150 100 2050
Mujeres 650 1150 150 1950
Total 1450 2300 250 4000
14
Estadística descriptiva
Al observar esta tabla podemos decir que del total de la población económicamente
activa del centro agroindustrial de Labateca, hay 150 mujeres viudas. La anterior tabla
también la podemos expresar en términos porcentuales.
Tabla 10
Estado civil
Sexo Soltero Casado Viudo %
Hombres 20,0 28,8 2,5 51,3
Mujeres 16,1 28,8 3,8 48,7
% 36,1 57,6 6,3 100
Del análisis de esta tabla podemos estimar que el 20% de los hombres es soltero y que
del total de la población 6,3% es viuda.
Ejemplo 7:
Nos gustaría saber cómo se encuentra la distribución de ingresos promedios por sexo de
la población económicamente activa del centro agroindustrial de Labateca para revisar
la política fiscal.
Tabla 11
Ingreso promedio en miles
Sexo 500. 700. 1’000 1’400 Total
Hombres 720 980 400 220 2320
Mujeres 880 400 220 180 1680
Total 1600 1300 620 400 4000
De esta tabla podemos sacar algunas conclusiones: 220 mujeres ganan en promedio
$1’000.
Si sumamos frecuencias podemos afirmar que:
Cuando los elementos de una población o una muestra están unidos a la variable
tiempo, estamos hablando de series temporales. La unidad de tiempo puede ser años,
15
Estadística descriptiva
meses, etc.; lo importante es que sea la misma para todo el espacio de tiempo para que
sean comparables.
Ejemplo 8:
Vamos a analizar la tasa de crecimiento de la población económicamente activa del
centro agroindustrial de Labateca durante los últimos años. En el departamento de
Estadística encontramos la siguiente información:
Gráfica 8
Tabla 12
4000
#
Años 3900
trabajadores
# de trabajadores
2001 3540
3800
2002 3650
2003 3764 3700
2004 3880
2005 4000 3600
3500
φ gráfica;1 veamos
Es importante el uso adecuado de la representación 2 la representación
3 4 5
de este ejemplo en la otra escala: Año
16
Estadística descriptiva
Gráfica 9
4500
4000
s 3500
e
r 3000
o
d 2500
a
j
a 2000
b
a
rt 1500
# 1000
500
0
1 2 3 4 5
Año
Para el desarrollo de algunas fórmulas debemos establecer una notación básica y que
sea de aceptación universal.
Una variable la podemos designar como X o Y, si son muchas variables con X1, X2, ... Xn; y a
cada valor de la variable como Xi, Yi ...
Si tenemos valores repetidos para los que hemos utilizado frecuencias, la presentación
queda así:
17
Estadística descriptiva
Yi − Yi + 1 ni Yi '
Y1 − Y2 n1 Y1' ... tal que Yi ' es el promedio de la clase y se
Y2 − Y3 n2 Y2' denomina también marca de clase.
: : :
YK −1 − YK nK YK'
K
X 1 + X 2 + ... + X K = ∑ X i y
'
K
X 1 × X 2 × ... × X i = Π X K
'
3. ΣX ≠ (ΣX i )
2 2
i
a) Media aritmética ( X )
Éste es un promedio que se obtiene de dividir todas las observaciones en el tamaño de
la muestra:
X + X 2 + ... + X K ∑X i
X = 1 = '
n n
18
Estadística descriptiva
Ejemplo 9:
Ejemplo 10:
Una mediana empresa de 150 trabajadores los tienen clasificados salarialmente así:
Tabla 15
Salario Frecuencia
(millones)
440. 50
450. 40
470. 30
500. 20
540. 10
En este caso:
K
Xi ×n i
X 1 × n1 + X 2 × n 2 + ... + X K × n K ∑
X = = '
por lo que
n n
440. × 50 + 450. × 40 + 470. × 30 + 500. × 20 + 540. × 10
X =
150
X = $463.3
Ejemplo 11:
Una gran empresa tiene 600 trabajadores con la siguiente escala salarial y necesita
conocer el promedio de este salario.
19
Estadística descriptiva
Tabla 16
Yi − Yi +1 Yi Yi '
(miles $)
440. - 450. 240 445
410. - 470. 180 460
470. - 500. 120 485
500. - 540. 60 520
En este caso:
K
Y '
+Y '
+ ... + Y ' ∑Y i
ixni
Y= = '
1 xni 2 xn2 Kxn K
n n
445. × 240 + 460. × 180 + 485. × 120 + 520. × 60
Y=
600
Y = $465.0
∑X i
X = '
⇒ media aritmética simple
n
K K
∑ X i ni ∑Y n i
'
i
X = '
;Y = '
: media aritméticas ponderadas
n n
b) La mediana (Me)
Teóricamente corresponde al valor central de un grupo de datos, para lo cual hay que
ordenarlas de menor a mayor.
20
Estadística descriptiva
Cuando los datos son agrupados, debemos calcular unas nuevas frecuencias (Ni)
acumuladas tal que:
N 1 = n1 ; N 2 = n1 + n 2 ; N k = n1 + n 2 + ... + n k
Tabla 17
Salario ni Ni
(miles
$)
440. 50 50
450. 40 90
470. 30 120
500. 20 140
540. 10 150
Se supone que la Me es igual al salario que corresponde a la primera Ni > n/2. En este
caso el tamaño de la muestra (n) = 150. n/2 = 75. La primera Ni > n/2 es: N2 = 90; por lo
que la Me = $450; compárela con X = 463.3 .
21
Estadística descriptiva
Lo cual hace que rebose la capacidad de cualquier calculadora, por lo que tenemos que
manipularla y calcularla así:
lg G = ∑ (lg X i )ni
1
n
Sin embargo, la G es básica para estimar tasas de crecimiento (g); tal que:
g = G −1
Tabla 18
#
Años Incremento
trabajadores
2001 3540 ¿??
2002 3650 1,0311
2003 3764 1,0312
2004 3880 1,0308
2005 4000 1,0309
22
Estadística descriptiva
X 12 n1 + X 22 + n2 + X 32 n3 + ... + X k nk 2
∑X n i i
Mc = 2 =
n n
n
para los datos acumulados: M A = k
n
∑' Xi
i
f) Moda (Mo)
Se utiliza como promedio el dato que más se repite. Para datos simples no tienen
sentido, a no ser que exista un dato que se repita. En el caso del ejemplo 9, sería así:
23
Estadística descriptiva
Tabla 18A
X .............. $476.0
Me ............. $480.0
G ............... $474.9
Mc ............. $477.1
MA ............. $473.8
Mo ............. $440.0
De estos promedios hay dos que tienen dificultades teóricas, que son la Me y la Mo
porque sólo utilizan una parte de la población.
En estadística teórica, una propiedad muy importante para los promedios es que:
Σ( X i − promedio ) = Φ
Tabla 19
Xi X (Xi- X )
440. 476.0 -36
440. 476.0 -36
480. 476.0 4
500. 476.0 24
520. 476.0 44
φ
La otra propiedad que debe cumplir todo promedio es que suma de las desviaciones al
cuadrado debe ser mínima, tal que:
∑ (X )
2
i −X = mínimo
∗
El lector debe calcular la Σ de las desviaciones de los otros promedios y la Σ de las desviaciones al cuadrado
y realizar la comparación.
24
Estadística descriptiva
a) Varianza [V(x)]
∑ (X ) ∑ (X )
2 2
−X −X
V (X ) =
i i
; en algunos casos se representa así: en la que
n (n − 1)
(n-1) corresponde a los grados de libertad.
n n −1
∑ (X ) = ∑X
2
−X 2
25
Estadística descriptiva
Ejemplo 12:
Al salario de los trabajadores de una microempresa ya le calculamos su X = $476.000 y
necesitamos calcularle su V(X). Los datos originales son:
Tabla 20
Xi = salario
(miles de $)
X Xi − X (X i −X )
2
X i2
5120
Tal que V ( X ) = = 1.024 pesos 2 . Recordemos que otra forma de hallar V(X) es
5
∑X i
2
−X =
2 1'138.000
− (476) 2 = 1024 pesos 2
n 5
Ejemplo 13:
Al salario de los trabajadores de una mediana empresa ya le calculamos su X = 463.33 y
necesitamos calcular su V(X).
Tabla 21
Xi = salario
(miles)
ni X Xi − X (X i )
2
− X ni X i2 ni
V (X ) =
( )
2
Σ X i − X ni 123.333,34
= = 808,9 pesos 2
n 150
26
Estadística descriptiva
n 150
Los resultados de la V(X) en los dos ejemplos anteriores son difíciles de interpretar
porque las unidades están al cuadrado, en este caso pesos2.
b) Desviación estándar ( σ x )
Propiedad de σ x
27
Estadística descriptiva
Ejemplo 14:
Tenemos dos microempresas de 5 trabajadores cada una, con sus respectivos salarios y
queremos comparar su grado de dispersión en términos percentuales.
El Cv = σ X
X
Empresa X σ Cv
A 476 32 6,7%
B 486 45 9,3%
d) Asimetría (As)
28
Estadística descriptiva
Ejemplo 15:
Tenemos una distribución que corresponde a los salarios 150 trabajados de una
mediana empresa (ejemplo 10) de la cual obtuvimos la siguiente información:
X − Mo 463,3 − 440.0
As = = = 0.819
σx 28,44
= 81,9% que nos indica asimetría positiva del 81,9% que es bastante alta; entre más
cerca se encuentre As de φ, es un indicativo de poca asimetría.
29
Estadística descriptiva
EVALUACIÓN
A – Taller de aplicación
PTO % PTO
País A País B
100-400 2’500 18 1’440
400-700 2’100 17 1’300
700-1000 1’800 16 1’280
1000-1300 1’400 15 1’200
1300-1600 1’100 14 1’120
1600-1900 700. 12 960
1900-2200* 400 8 640
Total 10’ 100 8’
* El último intervalo realmente significa >$1900.
PTO = población total ocupada
B – Cuestionario∗
BIBLIOGRAFÍA
∗
Complemente sus respuestas investigando en Internet!
30
Estadística descriptiva
GLOSARIO
31