0% encontró este documento útil (0 votos)
30 vistas31 páginas

Introducción a la Estadística Descriptiva

El documento presenta una introducción a la estadística descriptiva, definiendo conceptos clave como estadísticas, población, caracteres, variables y atributos. Se discuten métodos de organización y representación de datos, incluyendo tablas de frecuencias y gráficos, así como la importancia de las muestras y subpoblaciones en investigaciones. Además, se abordan las distribuciones de datos y su representación gráfica, destacando la distribución normal como modelo teórico.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
30 vistas31 páginas

Introducción a la Estadística Descriptiva

El documento presenta una introducción a la estadística descriptiva, definiendo conceptos clave como estadísticas, población, caracteres, variables y atributos. Se discuten métodos de organización y representación de datos, incluyendo tablas de frecuencias y gráficos, así como la importancia de las muestras y subpoblaciones en investigaciones. Además, se abordan las distribuciones de datos y su representación gráfica, destacando la distribución normal como modelo teórico.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Estadística descriptiva

BOGOTÁ
2008

EQUIPO UNIVERSIDAD VIRTUAL - ESAP

Jaime Antonio Quiceno / Luis Farley Ortiz / Luis Miguel Cabrera G / Karla Salguero / Rodolfo Prada / Sergio Chica
Diseño Gráfico. Monica Silva Elías / Fredy David Gil R / Camilo Carrillo
Estadística descriptiva

TEMA I: ESTADÍSTICA DESCRIPTIVA (EDT)

1. CONCEPTOS BÁSICOS

a) Estadísticas: son un conjunto de datos


numéricos que deben estar presentados de
manera ordenada, sistemática y coherente de
acuerdo con unos criterios previamente
establecidos.

b) Estadística: como ciencia se dedica al estudio de


la regularidad de conglomerados en los que busca
su comportamiento general y no el
comportamiento particular de un individuo. Es así
que de este conglomerado de estadística pretende
hallar sus regularidades que nos sirven para
describirlo y poder hacer predicciones. Es claro que entre más grande sea el
conglomerado se puede observar mayor regularidad o estabilidad. Podemos concluir
que la estadística – como ciencia – estudia el comportamiento de poblaciones para
hallar en ellas regularidades de comportamiento colectivo que nos sirvan para
describirlas y poder hacer predicciones.

c) Población: es un colectivo de personas o cosas aunque pueden ser también hechos,


áreas geográficas, galaxias o intangibles. Cada uno de los elementos que integran la
población lo llamaremos elementos. Es así que un elemento puede ser tan concreto
como una bacteria dentro de un cultivo de éstas, una casa dentro de un barrio o 23oC en
la escala de la temperatura.

Estos elementos pueden ser simples como un estudiante o compuestos como una
universidad. El total de elementos constituyen el tamaño de la población, la cual puede
ser finita o infinita.

Los elementos de la población tienen ciertas cualidades que llamamos caracteres. Así las
personas tienen ciertos caracteres como edad, religión, nivel de estudios; las galaxias
pueden ser luminosidad o forma.

Como las poblaciones tienen infinidad de caracteres la estadística por lo general no los
toma en cuenta en forma masiva sino a aquellos que se consideran necesarios al objeto
de la investigación. Por ejemplo, de la población de un país queremos conocer su grado
de estudio de acuerdo con su edad y su estrato económico. Es así que la selección de los
caracteres es el primer paso – fundamental – en la investigación estadística.

2
Estadística descriptiva

d) Clasificación de los caracteres: los podemos dividir en variables y atributos. Cuando


los caracteres los podemos cuantificar mediante números, los denominamos variables.
Por ejemplo, el salario, la velocidad, migración. Cuando los caracteres los describimos
mediante palabras, los llamamos atributos, por ejemplo, nacionalidad, raza, religión. Los
números que se obtienen de la cuantificación de variables los llamamos valores; la
presentación de los atributos la denominamos modalidad. Es evidente que tanto los
valores de las variables como las modalidades de los atributos no son constantes en
todos los elementos de la población porque sino para qué ciencia estadística. Es así que
la velocidad puede ser 83 km/h 0 1005 km/h, etc.; la nacionalidad de los emigrantes
puede ser española o mozambiqueña.

Las variables pueden ser discretas si sólo pueden tener unos cuantos valores dentro de
un intervalo, por ejemplo el número de accidentes en un sitio de la ciudad. Si pueden
tomar infinitos valores dentro de un intervalo, se llaman continuos, por ejemplo
85,22467 ...km/h. Sin embargo, esta presentación es teórica porque las variables
continuas las presentamos como discretas. 85,2 km/h.

e) Unidades de medida u observación: si ya hemos definido las variables o atributos a


investigar, procedemos a observarlos. En el caso de variables tenemos que establecer las
unidades de medida, metros, litros, grados centígrados, etc.; y posteriormente
establecer un límite inferior y uno posterior – rango – dentro de los cuales los vamos a
ordenar; y a los números obtenidos los llamamos valores o datos.

Para los atributos debemos definir la modalidad correspondiente, nacionalidad, CI, etc.
Para ordenar tenemos que establecer algunas convenciones arbitrarias que a veces son
de aceptación universal o establecidas por el investigador; por ejemplo, en un concurso
de belleza: la ‘más bella’ el número 1 y la que le sigue el número 2. Es claro que estos
números no los podemos manipular como en el caso de los obtenidos para las variables.
Los resultados obtenidos los podemos llamar datos u observaciones.

En algunos casos las variables las podemos convertir en atributos: baja temperatura,
mediana temperatura, alta temperatura. Es obvio que los atributos no los podemos
convertir en variables así se expresen en ‘números’.

Las variables o atributos los podemos observar a través del tiempo y del espacio.

Si observamos el salario de los trabajadores de las PYMES en diez capitales de


departamento el mismo día del año, los resultados los llamamos observaciones
atemporales o de corte transversal. Si observamos el salario de los trabajadores de estas
PYMES en la misma ciudad durante varios meses o varios años, a los resultados los
llamamos observaciones temporales. Aunque los puntos de vista son diferente en las

3
Estadística descriptiva

dos metodologías, sí los podemos complementar para mejorar el análisis de esa


población. Parece ser que hay una mayor dependencia entre las observaciones
temporales que entre las atemporales.

f) Subpoblaciones y muestras: cuando las poblaciones son muy grandes y el tiempo y los
recursos son escasos, no pueden observarse todos los caracteres. Lo mismo sucede
cuando éstos tienen que ser destruidos – control de calidad – solamente se puede
observar una parte. Este tipo de observación parcial la podemos denominar
subpoblación o muestra y su objetivo final es sacar conclusiones sobre la población. Si
los elementos que queremos investigar tienen ciertas características especiales,
hablamos de subpoblación. Por ejemplo, si queremos analizar la evolución de las ventas
del sector farmacéutico, podemos escoger entre las miles de empresas del sector las
cinco más grandes, que venden más de $1000’ al año y que probablemente representen
el 60% del total de ventas. Este tipo de investigación nos reduce en forma significativa
costos y tiempo. Podríamos afirmar que el estudio de la canasta familiar es una
subpoblación porque entre los miles de elementos de consumo de las familias, se
escogen los más significativos. Si los elementos escogidos de la población no reúnen
ciertas características especiales que los distingan de los demás pero que representen la
población, estamos hablando de una muestra. En el caso anterior – sector farmacéutico
– aparecerán micro, medianas y grandes empresas.

Y si escogemos en forma aleatoria se refiere a un muestreo aleatorio que desde el punto


de vista estadístico es una muestra representativa de la población con determinado
margen de error.

Cuando observamos toda una población y se incorporan gran cantidad de caracteres,


hablamos de un censo que normalmente se hace con grandes intervalos de tiempo,
cada diez años en algunos países.

Si a espacios regulares, por ejemplo cada tres meses, observamos varios caracteres de
una parte de una población, nos estamos refiriendo a una encuesta.

2. ORGANIZACIÓN Y REPRESENTACIÓN DE ESTADÍSTICAS

a) Estadísticas de una sola variable

i – Tablas de frecuencias

Corresponde a la primera organización de una masa de datos.

4
Estadística descriptiva

Ejemplo 1:

Si nos dieran la siguiente información de 30 familias que viven en el mismo conjunto


residencial, con respecto al número de personas menores de 40 años, serían muy pocas
las conclusiones que pudiéramos sacar. Veamos:

Tabla 1
6 5 1 4 3 4
3 4 5 3 4 4
4 5 3 4 5 4
2 3 4 5 4 3
5 2 2 4 5 6

Si esta información la revisamos, contando cuantas veces se repite cada valor –


frecuencia– podríamos observar un adecuado comportamiento de este grupo humano.

Tabla 2
Personas # de
< 40 años familias
1 1
2 3
3 5
4 10
5 8
6 3

La Tabla 2 tiene la misma información que la Tabla 1, pero es más visible su


comportamiento. Este proceso lo denominamos tabulación.

Ejemplo 2:

Hasta aquí todo es fácil, pero si estuviéramos analizando el nivel salarial de 50.000
ingenieros, el análisis se complica. Tal vez lo pudiéramos representar así:

5
Estadística descriptiva

Tabla 3
1 2 3 4
Salario # de % Punto
($millones) ingenieros medio
1–2 8.700 17,4 1’5
2–3 17.400 34,8 2’5
3–4 13.050 26,1 3’5
4–5 7.250 14,5 4’5
5–6 3.600 7,20 5’5
Total 50.000 100%

La Tabla 3 la llamamos tabla de frecuencia y tiene las siguientes características:

En la columna 1, el recorrido de 1’ a 2’ se llama clase; en este caso tenemos 5 clases.


El valor final de la primera clase – 2’ – realmente equivale a 1’999.

La columna 2 corresponde a las frecuencias absolutas.


El valor 8.700 equivale al número de ingenieros que devengan un salario entre 1’ y 2’.
No podemos saber cuántos ingenieros ganan 1’250.

La columna 3 corresponde a las frecuencias relativas.


Podemos decir que el 7,20% de los ingenieros gana entre 5’ y 6’.
No podemos saber el porcentaje que devenga 4’850.

La columna 4 es el promedio de clase o marca de clase.


Podemos decir que 13.050 ingenieros ganan en promedio 3’5.
También podemos afirmar que el 14,5% de los ingenieros devenga en promedio 4’5.
ii – Representación gráfica

La información procesada de los ejemplos anteriores la podemos trasladar a un eje


cartesiano.

6
Estadística descriptiva

El ejemplo 1, lo podemos representar así:

Gráfica 1
10

8
# de familias

φ 1 2 3 4 5 6
Personas < 40 años

Esta representación corresponde a un diagrama.

El ejemplo 2 lo podemos graficar así:

Gráfica 2

20.000 2 –3
s
o
r 15.000 3– 4
e
i
n 1 –2
e 10.000 4– 5
g
n
i 5 –6
e 5.000
d
# 0
Salario

La anterior representación se llama histograma y lo hemos elaborado con base en la


información de las columnas 1 y 2 de la Tabla 3∗.

Con la información de la Tabla 3 podemos mejorar lo que obtuvimos en la Gráfica 2 para


lo cual utilizaremos la información de las columnas 1, 3 y 4 de la Tabla 3.


No debemos olvidar que toda tabla y toda gráfica debe tener su fuente.

7
Estadística descriptiva

Gráfica 3

Este es histograma de frecuencias relativas cuya área es el 100% de ingenieros.

Si trazáramos una línea suavizada por los puntos medios de cada clase, tendríamos una
representación ideal del ejemplo 2. Teóricamente, a medida que crece la muestra y
hacemos más pequeños los valores de cada clase, todo histograma tiende hacia la
representación de una curva suavizada.

La curva suavizada de la Gráfica 3 la denominamos distribución campaniforme.

iii – Distribuciones

Cualquier investigación estadística de una sola variable la podemos representar


mediante una distribución en forma de campana; veamos algunos ejemplos de
representación.

Gráfica 4

φ a) φ b) φ c)

La distribución a) está ligeramente corrida hacia la izquierda o de asimetría moderada a


la izquierda. La distribución b) está ampliamente asimétrica hacia la derecha y la c) tiene
forma de J invertida, que son bastante raras.

8
Estadística descriptiva

Por supuesto hay infinidad de asimetrías las cuales dependen de las variables a
investigar y del tamaño de la muestra.

Hay una distribución ideal o distribución teórica:

Esta distribución, que es totalmente simétrica, es el modelo de todas las distribuciones y


se denomina distribución normal; por supuesto no significa que las demás sean
anormales.

La anterior distribución fue descubierta y formulada por el matemático Gauss por lo que
también se le conoce como curva de Gauss.

b) Estadísticas de dos variables

En algunas investigaciones es necesario investigar en cada elemento de la población dos


variables, por lo que se obtienen parejas de valores; es así que una representación y
tabulación requiere que no se elimine el enlace de estas parejas de valores.

i– Tablas de frecuencias

Si hay pocos elementos su representación es sencilla.

Ejemplo 3:
Si analizamos un grupo de 135 familias para poder establecer la relación entre tamaño
de la familia (# de personas) y el # de habitantes por vivienda podríamos hacer una tabla
de frecuencias con dos variables de la siguiente forma:

9
Estadística descriptiva

Tabla 4
Tamaño de # de # de familia
la familia habitantes (frecuencia)
2 2 35
2 3 30
2 4 25
3 3 20
3 4 15
4 4 10
135

Este tipo de representación es de poco uso aunque es útil por su sencillez. Sin embargo,
es preferible realizar la tabulación con una tabla de doble entrada; veamos,

B Total
2 3 4 A = tamaño de la familia
A B = # de habitantes
2 35 30 25 90
3 φ 20 15 35
4 φ φ 10 10
Total 35 50 50 135

Su lectura es más fácil, por ejemplo:

Columna 3, fila 3: hay 20 familias que tienen tres personas y les corresponden tres
cuartos.
Columna 2, fila 4: no encontramos familias de cuatro personas y dos cuartos. ¿Qué
significado tienen la última columna y la última fila?

Esta representación facilita la tabulación y el análisis cuando se tiene mucha


información. Veamos:

Ejemplo 4:
Al analizar la relación de las edades de parejas (esposa y esposo) obtuvimos la siguiente
información:

10
Estadística descriptiva

Tabla 6
X 15-25 25-35 35-45 45-55 55-65 65-75
Total
Y 20 30 40 50 60 70
15-25
100 100
20
25-35
200 1.100 100 1.400
30
35-45
400 1.000 100 1.500
40
45-55
300 600 100 1.000
50
55-65
200 300 200 700
60
65-75
100 200 300
70
Total 300 1500 1400 900 500 400 5000
Fuente: Gugarati, Econometría

Esta tabulación nos entrega gran cantidad de información en una forma condensada:

 Total: 5.000 parejas


 Si X = edad de la esposa y Y = edad del esposo, entonces tenemos un total de 1.400
de señoras con edad entre 35 y 45 años y un promedio de 40 años; un total de 1.500
de señores con edad entre 35 y 45 y un promedio de 40 años.
 Un total de 100 parejas en las que la edad promedio de la esposa es de 50 años y la
del esposo de 40 años promedio.
 En esta tabla tenemos dos tipos de frecuencias: la que están dentro de la tabla;
frecuencias absolutas; los que están en las márgenes: frecuencia marginales.

La tabla 5 la podemos expresar de la siguiente manera para mejorar el análisis de los


resultados:

Tabla 7
B 2 3 4 %
A
2 25.9 22.2 28.5 66.6
3 φ 14.8 11.1 25.9
4 φ φ 7.5 7.5
% 25.9 37.0 37.1 100

11
Estadística descriptiva

 Columna 3 y fila 3: el 14.8% de las familias investigadas se componen de tres


personas y les corresponden tres cuartos.
 En la última columna: el 25.9% de las familias investigadas están compuestas de 3
personas.
 Los números que están dentro de la tabla son frecuencias relativas y los que están
en la última columna y última fila son frecuencias relativas marginales.
 Hasta aquí ya sabemos cómo se construye una tabla de doble entrada de
frecuencias absolutas y frecuencias relativas.
 Construya una tabla de frecuencias relativas con la información de la tabla 6 y haga
el análisis.

ii – Representación gráfica

Después de tabulada la información que relaciona parejas de variables, utilizamos un eje


cartesiano para la representación. Veamos la representación de la Tabla 6:

Gráfica 6

70

60

50

40

30

20

20 30 40 50 60 70

Cada uno de los ejes corresponde a una variable y establecemos su relación a través de
una nube de puntos. Convencionalmente se puede establecer que los puntos con mayor
frecuencia sean más gruesos.

 En esta representación gráfica podemos observar que a mayor edad de la esposa


también se incrementa la del esposo; es decir, hay una relación positiva entre las
variables.

12
Estadística descriptiva

 Si la relación entre las variables es inversa cuando una se incrementa de valor la otra
disminuye; es el caso de la teoría clásica de la función de demanda con respecto a
precio.

c) Estadísticas de atributos

Recordemos que los caracteres de la población los dividimos en variables y atributos∗; y


que los atributos tienen modalidades. Estas modalidades pueden establecerse de
muchas formas; algunas veces hay estándares, otras de acuerdo al criterio de los
investigadores; en algunos casos los atributos tienen pocas modalidades; en el caso del
sexo: hombre, mujer; en otros casos las modalidades son numerosas, la nacionalidad:
colombiano, brasilero, vietnamita, etc.

La clasificación de la modalidades debe ser exhaustivas y mutuamente excluyentes


cuando una observación solamente puede incluir en una sola modalidad.

Ya definidas las modalidades del atributo procedemos a tabularlas.

i– Estadísticas de un atributo
Los conocimientos previos en gran medida los podemos aplicar para el estudio de los
atributos.

Ejemplo 5:
En el gran centro - agro - industrial de Labateca investigamos la ocupación de la
población económicamente creativa – por sectores – y obtuvimos la siguiente
información:

Tabla 8
# de
Sector %
trabajadores
Industria 400 10
Comercio 1200 30
Servicios 800 20
Agricultura 1600 40
Total 4.000 100%

En esta sencilla tabulación tenemos los sectores – modalidades – con sus frecuencias
absolutas y frecuencias relativas. Aquí surge la duda en cuanto a cómo clasificamos a un
trabajador que labore en dos actividades. En este caso lo incorporamos en la que


Algunos investigadores los denominan variables cualitativas, ficticias o dummy.

13
Estadística descriptiva

obtenga su mayor ingreso. A pesar de que el centro es agroindustrial con la información


de la Tabla 8 podemos afirmar que es más agrícola.

La representación gráfica de esta información es muy sencilla.

Gráfica 7
#
%
trabajadores
1600 40

1200 30

800 20

400 10

φ φ
Comercio
Servicios
Agricultura

Industria

ii – Estadísticas de dos atributos

A veces es necesario estudiar el grado de relación de dos atributos. En este caso


procedemos a aplicar lo que ya estudiamos; organizamos una tabla de doble entrada.

Ejemplo 6:
Necesitamos averiguar cómo se encuentra clasificada la población – económicamente
activa – del centro agroindustrial de Labateca: por estado civil y sexo con el fin de
mejorar la inversión social:

Tabla 9
Estado civil
Sexo Soltero Casado Viudo Total
Hombres 800 1150 100 2050
Mujeres 650 1150 150 1950
Total 1450 2300 250 4000

14
Estadística descriptiva

Al observar esta tabla podemos decir que del total de la población económicamente
activa del centro agroindustrial de Labateca, hay 150 mujeres viudas. La anterior tabla
también la podemos expresar en términos porcentuales.

Tabla 10
Estado civil
Sexo Soltero Casado Viudo %
Hombres 20,0 28,8 2,5 51,3
Mujeres 16,1 28,8 3,8 48,7
% 36,1 57,6 6,3 100

Del análisis de esta tabla podemos estimar que el 20% de los hombres es soltero y que
del total de la población 6,3% es viuda.

iii – Estadísticas mixtas

Un caso frecuente en investigación es la relación entre una variable y un atributo que lo


podemos tratar con una tabla de doble entrada.

Ejemplo 7:
Nos gustaría saber cómo se encuentra la distribución de ingresos promedios por sexo de
la población económicamente activa del centro agroindustrial de Labateca para revisar
la política fiscal.

Tabla 11
Ingreso promedio en miles
Sexo 500. 700. 1’000 1’400 Total
Hombres 720 980 400 220 2320
Mujeres 880 400 220 180 1680
Total 1600 1300 620 400 4000

De esta tabla podemos sacar algunas conclusiones: 220 mujeres ganan en promedio
$1’000.
Si sumamos frecuencias podemos afirmar que:

(800 + 400 + 220) = 1500 mujeres ganan en promedio hasta $1’000.


iv – Series temporales

Cuando los elementos de una población o una muestra están unidos a la variable
tiempo, estamos hablando de series temporales. La unidad de tiempo puede ser años,

15
Estadística descriptiva

meses, etc.; lo importante es que sea la misma para todo el espacio de tiempo para que
sean comparables.

Una estadística temporal en realidad corresponde a la relación de dos variables en la que


una de ellas es el tiempo y la otra es la variable a la que vamos a estudiar su evolución. Es
importante destacar que en este caso algunas variables corresponden a flujos como la
producción y otras a un stock como el número de trabadores. Es en caso de la
producción anual corresponde a la suma diaria durante todo e año en el caso de los
trabajadores corresponde al número que laboraba en una fecha determinada del año.
En el estudio de las series temporales se debe establecer la metodología adecuada para
que los datos a través del tiempo sean comparables; por ejemplo el salario promedio
puede ser afectado por la inflación; el posible crecimiento de una enfermedad tal vez se
deba a que han mejorado las técnicas de diagnosticarla.

Veamos un ejemplo de presentación y graficación de una serie temporal.

Ejemplo 8:
Vamos a analizar la tasa de crecimiento de la población económicamente activa del
centro agroindustrial de Labateca durante los últimos años. En el departamento de
Estadística encontramos la siguiente información:

Gráfica 8
Tabla 12
4000
#
Años 3900
trabajadores
# de trabajadores

2001 3540
3800
2002 3650
2003 3764 3700
2004 3880
2005 4000 3600

3500
φ gráfica;1 veamos
Es importante el uso adecuado de la representación 2 la representación
3 4 5
de este ejemplo en la otra escala: Año

16
Estadística descriptiva

Gráfica 9

4500
4000
s 3500
e
r 3000
o
d 2500
a
j
a 2000
b
a
rt 1500
# 1000
500
0
1 2 3 4 5
Año

En la Gráfica 8 da la impresión de un crecimiento acelerado del número de trabajadores,


mientras en la Gráfica 9 la población se ha mantenido estable aparentemente.

3 – MEDIDAS DE TENDENCIA CENTRAL

Nosotros ya podemos presentar cualquier tipo de información mediante tablas y


gráficas que nos ha permitido sacar conclusiones acertadas sobre conglomerados. Pero
este proceso de reducción debe continuar para que toda la información la
representemos mediante un número. Este número lo llamamos promedio y debe estar
acompañado de otro número que nos indique su variación con respecto a los datos
originales, este nuevo número es una medida de dispersión.

Los principales promedios o medidas de tendencia central son: la medida aritmética, la


mediana, la media armónica, la media geométrica y la moda; cada una con sus ventajas y
desventajas.

Para el desarrollo de algunas fórmulas debemos establecer una notación básica y que
sea de aceptación universal.

Una variable la podemos designar como X o Y, si son muchas variables con X1, X2, ... Xn; y a
cada valor de la variable como Xi, Yi ...

Si tenemos valores repetidos para los que hemos utilizado frecuencias, la presentación
queda así:

17
Estadística descriptiva

Xi ni Con la condición de que n1 + n2 +... + nk = n


X1 n1 n = tamaño de la muestra
X2 n2 N = tamaño de la población
: : ni = frecuencias
X3 n3

Si tenemos tablas con intervalo de clase, la podemos representar así:

Yi − Yi + 1 ni Yi '
Y1 − Y2 n1 Y1' ... tal que Yi ' es el promedio de la clase y se
Y2 − Y3 n2 Y2' denomina también marca de clase.
: : :
YK −1 − YK nK YK'

Para condensar información utilizamos dos operadores:


Σ = sumatoria
Π = multiplicatoria
por lo que la siguiente suma

K
X 1 + X 2 + ... + X K = ∑ X i y
'
K
X 1 × X 2 × ... × X i = Π X K
'

Ahora veamos unas reglas básicas de las sumatorias:


Xi = valor de una variable
a = constante
1. ΣaX i = aΣX i
2. ∑ (a + bX ) = na + bΣX
i i

3. ΣX ≠ (ΣX i )
2 2
i

Con esta nomenclatura revisemos los promedios de mayor uso:

a) Media aritmética ( X )
Éste es un promedio que se obtiene de dividir todas las observaciones en el tamaño de
la muestra:

X + X 2 + ... + X K ∑X i
X = 1 = '

n n

18
Estadística descriptiva

Ejemplo 9:

El salario mensual de 5 trabajadores de una microempresa son: 440.000, 440.000,


480.000, 500.000, 520.000:

440.000 + 440.000 + 480.000 + 500.000 + 520.000


X = = 476.000
5

Podemos afirmar que el ingreso promedio mensual de los trabajadores de esta


microempresa es de $476.000. Observemos que este promedio no se encuentra – la
mayoría de las veces – entre los valores de esta muestra; sin embargo, lo podemos
considerar su centro de gravedad.

Ejemplo 10:

Una mediana empresa de 150 trabajadores los tienen clasificados salarialmente así:

Tabla 15
Salario Frecuencia
(millones)
440. 50
450. 40
470. 30
500. 20
540. 10

En este caso:
K
Xi ×n i
X 1 × n1 + X 2 × n 2 + ... + X K × n K ∑
X = = '
por lo que
n n
440. × 50 + 450. × 40 + 470. × 30 + 500. × 20 + 540. × 10
X =
150
X = $463.3

Ejemplo 11:
Una gran empresa tiene 600 trabajadores con la siguiente escala salarial y necesita
conocer el promedio de este salario.

19
Estadística descriptiva

Tabla 16
Yi − Yi +1 Yi Yi '
(miles $)
440. - 450. 240 445
410. - 470. 180 460
470. - 500. 120 485
500. - 540. 60 520

Yi ' = promedio de la clase


n = Σni = 600

En este caso:
K

Y '
+Y '
+ ... + Y ' ∑Y i
ixni
Y= = '
1 xni 2 xn2 Kxn K

n n
445. × 240 + 460. × 180 + 485. × 120 + 520. × 60
Y=
600
Y = $465.0

La media aritmética del ejemplo 9 corresponde a media aritmética simple; y la media de


los ejemplos 10 y 11 corresponden a la media aritmética ponderada, tal que n1, n2,...,nk
corresponden a las ponderaciones.

∑X i
X = '
⇒ media aritmética simple
n
K K

∑ X i ni ∑Y n i
'
i
X = '
;Y = '
: media aritméticas ponderadas
n n

b) La mediana (Me)

Teóricamente corresponde al valor central de un grupo de datos, para lo cual hay que
ordenarlas de menor a mayor.

Del ejemplo 9 tenemos:

440., 440., 480, 500, 520;

20
Estadística descriptiva

Enes te caso la Me = 480.; compárela con X = 476 .

Si los datos son pares, la Me = al promedio de los datos centrales.

Cuando los datos son agrupados, debemos calcular unas nuevas frecuencias (Ni)
acumuladas tal que:

N 1 = n1 ; N 2 = n1 + n 2 ; N k = n1 + n 2 + ... + n k

Si retomamos el ejemplo 10, la tabla 15, tenemos:

Tabla 17
Salario ni Ni
(miles
$)
440. 50 50
450. 40 90
470. 30 120
500. 20 140
540. 10 150

Se supone que la Me es igual al salario que corresponde a la primera Ni > n/2. En este
caso el tamaño de la muestra (n) = 150. n/2 = 75. La primera Ni > n/2 es: N2 = 90; por lo
que la Me = $450; compárela con X = 463.3 .

c) Media geométrica (G)

La G es equivalente a la raíz k de los k productos, tal que:


G = k X 1 × X 2 × ... × X k

Del ejemplo 9 tenemos:


G = 5 440. × 440. × 480. × 500. × 520.
G = $474.9; X = $476.0

En el caso de datos acumulados la fórmula es un poca compleja:


k
G = n X 1n1 × X 2n2 × ... × X knk ; tal que n = ∑ ni
'

21
Estadística descriptiva

Lo cual hace que rebose la capacidad de cualquier calculadora, por lo que tenemos que
manipularla y calcularla así:
lg G = ∑ (lg X i )ni
1
n

Sin embargo, la G es básica para estimar tasas de crecimiento (g); tal que:
g = G −1

Si retomamos los datos del ejemplo 8 , Tabla 12 tenemos:

Tabla 18
#
Años Incremento
trabajadores
2001 3540 ¿??
2002 3650 1,0311
2003 3764 1,0312
2004 3880 1,0308
2005 4000 1,0309

Los datos de la columna ‘Incremento’ los obtuvimos al dividir el # de trabajadores de un


año por los del anterior: 4000/3880 = 1,0309.

Con estos resultados calculamos la G.


G = 4 (1,0311) × (1,0312) × (1,0308) × (1,0309)
G = 1,0310 ; tal que la tasa de crecimiento g = G – 1 = 1,0310 – 1 = 3,10% anual.

Si necesitamos estimar la población para el año 2006, procedemos así:

Pob(06) = Pob(05) x (1 + g)1


Pob(06) = Pob(05) x (1 + 0.031)1 = 4124 trabajadores;

por lo que para cualquier año la podemos utilizar así:


Pob( k ) = Pob( Φ ) (1 + g )
k

d) Media cuadrática (Mc)

Es el resultado de la raíz cuadrada de la suma de los cuadrados.


(440.) 2 + (440.) 2 + (480.) 2 + (500.) 2 + (520.) 2
Mc = 2
5

22
Estadística descriptiva

Mc = $477,1; compare con X = 476.0 .

En el caso de datos acumulados:


k

X 12 n1 + X 22 + n2 + X 32 n3 + ... + X k nk 2
∑X n i i

Mc = 2 =
n n

e) Media armónica (MA)


n n
MA = = k
1 1 1 1
+ + ... + ∑X
X1 X 2 Xn i

Con los datos del ejemplo 9 tenemos:


5
MA = = $473,8 compare con X = 476.0
1 1 1 1 1
+ + + +
440 440 480 500 520

n
para los datos acumulados: M A = k
n
∑' Xi
i

f) Moda (Mo)

Se utiliza como promedio el dato que más se repite. Para datos simples no tienen
sentido, a no ser que exista un dato que se repita. En el caso del ejemplo 9, sería así:

440., 440., 480., 500., 520.; por lo que:


Mo = 440; X = 476.0

En el caso de datos cumulados, la Mo es igual al que corresponda a mayor frecuencia ni .


En el caso del ejemplo 10, ni = 50 por lo que:
Mo = $440.; en este ejemplo 10 la X = 463.3

Hagamos un cuadro comparativo de los promedios de los datos simples.

23
Estadística descriptiva

Tabla 18A
X .............. $476.0
Me ............. $480.0
G ............... $474.9
Mc ............. $477.1
MA ............. $473.8
Mo ............. $440.0

De estos promedios hay dos que tienen dificultades teóricas, que son la Me y la Mo
porque sólo utilizan una parte de la población.

En estadística teórica, una propiedad muy importante para los promedios es que:
Σ( X i − promedio ) = Φ

En el caso de la X cumple con esta propiedad tal que:


( )
Σ X i − X = Φ ; revisemos lo anterior con base en el ejemplo 9.

Tabla 19
Xi X (Xi- X )
440. 476.0 -36
440. 476.0 -36
480. 476.0 4
500. 476.0 24
520. 476.0 44
φ

La relación Xi - X se llama desviación con respecto a la media∗

La media aritmética cumple con la propiedad de Σ (Xi - X )2 = φ por ser el centro de


gravedad de cualquier grupo de datos tabulados.

La otra propiedad que debe cumplir todo promedio es que suma de las desviaciones al
cuadrado debe ser mínima, tal que:
∑ (X )
2
i −X = mínimo


El lector debe calcular la Σ de las desviaciones de los otros promedios y la Σ de las desviaciones al cuadrado
y realizar la comparación.

24
Estadística descriptiva

en el caso de X tenemos : (-36)2 + (-36)2 + (4)2 + (24)2 + (44)2 = 5120; es decir, si


∑ (X − promedio ) ∑ (X )
2
−X
2
calculamos i de todos los promedios, en el caso de i

este valor será el menor de todos.

Por estas propiedades de la X se considera el mejor de los promedios y el de mayor


desarrollo teórico.

4) MEDIDAS DE DISPERSIÓN Y ASIMETRÍA

Cuando empezamos el estudio de los promedios establecimos que para medir su


representatividad deben estar acompañados de un número que indique su variación o
dispersión. De acuerdo con las dos propiedades que debe cumplir todo promedio, es
decir: i. Σ( X i − promedio ) = Φ ; y ii. ∑ (X )2
i −X =mínimo ; continuaremos nuestro
desarrollo teórico con base en la X .

a) Varianza [V(x)]

Es la principal medida de dispersión de un promedio que cumple con la segunda


∑ (X )
2
propiedad, es decir que i −X =mínimo . La varianza corresponde al promedio de
las desviaciones al cuadrado por lo que la podemos representar así:

∑ (X ) ∑ (X )
2 2
−X −X
V (X ) =
i i
; en algunos casos se representa así: en la que
n (n − 1)
(n-1) corresponde a los grados de libertad.

Para datos agrupados, tenemos:


∑ (X ) ∑ (X )
2 2
− X ni − X ni
V (X ) = ; o V (X ) =
i i

n n −1

∑ (X ) = ∑X
2
−X 2

Para comodidad en su cálculo, la V ( X ) =


2
−X
i i
y en caso de datos
n n
∑ (X ) 2
− X ni ∑X 2
ni 2
= −X
i i
agrupados:
n n

25
Estadística descriptiva

Veamos su utilización práctica.

Ejemplo 12:
Al salario de los trabajadores de una microempresa ya le calculamos su X = $476.000 y
necesitamos calcularle su V(X). Los datos originales son:

Tabla 20
Xi = salario
(miles de $)
X Xi − X (X i −X )
2
X i2

440. 476. -36 1296 193.600


440. 476. -36 1296 193.600
480. 476. 4 16 230.400
500. 476. 24 576 250.000
520. 476. 44 1936 270.400
φ 5120 1’138.000

5120
Tal que V ( X ) = = 1.024 pesos 2 . Recordemos que otra forma de hallar V(X) es
5
∑X i
2

−X =
2 1'138.000
− (476) 2 = 1024 pesos 2
n 5

Ejemplo 13:
Al salario de los trabajadores de una mediana empresa ya le calculamos su X = 463.33 y
necesitamos calcular su V(X).

Tabla 21
Xi = salario
(miles)
ni X Xi − X (X i )
2
− X ni X i2 ni

440. 50. 463,33 -23,33 27.222.14 9’680.0


450. 40. 463,33 -13,33 7.111.08 8’100.0
470. 30. 463,33 6,67 1.333.35 6’627.0
500. 20. 463,33 36,67 26.888.94 5’.000.0
540. 10. 463,33 76,67 58.777.83 2’196.0
121.333.34 32’323.0

V (X ) =
( )
2
Σ X i − X ni 123.333,34
= = 808,9 pesos 2
n 150

26
Estadística descriptiva

Otra forma de hallar V(X) es igual:


ΣX in ni
− (463.33) = 808,9 pesos 2
2 32'323.000
−X =
2

n 150

No debemos olvidar que en este caso X la calculamos como:


ΣX i ni
= 463,33 pesos
n

Los resultados de la V(X) en los dos ejemplos anteriores son difíciles de interpretar
porque las unidades están al cuadrado, en este caso pesos2.

b) Desviación estándar ( σ x )

La σ x es la 2 V ( X ) por lo que eliminamos el resultado final de las unidades al cuadrado


y su análisis es fácil.

En el ejemplo 12: V(X) = 1024 pesos2


σ x = 32,00 pesos
lo que significa que la desviación promedio con respecto a X = 476.0 es igual a $32.oo.
Es decir, que si X ± σ x ; entonces entre 476 – 32 = 444; y 476. + 32 = 508 vamos a
encontrar la mejor parte de los datos del ejemplo 12.

En el caso del ejemplo 13 (datos agrupados), encontramos


V(X) = 808.9 pesos2
σ x = 28,44 pesos
lo cual significa que la desviación promedio con respecto a X = 463.33 pesos es de
28,44 pesos. Si X ± σ x tenemos que entre:
463,33 – 28,44 = 434.89 y 463,33 + 28,44 = 491,77
se encuentran la mayor parte de os datos del ejemplo 13.

Propiedad de σ x

Si una variable Xi se comporta aproximadamente igual a una distribución normal,


entonces entre X ± 1,96σ x encontraríamos el 95% de las observaciones.

c) coeficiente de variación (Co)

27
Estadística descriptiva

Una medida de dispersión de la X en términos porcentuales es el Co que tiene en uso


adecuado cuando estamos comparando dos o más distribuciones.

Ejemplo 14:
Tenemos dos microempresas de 5 trabajadores cada una, con sus respectivos salarios y
queremos comparar su grado de dispersión en términos percentuales.

A: salarios (miles) = Xi : 440., 440., 480., 500., 520.


B: Salarios (miles) = Yi : 440.; 450.; 460.; 530.; 550.
X = 476.0 pesos
Y = 486,0 pesos
V ( X ) = 1024 .0 pesos2
σ x = 32.0 pesos
V (Y ) = 2024 pesos2
σ y = 45 pesos

El Cv = σ X
X

Empresa X σ Cv
A 476 32 6,7%
B 486 45 9,3%

De acuerdo a estos resultados la empresa B tiene un promedio de $486.000 superior al


promedio de A; sin embargo, hay mayor dispersión porque su σ y > σ x y su Cv de 9,3%
es mayor que el de empresa A lo que nos indica que % hay mayor dispersión salarial. En
conclusión:
Y > X ; Cv B > Cv A

d) Asimetría (As)

Recordemos que hay una distribución perfectamente simétrica que es la distribución


normal. La mayoría de las distribuciones tienen algún grado de asimetría (As) que nos
interesa investigar.

Si una distribución es totalmente simétrica su X y su Mo coinciden, si hay algún grado


de asimetría, que puede ser positiva o negativa, depende de cuál de los dos promedios
es mayor.

28
Estadística descriptiva

Ejemplo 15:
Tenemos una distribución que corresponde a los salarios 150 trabajados de una
mediana empresa (ejemplo 10) de la cual obtuvimos la siguiente información:

X = 463.3 y Mo = 440 ; σ x = 28,44

El coeficiente de asimetría es:

X − Mo 463,3 − 440.0
As = = = 0.819
σx 28,44

= 81,9% que nos indica asimetría positiva del 81,9% que es bastante alta; entre más
cerca se encuentre As de φ, es un indicativo de poca asimetría.

29
Estadística descriptiva

EVALUACIÓN

A – Taller de aplicación

PTO % PTO
País A País B
100-400 2’500 18 1’440
400-700 2’100 17 1’300
700-1000 1’800 16 1’280
1000-1300 1’400 15 1’200
1300-1600 1’100 14 1’120
1600-1900 700. 12 960
1900-2200* 400 8 640
Total 10’ 100 8’
* El último intervalo realmente significa >$1900.
PTO = población total ocupada

 Grafique para cada país su histograma.


 ¿Cuál es el ingreso per capita y la desviación estándar para cada país?
 Haga un análisis del posible grado de desarrollo de cada país. Tome como
referencia para cada país el 65% de la población de menores ingresos y el 35% de la
de mayores ingresos.

B – Cuestionario∗

1. ¿Cuáles son las ventajas y desventajas de cada promedio?


2. Si una distribución es aritmpetica a la derecha (o a la izquierda), ¿cuál es mejor
promedio: la media aritmética, la mediana o la media geométrica?
3. Evalúe la siguiente afirmación: ‘la moda es mejor promedio que la media
aritmética porque no es afectada por lo datos extremos’.
4. En una población con ingreso promedio de $500US y desviación estándar de
$200US, ¿es posible que 2/3 de su población tenga ingresos entre $300US y
700US?

BIBLIOGRAFÍA

BARBANCHO, Alfonso. Estadística elemental moderna. Ariel Ed.


NÚÑEZ DEL PRADO, Arturo. Estadística básica para planificación. Siglo XXI.
CHOU, Ya-LUN. Análisis estadístico. Interamericana.


Complemente sus respuestas investigando en Internet!

30
Estadística descriptiva

MERRILL, W. & FOX, K. Introducción a la estadística económica. Amorrortu.

GLOSARIO

Población: es un colectivo de personas o cosas aunque pueden ser también hechos,


áreas geográficas, galaxias o intangibles.
Muestra: cuando los elementos escogidos de la población no reúnen ciertas
características especiales que los distingan de los demás pero que representen la
población.
Media aritmética: es un promedio que se obtiene de dividir todas las observaciones en
el tamaño de la muestra
Mediana: teóricamente corresponde al valor central de un grupo de datos, para lo cual
hay que ordenarlas de menor a mayor.
Moda: es un promedio que corresponde al dato que más se repite.
Varianza: Es la principal medida de dispersión de un promedio. La varianza corresponde
al promedio de las desviaciones al cuadrado.
Desviación estándar: es la raíz cuadrada de la varianza.
Histograma: representación de los datos en un eje cartesiano.
Variable: es una magnitud que puede tomar diferentes valores.
Asimetría: es el sesgo de una distribución hacia cualquiera de sus lados.

31

También podría gustarte