1
ESTADlSTlCA DESCRlPTlVA
2
ESTADSTICA DESCRIPTIVA
http://mx.geocities.com/fracosta11/estadisticas/mvar.html
Estadstica es la ciencia que utilizando las matemticas y de modo particular el clculo
estudia las leyes de comportamiento de aquellos fenmenos que no estando sometidos a leyes
rgidas dependen del azar y basndose en ella, se predicen resultados.
La estadstica tiene dos grandes ramas: Descriptiva e lnferencial.
- Estadstica Descriptiva analiza las caractersticas de una poblacin o muestra
definindose unas propiedades acerca de su estructura y composicin.
- Estadstica lnferencial basndose en los resultados obtenidos de una muestra induce o
estima las leyes reales de comportamiento de la poblacin de la que proviene dicha
muestra.
- Poblacin son todos y cada uno de los elementos que se quieren analizar. Puede ser
finita o infinita( en realidad las poblaciones infinitas no existen, pero cuando se trata de
un nmero grande se trata como si lo fuera).
- Muestra es un subconjunto de la poblacin o parte de la poblacin que se observa.
- Caracterstica de una poblacin es la propiedad que se estudia.
- Variables es cualquier caracterstica cuantitativa ( tome valor numrico) de una
poblacin .
Ejemplo: Poblacin Estudiantes de Econmicas de Salamanca, Caracterstica Edad de ellos, la
caracterstica se designa con letras maysculas X, Y, Z,...., los valores de esas edades son
numricos entonces es una variable cuantitativa y los valores que toman se denotaran X={x1, x2,
x3,........xn }.
- Dominio de la variable son los valores que toma
3
- Recorrido de la variable es la diferencia entre el valor mayor y el menor de los que
toma la variable.
- Variable Discreta cuando toma un nmero finito de valores o bien cuando toma infinitos
y son numerables es decir entre dos no hay otro intermedio. Ejemplo: la edad, las
notas.
- Variable continua cuando entre dos valores cualesquiera siempre puede haber otro.
Ejemplo: Talla, peso,......
- Variable unidimensional Estudia solo una caracterstica de la poblacin. Ejemplo:
Estudiar el peso (X)
- Variable bidimensional Estudia dos caractersticas de una poblacin. Ejemplo
Estatura(X) y peso (Y)
- Variable infidimensional estudiara infinitas caractersticas
- Atributos son caractersticas de la poblacin no susceptibles de cuantificacin
numrica. Ejemplo.: Color del pelo, los atributos se designan con letras A, B, C, .......y
sus valores A={a1, a2, .............., an}.
En Economa son muchos ms importantes las variables (toman valor numrico)) que los
atributos.
ETAPAS DEL ANLlSlS ESTADlSTlCO
1) Recogida de Datos
2) Ordenacin de los mismos en tablas
3) Resumen de la informacin recogida a travs de las medidas(Descriptiva)
4) Analizar los datos provenientes de una muestra para sacar conclusiones sobre la poblacin de
la que proviene la muestra ( lnferencial).
4
ESCALAS DE MEDlDA
- Escala nominal la caracterstica estudiada se clasifica en una serie de caractersticas
no numricas y mutuamente excluyentes y no se puede establecer ningn orden entre
ellos.
- Escala ordinal el carcter medido no es numrico pero puede establecerse algn tipo
de orden. Ejemplo estudios de una persona.
- Escala de intervalos la caracterstica puede cuantificarse numricamente,
establecindose intervalos entre dos operaciones. Ejemplo: Renta mensual que
percibe una persona.
ANLlSlS ESTADlSTlCO DE DlSTRlBUClONES UNlDlMENSlONALES
- Distribucin unidimensional est formada por los valores que toma la variable que se
estudia acompaados de sus respectivas frecuencias.
- Frecuencia absoluta ( fi ) es el nmero de veces que se repite un determinado valor.
- Frecuencia relativa ( hi) es el cociente entre la frecuencia absoluta y el nmero total de
observaciones, por tanto la frecuencia relativa est siempre entre cero y uno.
- Frecuencia absoluta acumulada
=
i
j
j i
f F
01
es decir se suman las frecuencias
anteriores a un valor dado, por tanto la acumulada al final coincide con la poblacin N.
- Distribucin por datos no agrupados es cuando se especifican todos y cada uno de los
valores de la variable.
- Distribucin por datos agrupados los valores de la variable se miden en intervalos , la
amplitud del intervalo es la diferencia entre el extremo superior e inferior del intervalo y
la suma de las amplitudes de todos los intervalos es igual al recorrido ( diferencia entre
el valor mayor y el menor de la distribucin).
5
- Marca de clase de un intervalo es la semisuma de los extremos del intervalo y es el
valor que sustituye a todo el intervalo
2
1 l l
x
i i
i
+
=
siendo el intervalo [li-1 , li ].
Las representaciones grficas tienen que estar hechas para que el simple impacto
visual nos d informacin de la distribucin
En distribuciones cuantitativas si los datos no estn agrupados, se emplea el diagrama
de barras, si estn agrupados el histograma., si la distribucin es cualitativa se suele
emplear el diagrama de sectores.
Diagrama de barras Datos sin agrupar y las barras proporcionales a las frecuencias.
Diagrama de Barras
0
2
4
6
8
10
12
x1 x2 x3 x4 x5
Datos X
F
r
e
c
u
e
n
c
i
a
s
Diagrama rectngulos
0
2
4
6
8
10
x1 x2 x3 x4 x5
X
F
r
e
c
u
e
n
c
i
a
s
6
En datos agrupados el Histograma pone en el eje vertical las densidades de frecuencia de
cada intervalo de forma que el rea de cada rectngulo es la frecuencia absoluta del intervalo.
Densidad de frecuencia di = fi/ai
Diagrama en escalera para datos no agrupados se utiliza para las frecuencias acumuladas ,
son histogramas en los que en el eje vertical se acumulan las frecuencias absolutas, por eso se
llaman en escalera.
x1 x2 x3 xn
Datos
F
r
e
c
u
e
n
c
i
a
s
a
b
s
o
l
u
t
a
s
Diagrama de barras acumulado para datos agrupados
7
Intervalos clase
F
r
e
c
u
e
n
c
i
a
s
a
c
u
m
u
l
a
d
a
s
Histograma para datos agrupados en intervalos
El rea de cada rectngulo nos da la frecuencia del intervalo, por tanto la base es la
amplitud y la altura la densidad de frecuencia de dada uno di
8
f1
f2
f3
f4
f5
a1 a2 a3 a4 a5
Amplitudes
D
e
n
s
i
d
a
d
e
s
MEDlDAS DE POSlClN
Se trata de resumir la informacin en un nico nmero.
Las medidas de posicin pueden ser:
- De tendencia central o promedios
1. Media
2. Mediana
3. Moda
9
- De tendencia no central
1. Cuantiles.
Las medidas de posicin tienen que cumplir que intervengan todos los valores de la variable,
que se puedan calcular y que su valor sea nico para cada distribucin de frecuencias.
1.- MEDlA
La media puede ser :
- Aritmtica simple o ponderada
- Media Cuadrtica
- Media Geomtrica
- Media Armnica
Media aritmtica simple
Se suman de todos los valores de la variable ponderados por sus frecuencias absolutas y dividido
todo ello por el nmero total de observaciones
N
f x
n
i
i i
x
=
1
La media aritmtica es siempre el centro de gravedad de la distribucin y es siempre un
valor que entra dentro del campo de variacin de la variable.
Si los datos estn agrupados en intervalos se toma la marca de clase de cada intervalo para su
clculo.
Propiedades
1.- Cuando a los valores de la variable se les suma una constante, la nueva media es la
antigua ms la constante.
10
K x x K x x + = + =
Demostracin
K x
N
f
k
N
f x
N
f K x
N
f x
x
i i i i i i i
+ = + =
+
= =
) (
_
puesto que
la suma de las fi es N.
2.- Si a los valores de la variable se les multiplica por una constante, la nueva media es la
antigua multiplicada por la constante.
= = x K x K x x
i
,
Demostracin
= = = =
x k
N
f x
K
N
f Kx
N
f x
x
i i i i i i
3.- Como consecuencia de las dos anteriores si a los valores de una variable se les
multiplica por constante y se les suma un nmero, la media aritmtica queda multiplicada
por la constante y sumado el nmero.
Es decir si :
B X K Y entonces B KX Y + = + =
4.- La media aritmtica se puede hacer siempre con variables cuantitativas y es perfecta,
pero tiene un inconveniente que es que si los valores son muy extremos ( desviados del
resto), puede desvirtuarse la situacin y hacerla poco representativa, debido a este
problema, a veces se hace la media truncada que es quitar los extremos y hacer la media
de los que quedan.
Media Aritmtica ponderada
Es igual que la media aritmtica simple, pero se pondera cada valor de la variable por un
coeficiente distinto de la frecuencia absoluta.
11
Media cuadrtica
Es la media de los valores de la variable al cuadrado es decir :
N
f x
x
i i
2
2
12
Media Armnica
Es la media de los valores inversos de la variable, o la inversa de la media aritmtica
=
i
i
x
f
N
H
La media armnica se utiliza cuando la variable se encuentra medida en trminos relativos. Por
ejemplo la velocidad.
Media Geomtrica
Es la raz N-sima del producto de los valores de la variable elevado cada uno de ellos a su
frecuencia absoluta
N
f
n
f f
n
x x x G .......... .
2 1
2 1
=
Tiene el problema de que su clculo es muy complicado sobre todo si N es grande.
2.- MEDlANA
Es el valor de la variable que ocupa el lugar central de la distribucin, es decir el valor de la
variable que deja el 50% de observaciones hacia la izquierda y el 50% a la derecha.
Para poder hallar la mediana, lo primero que hay que hacer es ordenar los valores de la variable de
forma creciente, y escribir los valores de las frecuencias acumuladas Fi.
Distinguiremos dos casos, datos no agrupados y datos agrupados.
Para datos no agrupados
13
Se calcula primero el 50% de la poblacin N/2, se lleva ese valor a la columna de frecuencias
absolutas acumuladas.
- Si el valor no est en la columna de acumuladas, se toma como valor de la mediana el de
la variable correspondiente al siguiente.
- Si el valor si est en la columna de acumuladas, se toma como mediana la media
aritmtica del valor de la variable y el siguiente.
Para datos agrupados en intervalos
Se calcula como antes la mitad de la poblacin, y se lleva ese valor a la columna de frecuencias
absolutas acumuladas.
- Si el valor no est en la columna, se toma como intervalo al que pertenece la Mediana el
siguiente al valor de N/2, y despus de situarnos en el intervalo por la hiptesis de
uniformidad hacemos una proporcin entre la amplitud del intervalo, los elementos que
tiene y la amplitud que correspondera a la diferencia entre N/2 y la frecuencia acumulada
anterior valor que aadiramos al extremo inferior del intervalo.
- Si el valor s est en la columna de frecuencias acumuladas, se toma como Mediana el
extremo superior del intervalo correspondiente.
Tambin se puede hallar grficamente con el diagrama correspondiente a las frecuencias
absolutas acumuladas.
3.- MODA
Es el valor de la variable que ms veces se repite. En algunos casos existen varias modas, pero
normalmente es una, si son dos se llama bimodal.
Para datos no agrupados
La moda es el valor de la variable correspondiente a la mayor frecuencia absoluta.
14
Para datos agrupados en intervalos
Se halla la densidad de frecuencia de cada uno de los intervalos (di) y el de mayor densidad de
frecuencia se selecciona como intervalo modal, para determinar el valor de la Moda, se aplica la
siguiente frmula, basada en la proporcionalidad:
i
i i i i
i i
i
a
d d d d
d d
L Mo .
) ( ) (
1 1
1
+
+
+ =
Si los intervalos tienen todos la misma amplitud el intervalo modal es el de mayor frecuencia
absoluta.
CUANTlLES
Son medidas de posicin que no tiene porqu ser central. Hay varios tipos de cuantiles:
1.- Cuartiles Son valores de la variable que dividen a la distribucin en cuatro partes iguales, por lo
tanto los cuartiles son tres C1 que deja por detrs de l al 25% de la poblacin, C2 que divide a la
poblacin en dos partes iguales y C3 que deja dtrs de l al 75% de la poblacin.
2.- Deciles Son valores e la variable que dividen a la distribucin en diez partes iguales, por lo tanto
los deciles son nueve, D1 deja al 10% antes, D2 al 20% y as sucesivamente hasta D9 que deja al
90% antes y al 10% despus de l.
3.- Percentiles.- Son valores de la variable que dividen a la distribucin en cien partes iguales, por
lo tanto los percentiles son 99.
En realidad tanto cuartiles como deciles se calculan con el correspondiente percentil.
D1= P10 D9 = P90 C1 = P25 C2 = D5 = P50 = ME .
15
Para calcular cualquiera de ellos se utiliza por lo tanto el mismo procedimiento que el descrito en el
clculo de la Mediana.
MEDlDAS DE DlSPERSlN
Las medidas de dispersin nos indican el mayor o menor alejamiento de los valores de una
variable respecto a un promedio. Casi siempre acompaando a un promedio debe ir una medida
de dispersin que nos indica la mayor o menor representatividad del promedio.
Las medidas de dispersin absoluta ms utilizadas son:
- Recorrido
- Recorrido lntercuartlico
- Desviacin Media
- Varianza
- Desviacin Tpica
RECORRlDO
Es la diferencia entre el mayor y el menor valor de la variable
R = xn x1
RECORRlDO lNTERCUARTlLlCO
Es la diferencia entre el tercer cuartil y el primer cuartil
Rl = Q3 Q1
DESVlAClN MEDlA
Es la suma de los valores en valor absoluto de la diferencia entre cada valor de la variable y la
media aritmtica por su frecuencia y dividido por el nmero de datos.
16
N
f x x
D
n i
i
i i
x
=
=
|
.
|
\
|
=
1
VARlANZA
N
f x x
S
i i
X
=
2
2
) (
Siempre es positiva (por estar al cuadrado). Como la varianza es siempre positiva, a mayor
varianza mayor ser la dispersin.
Propiedades:
1.-La varianza siempre es mayor o igual que cero. Tan solo hay un caso en que es cero y es
cuando todos los valores de la variable son iguales.
2.- Si a los valores de la variable le sumo una constante, la varianza de la nueva variable es la
misma que la que tena antes.
Es decir si xi= xi+K entonces S2x= S2x
Demostracin:
17
2
2
2
)) ( ( ) (
x
i i i i
x
S
N
f k x k x
N
f x x
S =
+ +
=
=
3.- Si a los valores de la variable se les multiplica por una constante, la varianza de la nueva
variable es la que tena por el cuadrado de la constante.
Es decir si xi= k xi entonces S2x= k2 S2x
Demostracin
2 2
2
2
2 2
2
) ( ) ( ) (
x
i i i i i i
x
S k
N
f x x
k
N
f x k kx
N
f x x
S =
=
4.- Es consecuencia de las dos anteriores, la varianza de la variable Y=aX+b es la varianza de X
multiplicada por el cuadrado de a.
2 2 2
x y
S a S =
5.- Clculo abreviado de la varianza
2
2 2
= x x S
x
que es la frmula ms utilizada.
Demostracin
2
2 2
2
2 2
2
2
2 ) 2 (
= + =
+
=
|
.
|
\
|
=
x x
N
f x x
N
f x
N
f x
N
f x x x x
N
f x x
S
i i i i i i i i
i i
x
.
DESVlAClN TlPlCA (Sx)
Es la raz cuadrada positiva de la varianza y es la medida de dispersin ms utilizada.
18
Clases de medidas de dispersin relativas
Se caracterizan por ser adimensionales, las ms importante es el coeficiente de variacin
de Pearson, nos indica la mayor o menor homogeneidad de los datos respecto de la media y por lo
tanto nos da la representatividad de la media en la distribucin.
=
x
S
CV
x
x
Tipificacin de variables
Tipificar una variable es cambiarla por otra que tenga de media cero y desviacin tpica 1.
Se utiliza para comparar distribuciones .
Cada valor se tipifica restando la media y dividiendo por la desviacin tpica, la nueva
variable z, tiene de media cero y desviacin tpica 1.
x
S
x x
z
=
MEDlDAS DE FORMA
Hacen referencia a la forma de la distribucin, simtrica, asimetra a la derecha o a la
izquierda. En general la mejor manera de verlo es por la representacin grfica, pero si no la
tenemos existen coeficientes que nos indican la forma de la distribucin. Los ms utilizados son:
Coeficiente de asimetra de Pearson, slo se puede utilizar en distribuciones
campaniformes (forma de campana) y unimodales
19
x
o
p
S
M x
A
=
Este coeficiente puede ser:
0 entonces la media igual que la moda, distribucin simtrica
>0 entonces la media mayor que la moda, asimetra a la derecha positiva
<0 entonces la media menor que la moda asimetra a la izquierda negativa
Coeficiente de asimetra de Fisher, tiene la ventaja de que se puede hallar para todas las
distribuciones, aunque su clculo es complicado y laborioso.
3
3
1
.
) (
x
i i
S N
f x x
g
=
Este coeficiente puede ser:
0 entonces la distribucin es simtrica
>0 entonces asimetra a la derecha
<0 entonces asimetra a la izquierda.
Curtosis hace referencia al mayor o menor apuntamiento que tiene una distribucin de
frecuencias respecto a una distribucin Normal, por lo tanto slo se estudia en
distribuciones campaniformes , para compararlas con la campana de Gauss, su calculo
tambin es muy laborioso.
3
.
) (
4
4
2
x
i i
S N
f x x
g
Este coeficiente puede ser:
0 la curva es igual que la normal, se llama Mesocrtica
>0 la curva es ms puntiaguda que la normal se llama Leptocrtica
<0 la curva es ms aplastada quie la normal, se llama Platicrtica
20