DISTRIBUCIONES
ESTADISTICAS
BIVARIADAS
INTRODUCCION
Hasta ahora nos hemos centrado en medidas de
tendencia central, variabilidad, asimetra y curtosis de
una nica variable.
No obstante, en la prctica es comn examinar dos o
ms variables conjuntamente (relacin entre inteligencia
y rendimiento, etc.)
En este tema nos centraremos en la relacin entre 2
variables (a partir de n observaciones apareadas) y
calcularemos (en particular) un ndice que nos dar el
grado de relacin/asociacin entre ambas variables: el
coeficiente de correlacin lineal (de Pearson)
rendimiento
rendimiento
rendimiento
Representacin grfica de una
relacin
inteligencia
inteligencia
Relacin lineal
positiva
Sin
relacin
inteligencia
Relacin lineal
negativa
rendimiento
rendimiento
Representacin grfica de una relacin
inteligencia
Relacin lineal
inteligencia
Relacin no lineal
Nota: El coeficiente de correlacin de Pearson mide relacin
LINEAL.
inteligencia
Relacin lineal
perfecta (casi
perfecta)
rendimiento
rendimiento
rendimiento
Representacin grfica de una relacin (3)
inteligencia
Relacin lineal
fuerte/moderad
a
inteligencia
Relacin lineal
dbil
Ahora necesitamos un ndice que nos informe tanto del grado en que
X e Y estn relacionadas, y si la relacin es positiva o negativa
rendimiento
Covarianza e ndice de correlacin de
Pearson
Caso 1
Observar que cuando la relacin lineal es
positiva, cuando las puntuaciones
diferenciales de X son positivas, las
puntuaciones diferenciales de Y suelen ser
positivas.
rendimiento
inteligencia
Caso 2
inteligencia
Observar que cuando la relacin lineal es
negativa, cuando las puntuaciones
diferenciales de X son positivas, las
puntuaciones diferenciales de Y suelen ser
negativas.
TIPOS DE GRAFICOS:
BIVARIADOS
-Dos variables cuantitativas: Grficos de
dispersin
- Dos variables cualitativa: Grficos de Barras
dobles
- Una variable cualitativa y otra cuantitativa:
a) Diagramas de Puntos.
b) Panel de histogramas.
c) Diagrama de cajas agrupadas.
Tabla de Correlacin o
Contingencia (atributos)
Distribuciones marginales
Tabla de Correlacin o Contingencia
Permite ayudarnos a determinar si existe relacin de interdependencia
entre 2 variables, es decir, si se influyen mutuamente.
donde nij es el nmero de
observaciones
que
presentan simultneamente
las caractersticas i, j de las
variables
A
y
B,
respectivamente.
As, una tabla de contingencia es una tabla de doble
entrada, donde en cada casilla figurar el nmero de casos
o individuos que poseen un nivel de una de las
caractersticas analizadas y otro nivel de la otra
caracterstica.
DISTRIBUCIONES
Al analizar una distribucin
bidimensional, uno puede centrar su
MARGINALES
estudio en el comportamiento de una de las variables, con
independencia de como se comporta la otra. Estaramos as en el
anlisis de una distribucin marginal.
Distribucin marginal de A
Distribucin marginal de B
Ai
ni.
Bj
n.j
A1
n1.
B1
n.1
A2
n2.
B2
n.2
An-1
nn-1.
Bm-1
n.m-1
An
nn.
Bm
n.m
Distribuciones marginales
k
ni ni1 ni 2 ni 3 ... nij ... nik nij
j 1
n j n1 j n2 j n3 j ... nij ... nhj nij
i 1
Definimos:
J
ni nij
j 1
n j nij
i 1
n
i 1
nij
fi
j 1 n
J
son las frecuencias absolutas marginales
de las variables A y B, respectivamente.
n j nij N
j 1
f j
i 1
nij
n
i 1 j 1
son las frecuencias relativas marginales
de las variables A y B, respectivamente.
En las tablas de contingencia:
a) Distribuciones marginales
b) Distribuciones de frecuencias relativas
c) Perfiles fila
Del total de
individuos con la
caracterstica A1
que porcentaje
comparte a su vez la
B1
d) Perfiles columna
Cmo es lgico, el
porcentaje de
individuos con A1
que, o bien
comparten B1 o B2 y
hasta Bj ser el
100% = 1
Distribuciones condicionadas
xi
Distribucin de una de las variables
siempre que la otra cumpla una
condicin especfica.
ni.
(Frecuencia cuando y=valor especfico)
x1
n1.
x2
n2.
xn-1
nn-1.
xn
nn.
X: Gasto en material escolar
Y: Nmero de hijos
Distrib. Condicionada: Por ejemplo, gasto en material escolar
cuando el nmero de hijos es <3. Tambin podra ser simplemente
cuando y=nmero, slo sera coger esa columna sin sumar nada.
50
100
150
200
Suma de frecuencias
cuando y=0, y=1, y= 2.
Que tienen un gasto de 50.
Independencia Estadstica
nij
N
Graves Y
Averias
Leves X
0
1
2
3
4
5
Marginal de Graves
0
0,2308
0,1692
0,0769
0,0923
0,0615
0,0308
1
0,0385
0,0615
0,0385
0,0615
0,0308
0,0077
2
0,0077
0,0231
0,0154
0,0077
0,0000
0,0000
3
Marginal de leves
0,0000
0,2769
0,0077
0,2615
0,0154
0,1462
0,0154
0,1769
0,0077
0,1000
0,0000
0,0385
0,6615
0,2385
0,0538
0,0462
ni.
N
n. j
N
Si
nij
ni . n. j
N N
N
ij Independencia
Varianzas - Covarianzas
Var ( X )
2
(
x
x
)
ni
i
i 1
Varianza de X
S X2
k
Varianza de Y
Cov( X , Y )
Var (Y )
( x x )( y
i 1 j 1
y )nij
S XY
2
(
y
y
)
n j
j
j 1
SY2
Covarianza entre X e Y
Mide si existe asociacin lineal
entre X e Y. Positiva o negativa
pero no la intensidad
Coeficiente de correlacin lineal
El valor de la covarianza depender de los valores de las
variables, por tanto de sus unidades. Para poder eliminar las
unidades y tener una medida adimensional utilizamos el
COEFICIENTE DE CORRELACIN LINEAL ( rxy )
rxy
S xy
SxS y
rxy
siendo invariante frente a transformaciones lineales (cambio de origen
y escala) de las variable.
Propiedades:
Es un coeficiente adimensional
-1 r 1
Si hay relacin lineal positiva r > 0 y prximo a 1
Si hay relacin lineal negativa r < 0 y prximo a -1
Si no hay relacin lineal r se aproxima a 0
Si X e Y son independientes Sxy = 0 y por tanto r = 0
Importante:
Si las dos variables son independientes, su covarianza vale cero. No podemos asegurar lo mismo en sentido contrario. Si
dos variables tienen covarianza cero, no significa que sean independientes. Linealmente NO tienen relacin. Pero pueden
pueden ser dependientes.
Coeficiente de correlacin (lineal) de Pearson
Interpretacin
rendimiento
Hemos de tener en cuenta qu es lo que estamos midiendo
para poder interpretar cun grande es la relacin entre las
variables bajo estudio. En muchos casos, depende del rea
bajo estudio.
inteligencia
En todo caso, es muy importante
efectuar el diagrama de dispersin.
Por ejemplo, en el caso de la
izquierda, es claro que no hay
relacin
entre
inteligencia
y
rendimiento.
Sin
embargo,
si
calculamos el ndice de correlacin
de Pearson nos dar un valor muy
elevado, causado por la puntuacin
atpica en la esquina superior
derecha.
VARIABLES CUALITATIVAS
1) Coeficiente de Asociacin Chi-Cuadrado (2):
i 1 j 1
Si
nij eij
eij
nij
eij
Frecuencia observada
ni n j
n
Frecuencia
esperada
2 0 no habr asociacin inexistencia de asociacin
Problema: no tiene lmite superior por lo que no permite
conocer el grado de asociacin.
2) Coeficiente C de contingencia de Karl Pearson:
1
lm ite _ m xim o 1
min(I , J )
Nunca superior a uno
Si C 0
Si C 1
inexistencia de asociacin
perfecta asociacin entre las variables
Coeficiente de Correlacin por Rangos de Spearman:
El Coeficiente de Correlacin por Rangos de Spearman permite determinar
la correlacin de datos de carcter ordinal midiendo la concordancia o
discordancia entre las clasificaciones.
Formulacin:
Si no hay empates
D: diferencia de valores para las
dos variables.
Interpretacin:
Si = 1: Correlacin por rangos perfecta y positiva. La concordancia entre los
rangos es perfecta
Si = -1: Correlacin por rangos perfecta y negativa. La concordancia entre los
rangos es perfecta
Si = 0: Correlacin por rangos nula. No hay concordancia entre los rangos
Si 0 < < 1: Correlacin por rangos positiva y si -1 < <0: Correlacin por
rangos negativa
ASOCIACIN ESTADSTICA
La idea de asociacin / relacin entre
variables se define por lo general en
oposicin al de independencia estadstica
y se evala examinando el sentido y la
fuerza de las regularidades empricas
Las variables X e Y (sexo y
condicin
de
actividad)
son
estadsticamente independientes si
el porcentaje de observaciones que
poseen el atributo Y1 (activo) es el
mismo entre X1 (hombres) que
22
entre X2 (mujeres).
MEDIDAS DE ASOCIACIN
Medida de
asociacin
Tabla
Escala de
Medida
Phi
2x2
Nominales
V de Cramer
fxc
Nominales
Lambda
fxc
Nominales
Gamma
fxc
Ordinales
Tau b / c de
Kendall
fxc
Ordinales
Observaciones
Medidas basadas en chi cuadrado.
Toman valores comprendidos entre 0 y 1.
Evala hiptesis lineales (diagonal principal).
Son tiles para estimar grados de asociacin
entre pares de variables, sobre un mismo
conjunto de individuos para n filas y columnas.
Toma valores entre 0 y 1.
Disponen versin asimtrica.
Es fcil de interpretar en trminos de la
proporcin que se reduce le error de
prediccin del valor de una variable a partir
de los valores de la otra (pero puede tomar
valores muy bajos en tablas con asociacin).
Toma valores entre -1 y 1, pasando por 0.
Gamma es ms fcil de interpretar. Asume
relaciones curvilineales.
Tau b slo alcanza valores extremos cuando
hay asociacin total y f y c son iguales.
Tau c tiende a subestimar la
23relacin.