0% encontró este documento útil (0 votos)
26 vistas22 páginas

3 Analisis Multivariable

El documento presenta un análisis multivariable centrado en la búsqueda de correlaciones, ofreciendo recomendaciones sobre cómo evaluar la significancia y la causalidad de las correlaciones entre variables. Se discuten métodos estadísticos como el coeficiente de Pearson, Spearman y Kendall, así como el análisis de componentes principales para manejar múltiples variables. Además, se abordan errores potenciales en los datos y la importancia de la visualización gráfica para evidenciar correlaciones.

Cargado por

diego.toro.geo
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PPT, PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
26 vistas22 páginas

3 Analisis Multivariable

El documento presenta un análisis multivariable centrado en la búsqueda de correlaciones, ofreciendo recomendaciones sobre cómo evaluar la significancia y la causalidad de las correlaciones entre variables. Se discuten métodos estadísticos como el coeficiente de Pearson, Spearman y Kendall, así como el análisis de componentes principales para manejar múltiples variables. Además, se abordan errores potenciales en los datos y la importancia de la visualización gráfica para evidenciar correlaciones.

Cargado por

diego.toro.geo
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PPT, PDF, TXT o lee en línea desde Scribd

Análisis multivariable

Tema 3

Itziar Aretxaga
Búsqueda de correlaciones: “La salida de pesca”
Recomendaciones (Wall, 1996, QJRaS, 37, 719):
1. ¿Se ve a ojo alguna correlación? Si no es así, el cálculo formal de un
coeficiente de correlación es, probablemente, una pérdida de tiempo.
2. ¿Qué puntos crean la correlación? Si con el dedo pulgar tapas el 10% de
los puntos y la correlación desaparece, ¡cuidado!

Errores en los
datos o efectos
de selección
Búsqueda de correlaciones: “La salida de pesca”
Recomendaciones (Wall, 1996, QJRaS, 37, 719):
3. ¿Puede estar causada por efectos de selección?

Límite de detección de la
densidad de flujo radio del
catálogo 3CR

4. Si 1. 2. 3. resultan negativos, calcúlese la significancia de la correlación


con alguno de los métodos que se detallan a continuación.
Búsqueda de correlaciones: “La salida de pesca”
Recomendaciones (Wall, 1996, QJRaS, 37, 719):
5. ¿Tiene la línea de regresión algún significado?
• ¿Tiene sentido ajustar por
mínimos cuadrados alguna
curva? (d)
• ¿Cuales son los errores en
los parámetros del ajuste? (c)
• ¿Por qué el ajuste tiene que
ser lineal? (b)
• Si no sabemos qué variable
actua como causa de la
correlación, ¿cuál de las dos
variables debemos utilizar
como independiente en el
ajuste? (a)

(véase lección sobre ajustes)


Búsqueda de correlaciones: “La salida de pesca”
Recomendaciones (Wall, 1996, QJRaS, 37, 719):
6. ¿Existe alguna relación causal? ¿Por qué? La relación puede
simplemente indicar la dependencia de las dos variable, de una tercera,
y eso crea una correlación espuria.
Ejemplo: diagramas L−L. Sin embargo, el Statistical Consulting Center for Astrophysics,
recomienda utilizarlos siempre que se utilice análisis de supervivencia .

7. Grafíquense las variables de forma que la correlación se vea de forma


evidente en el diagrama, si hace falta, recurriendo a encasillar las
variables y a realizar promedios.

Ejemplo: la mediana del índice de variabilidad (v) de


mediana QSOs ópticamente seleccionados para cada intervalo MB
muestra gráficamente la correlación medida por
métodos estadísticos. De otra forma, los puntos del
diagrama de dispersión muestran una correlación
cuanto menos cuestionable para el lector novel.

(Hook et al. 1994)


Correlaciones entre variables de tipo nominal
Definiciones:
• Variable nominal es aquella que conlleva información sobre un conjunto
de valores no ordenado.
Ejemplo: sistema de clasificación morfológica de galaxias (E, S0, Sa, Sb, ...).

• Tabla de contingencia, recoge las incidencias Nij entre dos variables


nominales xi, yj.

y1 y2 yj yN y x xi i 1,..., N x
x1 N11 N12  N1 j  N1 N y
y y j  j 1,..., N
x2 N 21 N 22  N 2 j  N 2 N y y

       N i.  N ij
xi N i1 Ni2  N ij  N iN y j
N . j  N ij
       i

xN x N Nx1 N Nx 2  N Nx j  N NxNy N  N i.  N . j
i j
Correlaciones entre variables de tipo nominal
Ejemplo: comparación de la
determinación del tipo espectral
de estrellas, por métodos
espectroscópicos y fotométricos
(Selman et al. 1999, A&A).
Correlaciones entre variables de tipo nominal:
test χ2
♦ Método: probar que es erronea la suposición que las variables no están
asociadas. Si es así, el número de incidencias esperado en el casillero
(i,j) será nij  N i. N . j / N .
( N ij  nij ) 2
Se define la función  
2

i, j nij

La significancia de que ambas distribuciones estén asociadas viene dada


por función de probabilidad χ2 con ν grados de libertad
1   t 1
Q(   )    N x N y  N x  N y 1
2
e t dt donde
( )  2

♦ Comparación de la intensidad de dos correlaciones:


● V de Cramer, tal que (no corr.) 0 ≤ V ≤ 1 (corr. perfecta)
2
V
N min( N x  1, N y  1)

● Coeficiente C, a utilizarse sólo cuando las tablas de contingencia . . . . .


tienen la misma dimensión, tal que 0 ≤ C ≤ 1. 2
C 2
 N
(Press et al., “Numerical Recipes”)
Correlaciones entre variables de tipo ordinal o
continuo: coeficiente de Pearson
♦ Definiciones: se denomina variable ordinal aquella cuyos valores
discretos se pueden ordenar, y variable continua, aquella cuyos valores
continuos se pueden ordenar.
Ejemplos: orden de las galaxias más luminosas en un cúmulo (1,2,3...), temperatura efectiva
de una nebulosa, ...

♦ Coeficiente de correlación lineal de Pearson ●


Suposición: las variables están distribuidas de forma gaussiana. Es un .
test paramétrico. ●
Método: mide la desviación de las variables respecto a una línea recta.
Dados los puntos {xi, yi }i=1,..,N se define el coeficiente de correlación

r
 ( x  x )( y  y )
i i i

 (x  x)  ( y 
i i
2
i i y)2
tal que −1 ≤ r ≤ 1,
donde ±1 indica correlación perfecta, y 0 indica no correlación.
La significancia de que no exista una correlación viene dada por
r N 2
la distribución t-Student con N−2 grados de libertad, donde t 
r está relacionado con la matriz de covariancia, que ofrece 1 r 2
también un test paramétrico si se utiliza para buscar correlaciones
Correlaciones entre variables de tipo ordinal o
continuo: coeficiente de rangos de Spearman
● Suposiciones: ninguna, es un test no-paramétrico, y por lo tanto, muy
utilizado en Astrofísica.
● Método: dados los puntos { xi, yi }i=1,..,N se definen las variables Ri , rango
cuando las xi están ordenadas ascendentemente, y Si , rango cuando las
yi están ordenadas ascendentemente.
 1  6
 i
( Ri
Si
 S i ) 2

no se producen repeticiones (ligas) en los N3  N


valores de xi, yi , se define el coeficiente de Spearman
Si se producen fk repeticiones entre las xi , y
6  1 1 
1  entre
gm repeticiones  
las
N3  N  i i
(
y Ri  S i ) 2

12 k
 ( f k
3
 f k )  
12 m
( g 3
m  g m ) 

 1/ 2 1/ 2
  k ( f k3  f k )    m ( g m3  g m ) 
1  3  1  3 
 N  N   N  N 

 N 2
t
1  2
que tiene la propiedad ρ 0 cuando no existe correlación.
(Press et al. , Numerical Recipes)
Correlaciones entre
variables de tipo
ordinal o continuo:
coeficiente de Spearman

Tablas de significancias
para N≤50

(Wall, 1996, QJRaS, 37, 719):


Correlaciones entre variables de tipo ordinal o
continuo: coeficiente de rangos de Kendall
● Suposiciones: ninguna, es un test no-paramétrico. De hecho, los
resultados de los tests de Spearman y Kendall están fuertemente
correlacionados.
● Método: se crean todas las combinaciones de puntos posibles
[(xi, yi), (xj, yj)] tal que i ≠ j y se definen c
= número de parejas concordantes (xi>xj y yi>yj) o (xi<xj y yi<yj) d =
número de parejas discordantes (xi>xj y yi<yj) o (xi<xj y yi>yj)
ey=número de ligas en y, con xi≠xj ex=número
de ligas en x, con yi≠yj c d

El coeficiente de Kendall se define c  d  ey c  d  ex tal
que −1 ≤ τ ≤ 1 donde ±1 indica
correlación perfecta, y 0 indica no correlación.
La significancia de no asociación viene dada por una distribución normal
 4 N  10
1 x  t2
P ( x) 1 
2 
 
e dt x 
4.24264 N ( N  1)

(Press et al. , Numerical Recipes)


Correlaciones entre variables
de tipo ordinal o continuo:
coeficiente de rangos de Kendall

Ejemplo: anticorrelación entre


variabilidad (σv) y luminosidad (MB)
en QSOs. Nótese que incluso para
valores pequeños del coeficiente de
rangos de Kendall, la significancia
de asociación es grande. Por
comparación, la variabilidad (σv) y
el redshift (z) no están
significativamente asociados.

(Hook et al. 1994, MNRAS, 268, 305)


Correlaciones entre variables de tipo ordinal o
continuo: coeficiente de rangos parciales
● Utilidad: comprobar si la correlación encontrada entre dos variables
x,y está generada por la asociación de ambas con una tercera variable
z.
● Método: se pueden utilizar tanto el coeficiente de rangos ρ de
Spearman como el τ de Kendall. Es un test no-paramétrico.
Se define el coeficiente de rangos parciales  xy   yz zx
 x y,z 
(1   yz ) (1   zx )
2 2

1/ 2

La significancia de que la correlación entre x,y se deba enteramente a


la correlación de ambas con z viene dada por
1 1   xy , z que se encuentra distribuida de forma normal,
Dx y , z  N  4 ln
2 1   xy , z en el caso de total dependencia (Macklin J.T.,
1982, MNRAS, 199, 1119).

Ejemplo: relación entre tamaño


angular (θ), índice espectral (α) y
redshift (z) de las fuentes del
catálogo 3CR
Análisis multivariable: componentes principales
● Utilidad: es muy potente para analizar las relaciones entre muchas
variables.
● Método: dadas p variables con n puntos cada una, se define el sistema
de componentes principales como aquel sistema de referencia de p ejes
ortogonales en el que se maximiza la variancia de los n puntos, de forma
decreciente del primero de los ejes, al último.
Sea y ( y1 , y2 ,..., y p )el vector de p coordenadas, Y’ la matriz de p×n
observaciones. La media de las observaciones se puede expresar como
1
.y  n Y I , donde I es el vector unitario de
Ejes propios de dimensión n, y la matriz de covariancia
la matriz de 1 , donde Y’ es
covariancia C  (Y  Y )(Y  Y )
unan .1 . matriz p×n
cuyas filas son todas iguales a y’ .
Se puede demostrar que
( y  y )C  1 ( y  y ) cte
define un sistema de elipsoides centrados
en el centro de gravedad de la nube de
puntos cuyos ejes trazan, de forma
descendiente, la máxima variancia.
Análisis multivariable: componentes principales
Puesto que por definición C es simétrica, se puede calcular la base
ortogonal que minimiza la variancia de la nube de puntos a través de sus
valores propios (i ) y vectores propios (ai) o eigenvalues y eigenvectors:
C ai = i ai , i=1, ..., p .
Estos valores se pueden obtener al resolver la ecuación característica
C  I= 0 ,
donde I, ahora, es la matriz unidad de orden igual al de la matriz C.
Llamamos A a la matriz generada por los vectores propios ai arreglados
como filas. Si transformamos el vector de variables y, obtenemos
z = A(yy)
las coordenadas sobre el sistema de ejes ortogonales definido por los
vectores propios de la matriz de covariancia. Se puede reconstruir y de z
invirtiendo la ecuación anterior
y = A’z + y
en virtud de que A es una matriz ortogonal, A1 = A.
Análisis multivariable: componentes principales
En el nuevo sistema de coordenadas, la nube de puntos de las
observaciones muestran una variancia decreciente si se ordenan los ejes
según el orden decreciente de sus valores propios. Así el eje definido por
a1, donde 1 es el valor propio más grande, es el eje principal sobre cuya
proyección los puntos tienen la mayor variancia. Para evaluar la
importancia de la proyección sobre el eje j se compara el valor de j
respecto de la suma de todos los valores propios. Si un valor propio añade
poco al valor total de la suma, la variancia sobre el eje correspondiente es
pequeña, y por lo tanto, ésta es una dimensión con muy poca información,
que se puede obviar.

Si denotamos como AK la matriz que contiene los primeros k vectores


propios, podemos comprimir los datos sin perder mucha información
mediante las transformaciones,

z = AK(yy) y = A’Kz + y

Por lo tanto PCA puede reducir la dimensionalidad del problema.


Análisis
multivariable:
componentes
a1 principales
BLR Ejemplo: PCA aplicado a la catalogación
de ~230 espectros de QSOs
pendiente, y líneas estrechas
(Francis et al. 1992, ApJ, 398, 476)

a2

a3

bosque de absorción
a4
Ejem: análisis multivariable de las propiedades de supernovas (Patat et al. 1994, AA,
282, 731).
Correlaciones entre:
• el decaimiento en banda B en los primeros 100 días, B100
• el decaimiento del color B-V en los primeros 100 días, B-V100
• la anchura de la línea H, vH
• el cociente entre las intensidades de la emisión y la absorción de H, e/a
• la magnitud absoluta en banda B en el máximo, MBmax
• el color B-V en el máximo de la curva de luz, (B-V)max

Proyecciones de las variables a analizar


sobre los ejes definidos por los dos
primeros autovectores de su matriz de
covariancia. Estas proyecciones
comprenden el 59% de la variancia de los
datos.
Análisis multivariable: redes neuronales
● Propiedades: es una técnica muy potente para analizar relaciones no
necesariamente lineales en problemas con un gran número de variables.
No se necesita formular un modelo, ya que la red aprende de ejemplos,
derivando las relaciones entre las variables de forma heurística a través
de un conjunto de datos de entrenamiento.

nodos de entrada nodos de salida

(Figura de StatSoft: www.statsoft.com/textbookstathome.html)

• Aplicaciones en Astrofísica: clasificación de objetos (Storrie-Lombardi et al.


1992, MNRAS, 259, 8), detección de señales débiles (Bacigaluppi et al. MNRAS 2000,
318, 769), determinación de períodos de variabilidad (Cornway 1998, NewAR, 42,
343, Tagliaferri et al. 1999, A&AS, 137, 391), determinación de corrimientos al rojo
(Firth et al, astro-ph/0203250), detección de frentes de onda en sistemas con
óptica adaptativa (Angel et al. 2000, Nat, 348,221; Sandler et al. 1991, Nat, 351, 300).
Análisis multivariable: redes neuronales
Ejemplo: clasificación de galaxias por una red neuronal con retropropagación (Storrie-Lombardi
et al. 1992, MNRAS, 259, 8P) .
La entrada a la capa s de la red es:
I sj i wijs xis  1
donde los w son pesos a ajustar; y la salida
es una señal
1
x sj  f ( z ) donde f ( z )  y z I sj
1  exp(  z )
que depende de forma no-lineal de las
entradas.
Los pesos se determinan por un método de
mínimos cuadrados para un conjunto de
datos de entrenamiento. Se define una
función de coste, con las diferencias
entre la salida (clasificación) deseada y
la obtenida:
E 1 / 2 k (ok  d k ) 2

y se ajustan los pesos hacia las capas de


atrás (retropropagación)
E
wij (t  1)     wij (t )
wij
donde el coeficiente de aprendizaje η y el momento α se prefijan para determinar la rapidez del
aprendizaje.
Análisis multivariable: redes neuronales
Ejemplo: clasificación de galaxias por una red neuronal con retropropagación (Storrie-Lombardi
et al. 1992, MNRAS, 259, 8P) .
Una vez se ha entrenada la red, se fijan los pesos, y se pasan como entradas de la red neuronal
el conjunto de datos problema. Los nodos de salida dan la probabilidad de que la clasificación
sea C dada el conjunto de datos x, es decir, el resultado es bayesiano.

También podría gustarte