Mon. Not. R. Astron. Soc. 000, 1–?? (2009) Printed 25 June 2009 (MN LATEX style file v2.
2)
Función Correlación
Andrea Corvillón
2009 June
ABSTRACT
Considerando distintas premisas se obtuvieron diferentes expresiones para la
función correlación, comenzando con un enfoque más matemático, al hacer la de-
ducción de la relación entre la función correlación y el espectro de potencia a partir
del análisis de Fourier del campo de densidades. Luego, pensando más especı́ficamente
en la función correlación de dos puntos, se obtuvo a partir de argumentos proba-
bilı́sticos una segunda expresión, la que la define como el exeso de probabilidad de
encontrar un vecino a una cierta distancia r. En seguida se pasó a considerar una
expresión que fuera más amigable al momento de tener que estimar la función cor-
relación de un conjunto de datos. Cerrando esta parte de definiciones se consideró una
ley de pontencia con la que también es representada la función correlación.
Luego se especificaron las caracterı́sticas principales que deberı́a tener un pro-
grama que estime la función correlación. Y teniendo en mente esto se presentó un
gráfico de función correlación vs distancia, el que fue realizado a partir de datos de la
simulación millenium. De este, finalmente, se llego a la conclusión de que la función
correlación aumenta junto con el clustering y también va aumentando para galaxias
que presentan una menor magnitud .
1 INTRODUCCIÓN 2 FUNCIÓN CORRELACIÓN
2.1 Análisis matemático
En las ultimas décadas han habido numerosos avances tec-
nológicos, lo que se a traducido en astronomı́a en un au- La gran mayoria de las estructuras del universo han sido
mento en la cantidad de datos observacionales y en un incre- formadas a partir de fluctuaciones de sobre densidad. Esta
mento de los lı́mites que las simulaciones numéricas pueden fluctuaciones o campos de densidad, usualmente se expresan
alcanzar. de la siguiente manera
Es por esto que fue necesario recurrir a diversas her- ρ(x) − hρi
ramientas para estudiar estos nuevos datos. Una de estas δ(x) = (1)
hρi
es la función correlación (ξ(r)), que es una herramienta es-
tadı́stica que ayuda a estudiar el clustering de galaxias (u donde ρ(x) es la densidad de masa.
objetos de la muestra); donde el clustering es la tendencia Pero, la expresión anterior puede ser reescrita con-
que tienen las galaxias a formar grupos. siderando que el campo de densidad δ(−
→x ) se puede expresar,
de forma más conveniente, como suma de modos. Para una
Veremos que esta herramienta tiene distintas formas de geometrı́a plana y comóvil la froma de lograr esto es por
ser representada, una de esta se relaciona con el espectro de medio del análisis de Fourier. El objetivo de este es rep-
potencia, otra con la probabilidad de encontrar un vecino resentar el campo de densidad (δ) por medio de una suma,
a una cierta distancia, una tercera relaciona la cantidad de que en este caso son los modos, compuesta de elementos más
pares de galaxias que están a una distancia r + dr con la simples de comprender. Luego, la expanción de Fourier del
cantidad de pares de galaxias que están a la misma distancia campo es
pero en una distribución random (función correlación de dos
puntos) y finalmente se puede representar como una ley de X
potencia. δ(x) = δk e−ikx (2)
k
Por otra parte, para utilizar la función correlación es con k que representa los modos, los que son dados por
necesario crear un programa que pueda calcular sus valores.
Una que estos han sido calculados para un conjunto de datos,
se realiza un gráfico de ξ(r) vs r o log ξ(r) vs log r, que 2πn
ki = (3)
finalmente es que el permitirá el estudio del clustering de la L
muestra. donde i indica la componente x, y o z; n puede tomar
c 2009 RAS
2 Andrea Corvillón
valores de 1 a infinito y finalmente L corresponden a las Si reescribimos la ecuación (10) tomando δ como una
dimensiones de la caja imaginaria en la que supuestamente suma, dada por la ecuación (2), se obtiene lo siguiente
esta contenido el universo que estamos pensando, este L nos
constrie a un volumen que exigimos que sea periódico, esto XX 0
último nos indica que las mediciones no son afectadas. Si ξ(r) = h δk δk∗0 ei(k−k )x −ikr
e i (11)
k k0
hacemos que L → ∞, se puede pasar la ecuación (2) a su
forma integral De esta doble sumatoria los únicos términos que sobre-
viven son los con k=k’. Luego, si volvemos a considerar que
L 3
Z L → ∞ podemos pasar lo anterior a una forma integral
δ(x) = ( ) ρk (k)e−ikx d3 k (4)
2π Z
V
Esta es la transformada de Fourier; la transformada in- ξ(r) = |δk |2 eikr d3 k (12)
(2π)3
versa es dada por
Z
V
P (k)eikr d3 k
Z
1 ξ(r) = (13)
δ(x) = ( )3 ρx (x)e ikx 3
d x (5) (2π)3
L
Como asumimos un universo isotrópico el espectro de
Por otra parte, si consideramos que estamos trabajando
potencia también lo será. Considerando esto, introduciendo
en un universo homogeneo e isotrópico, se esperarı́a que la
coordenadas esféricas y tomando solo la parte real de ξ(r)
fluctuaciones o campos de fluctuaciones sean homogeneos
podemos reescribir la ecuación anterior, la que se queda de
también; esto nos indica que la distribución de δ debe tener
la siguiente forma
un valor central distinto de cero. Ahora, considerando las
propiedades estadı́sticas de una distribución, podemos fi- Z
jarnos en los momentos de esta, los que seran, para una V sin kr
ξ(r) = P (k) 4πk2 dk (14)
distribución gaussiana, iguales a cero menos el de orden uno, (2π)3 kr
este es el que se conoce como espectro de potencia.
Con estas tres últimas ecuaciónes se ve claramente que
Algunos momentos se presentan a continuación
la función correlación ξ(r) es la transformada de Fourier del
Z espectro de potencia. Entonces una vez que tengamos ξ(r)
podremos obtener P(k) utilizando la transformada inversa.
M (0) = δ(k)d3 k = 0 (6)
Z 2.2 Función correlación de dos puntos
M (1) = δ(k)kd3 k = h|δk |2 i (7)
Existen definiciones alternativas para la función correlación,
estas son las funciones correlacón de n-puntos, de esta la que
Z nos interesa estudiar es la función correlación de dos puntos.
M (2) = δ(k)k2 d3 k = 0 (8) La función correlación mide el exceso de probabilidad
de encontrar una galaxia a una distancia r de otra galaxia
.. arbitratia en un elemento de volumen δV .
. Para entender esto pensemos en una distribución de
Luego el momento que nos interesa claramente es el de masa como una distribución de objetos puntuales; la prob-
orden 1 ya que indica la amplitud de la fluctuación para un abilidad de encontrar un objeto en un elemento de volumen
dado k; este momento se expresa usualmente de la siguiente infinitesimal δV es
manera
δP = nδV (15)
P (k) = h|δk |2 i (9) con n la densidad media de objetos, debido a que
Luego, como nuestra distribuón es gaussiana si conoce- suponemos isotropı́a, n es indepemdiemte de la posición.
mos P(k), para el universo estudiado, podemos tener toda Luego, la función correlación de dos puntos se define
la descripción estadı́stica de este, pero si tenemos muchas δ como la probabilidad conjunta de encontrar un objeto en
P(k) no nos proporcionará todos los valores que buscamos, los elementos de volumen δV1 y δV2 separados por r12 , esta
ya que la distibución gaussiana presentará una cola muy rpobabilidad es dada por
larga. Por esto es que se recurre a la función autocorrelación,
más conocida como función correlación, que para efectos δP = n2 δV1 δV2 [1 + ξ(r12 )] (16)
matemáticos es simplemente la tranformada de Fourier del
espectro de potencia. Si las posiciones del objeto están correlacionadas se
La función correlación se define, de primera forma, como tiene que ξ > 0, pero si estas no están anticorrelacionas
se tiene que −1 ≤ ξ < 0.
ξ(r) = hδ(x)δ(x + r)i (10)
Por otro lado, debemos considerar que para hacer un
donde el valor medio se calcula sobre todo el volúmen mejor uso de la función correlación es necesario introducir
para un valor fijo de la distancia entre los dos puntos. una segunda expreción que la defina (esta claramente nace
c 2009 RAS, MNRAS 000, 1–??
Función Correlación 3
a partir de las definiciones anteriores), la cual es más ami- manejo sea más eficiente. Luego, teniendo los valores de x, y
gable de usar en el momento en que se está trabajando con y z, la distancia se calcula por medio de la siguiente fórmula
datos experimentales o de alguna simulación. Esta consiste
en considera una caja de paredes periódicas en un espacio p
r= dx2 + dy 2 + dz 2 (20)
euclideano, luego con las galaxias que están dentro de esta
caja se crea la función correlación sacando la razón entre el donde dx, dy y dz son dados por la diferencia entre las
número de pares de galaxias que se encuentran a una distan- correspondientes coordenadas de las galaxias entre las que
cia r+dr en una muestra de galaxias (DD(r)) y el número de se está calculando la distancia; o sea
pares esperado en la ausencia de clustering (RR(r)), que se
encuentran a distancia r + dr, tomando en cuenta los lı́mites
de la muestra y considerando una distribución homogenea, dx = x1 − x2 , dy = y1 − y2 , dz = z1 − z2 , (21)
por lo general este último dato se obtiene a partir de un cat- Algo que hay que tener en mente es que al calcular las
logo random. Explicitamente la expreción tiene la siguiente distancias el programa puede calcular distancias que están
forma fuera de los rangos de la simulación o del espacio que estamos
considerando para nuestros datos, por esto es que hay que
DD(r) realizar una corrección a las ecuaciones anteriores. Lo que
1 + ξ(r) = (17)
RR(r) deberá hacer el programa cuando los valores de dx, dy y/o
dz estén fuera de la región considerada, es recalcularlos para
Para estimar DD(r) se deben calcular las distancias que que el valor quede dentro del rango querido. Calculada cada
hay entre las galaxias de la muestra, teniendo estos datos se distancia es conveniente, nuevamente, guardar estos datos
puede pasar a clasificar el número de galaxias que hay por en un arreglo.
rango de distancia, finalmente este número corresponderá al Ya teniendo todos las distancias calculadas y guardadas
valor de DD(r). Luego para estimar RR(r) consideraremos en este arreglo se pasa a crear un nuevo arreglo donde cada
una distribución de poisson para las galaxias en un volumen ”celda” corresponderá a un rango de distancia distinto. Con
definido, la expresión para esto es este arreglo creado se comienza a contar la cantidad de
pares que hay por cada rango de distancia (DD(r)), luego el
3
2π(rext − r3 )Ngal
2 número que esto arroje se guarda en la celda correspondi-
RR(r) = , (18) ente.
3V
Finalmente calculamos los RR(r) por medio de la
donde Ngal es el número de galaxias que hay en el
ecuación (18) para cada rango de distancia con el que defin-
volúmen, el cual dependerá de las dimensiones de la mues-
imos el arreglo anterior. Con estos valores se pasa a nor-
tra o de la simulación de la cual se sacaron los datos;
malizar las cantidades obtenidas para el DD(r) y este nuevo
rext = r + dr donde dr es el radio del casquete esférico dado
valor vuelve a ser guardado en el arreglo y en la celda cor-
por el radio interior r.
respondiente al rango de distancias.
El valor que obtenemos en esta parte final es el de la
Otra forma para representar la función correlación es función correlación correspondiente a cada rango de distan-
por medio de una ley de potencia, dada por cias con el que definimos el arreglo. Cabe destacar que es-
tos valores serán los utilizados para estudiar finalmente, por
r −γ medio de un gráfico, el clustering de la muestra.
ξ(r) = ( ) (19)
r0
Los parámetros de esta ley de potencia fueron calcula-
dos por Davis & Peebles (1982), los valores obtenidos fueron 4 RESULTADOS
γ = 1.77 r0 = 5.4 ± 0.3h−1 M pc (H0 = 100hKms−1 M pc−1 ).
Como dije en un comienzo, el fin de la función correlación
es estudiar el clustering de galaxias. Para esto es necesario
crear un gráfico que represente log ξ(r) vs log r. Un ejemplo
3 PROGRAMA de esto es el gráfico mostrado en la Figura (1). Este, grafica
datos obtenidos de la simulación millenium en distintos ran-
Para estimar la función correlación para un grupo de datos gos de magitud absoluta (llendo de menor a mayor de arriba
es conveniente utilizar, como ya dije en la parte anterior, hacia abajo).
la expresión dada por la ecuación (17). Esto indica que el Analizando el gráfico se observa que ξ(r) aumenta a
código necesario para calcularla deberá estimar la distancia medida que la distancia (r) entre los objetos disminuye.
entre los datos de la muestra, hacer un conteo de la cantidad También se ve que la cuva de la menor magnitud absoluta
de datos cuyas distancias estén dentro de un cierto rango de se desplaza hacia arriba, indicando con esto que la función
distancias, calcular el RR(r) para ese rango de distancias y correlación para este valor de magnitud es mayor que para
luego hacer la normalización correspondiente. los otros dos valores. De esto se deduce que el clustering es
superior en galaxias con menor magnitud.
Considerando lo anterio, en un comienzo el programa Lo que parece lógico, ya que galaxias de menor magni-
debe determinar las distancias entre los objetos de la mues- tud tienen mayor luminosidad y por lo tanto mayor masa. Y
tra. Para esto deberá extraer las columnas correspondientes galaxias de mayor masa se encuentran en su mayoria en la
a las coordenadas espaciales x, y y z de cada objetos. Es- zona central de los cúmulos de galaxias, zona que es densa,
tos datos deberian ser guardados en un arreglo para que su por lo que la probabilidad de encontrar un vecino en esta
c 2009 RAS, MNRAS 000, 1–??
4 Andrea Corvillón
Una vez hechas todas las tareas anteriores, se tendrán
los valores de la función correlación para cada intervalo de
distancias. Luego, con estos valores, se relaiza un gráfico de
log ξ(r) vs log r que ayudará a estudiar el clustering de los
datos.
Del gráfico presentado en este trabajo se puede apreciar
que la función correlación aumenta cuando la distancia entre
vecinos es menor, o sea, cuando el clustering es mayor y al
comparar distintas funciones correlación para distintos val-
ores de magnitud, se vio que esta aumentaba a medida que
la magnitud disminuye. Esto se entendió como que galaxias
con menor magnitud se encuetran en zonas más densas que
galaxias de mayor magnitud.
REFERENCES
Peacock, John A. Cosmological Physics. Cambridge Uni-
versity Press (1999).
Peebles, Phillip J. E. The large-scale structure of the uni-
verse .Princeton University Press (1980)
Davis M., Peebles P., 1982, ApJ, 267, 465D.
Davis M. et al, 1988, ApJ, 333L, 9D.
Bahcall N., et al, 1985, Apj, 270, 20B.
Figure 1. Este gráfico representa tres distintas funciones cor-
relación para datos obtenidos de la simulación millenium a z=0.
Gonzlez, J., 2008.
Cada una de las funciones correlación representadas correspon-
den a distintos rangos de magnitud absoluta en B, la de más
arriba corresponde a una magnitud absoluta media de MB =
−27.27, la del medio a MB = −17.99 y la de más abajo a
MB = −16.(Gonzlez, J., 2008.)
zona es mucho mayor que la probabilidad de encontrar un
vecino en los bordes del cúmulo donde se encontrarı́an las
galaxias de menor masa y por ende de mayor magnitud.
5 CONCLUSIONES
La función correlación es una herramineta estadśtica que nos
ayuda a estudiar el clustering de galaxias de una muetra, ya
sea obtenida de datos experimentales o de una simulación.
Vimos que esta puede ser entendida como
• La transformada de Fourier del espectro de potencia
(deducción hecha a partir del campo de fluctuación de den-
sidades).
• El exceso de probabilidad de encontrar un vecino a una
distancia r en un elemento de volumen δV .
• La razón entre la cantidad de pares de galaxias a dis-
tancia r + dr (DD(r)) y la cantidad de pares de galaxias a
la misma distancia en un distribución poissoniana RR(r).
• Ley de potencia.
En seguida consideramos las tareas que debiera realizar
el programa que calcula los valores de ξ(r), estas serı́an
• Determinar las distancias entre todos los objetos de la
muestra.
• Hacer un conteo de la cantidad de vecinos que están a
una distancia r + dr, esto corresponde al DD(r).
• Calular los valores de RR(r) para cada r + dr.
• Y finalmente hacer la razón entre los DD(r) y los RR(r)
correspondientes.
c 2009 RAS, MNRAS 000, 1–??