ANÁLISIS DE COORDENADAS PRINCIPALES
3. La matriz simétrica n x n
[3]
donde se puede pensar que las sumatorias para j de 1 a p contienen
medidas de las similitudes entre los n objetos considerados.
Esto no es evidente inmediatamente, pero se justifica al considerar
la distancia euclidiana al cuadrado del objeto i al objeto k, que es:
AMARN 2018 - IMFIA.FI.UDELAR -
Ing. Luis Silveira, Ph.D.
ANÁLISIS DE COORDENADAS PRINCIPALES
Desarrollando el lado derecho de esta ecuación se tiene que
[4]
donde sik es el elemento en la i-ésima fila y la k-ésima columna de
XX'. Se deduce que sik es una medida de la similitud entre los
objetos i y k puesto que aumentar sik significa que la distancia dik
entre los objetos disminuye. Además, se ve que sik toma el valor
máximo de (sii + skk)/2 cuando dik = 0, que ocurre cuando los
objetos i y k tienen valores idénticos para las variables X1 a Xp.
AMARN 2018 - IMFIA.FI.UDELAR -
Ing. Luis Silveira, Ph.D.
ANÁLISIS DE COORDENADAS PRINCIPALES
4. Si la matriz
contiene los valores de los p C.P. para los n objetos considerados,
luego puede reescribirse en términos de la matriz de datos X como
Z = X A’ [5]
donde la fila i de A es a’i, el i-ésimo vector propio de la matriz de
covarianza C de la muestra. Es una propiedad de A que A'A = I; es
decir, la transpuesta de A es la inversa de A. Por lo tanto,
posmultiplicando ambos lados de la ecuación precedente por A se
tiene X=ZA [6]
AMARN 2018 - IMFIA.FI.UDELAR -
Ing. Luis Silveira, Ph.D.
ANÁLISIS DE COORDENADAS PRINCIPALES
Esta enumeración de resultados ha sido larga, pero necesaria para
explicar el análisis de coordenadas principales (ACoP) en relación con
el análisis de componentes principales (ACP). Para identificar esta
relación, tengan en cuenta que a partir de las ecuaciones [1] y [2]
X =
Luego premultiplicando ambos términos de la ecuación por X y
utilizando la ecuación [3] se tiene
S(X ) = ( − 1 )
o S = − 1 [7]
AMARN 2018 - IMFIA.FI.UDELAR -
Ing. Luis Silveira, Ph.D.
ANÁLISIS DE COORDENADAS PRINCIPALES
= es un vector de n elementos, que contiene los valores de Zi
para los n objetos considerados. Por lo tanto, el i-ésimo valor propio
de la matriz de similitud S = X'X es (n-1) , y el correspondiente
vector propio da los valores del el i-ésimo C.P. para los n objetos.
El análisis de coordenadas principales (ACoP) consiste en
aplicar la ecuación [7] a una matriz S (n x n) de similitudes entre n
objetos, que se calcula utilizando cualquiera de los índices de
similitud disponibles. De esta forma, es posible encontrar los C.P.
correspondientes a S sin necesariamente medir ninguna variable en
los objetos de interés. Los componentes tendrán las propiedades de
los C.P. y, en particular, no estarán correlacionados para n objetos.
AMARN 2018 - IMFIA.FI.UDELAR -
Ing. Luis Silveira, Ph.D.
ANÁLISIS DE COORDENADAS PRINCIPALES
Aplicando ACoP a la matriz XX’ se obtiene esencialmente la misma
ordenación que resulta de aplicar ACP a la matriz de datos X.
Diferencias en términos de escalado:
Método Escalado/Varianza
ACoP (n-1)
ACP
Esta diferencia es inmaterial porque son solo importantes los valores
relativos de los objetos en los ejes de ordenación.
AMARN 2018 - IMFIA.FI.UDELAR -
Ing. Luis Silveira, Ph.D.
ANÁLISIS DE COORDENADAS PRINCIPALES
Complicaciones:
1) La matriz de similitud no cumple todas las propiedades de una
matriz calculada a partir de los datos según S = XX '
De la ecuación [3], las sumas de las filas y columnas de XX‘ son
todas cero. Por ej., la suma de la primera fila es
donde las sumatorias son para j de 1 a p. Esto es cero porque es n
veces la media de Xj, y se supone que todas las variables X tienen
media cero. Por lo tanto, se requiere que la matriz de similitud S
tenga sumas cero para filas y columnas.
AMARN 2018 - IMFIA.FI.UDELAR -
Ing. Luis Silveira, Ph.D.
ANÁLISIS DE COORDENADAS PRINCIPALES
Complicaciones:
Si este no es el caso, entonces la matriz inicial puede ser doblemente
centrada reemplazando el elemento sik en la fila i y la columna k
por sik-si-sk + s, donde si es la media de la i-ésima fila de S, sk es la
media de la k-ésima columna de S, y s es la media de todos los
elementos en S. La matriz de similitud doble-centrada tendrá cero
media en filas y columnas y, por lo tanto, es más adecuada para el
análisis.
AMARN 2018 - IMFIA.FI.UDELAR -
Ing. Luis Silveira, Ph.D.
ANÁLISIS DE COORDENADAS PRINCIPALES
Complicaciones:
2) Algunos de los valores propios de la matriz de similitud pueden
ser negativos, con lo que los correspondientes C.P. parecen tener
varianzas negativas.
Sin embargo, la ordenación solo utiliza los componentes asociados
con los valores propios mayores, por lo que unos pocos valores
propios negativos pequeños carecen de importancia.
En caso que los valores propios mayores sean negativos, esto
sugiere que la matriz de similitud no es adecuada para la
ordenación.
AMARN 2018 - IMFIA.FI.UDELAR -
Ing. Luis Silveira, Ph.D.
ANÁLISIS DE COORDENADAS PRINCIPALES
Ej. de uso del ACoP - Especies de plantas en la Reserva
Natural Steneryd:
Los datos sobre abundancia de especies en parcelas se volvieron a
analizar usando distancias de Manhattan entre las parcelas. Esto
es, la distancia entre las parcelas i y k se midieron por
= ∑ − , donde la sumatoria aplica a j sobre las 25 especies y
xij representa la abundancia de las especies j en la parcela i. Las
similitudes se calcularon como =− /2 y luego se centraron
doblemente antes de calcular los valores y vectores propios.
AMARN 2018 - IMFIA.FI.UDELAR -
Ing. Luis Silveira, Ph.D.
ANÁLISIS DE COORDENADAS PRINCIPALES
Ej. de uso del ACoP - Especies de plantas en la Reserva
Natural Steneryd:
AMARN 2018 - IMFIA.FI.UDELAR -
Ing. Luis Silveira, Ph.D.
ANÁLISIS DE COORDENADAS PRINCIPALES
Ej. de uso del ACoP - Especies de plantas en la Reserva
Natural Steneryd:
Análisis de Coordenadas Principales:
Se detectó al menos un valor propio negativo, pero no se aplicó ninguna corrección.
Valores propios:
F1 F2 F3 F4 F5 F6 F7 F8 F9 F10 F11 F12 F13 F14 F15 F16 F17
Valor propio 100080,656 55710,764 19899,949 11819,752 8702,828 7317,958 3580,102 2861,856 1735,927 840,389 376,853 88,774 0,000 -278,927 -1441,396 -1968,883 -2893,544
Variabilidad (%) 40,745 23,189 9,019 5,822 4,588 4,040 2,561 2,277 1,832 1,477 1,294 1,180 0,000 0,000 0,000 0,000 0,000
% acumulado 40,745 63,933 72,952 78,774 83,362 87,403 89,964 92,242 94,073 95,551 96,845 98,025 98,025 98,025 98,025 98,025 98,025
Procedimiento de Bryan Manly F1 F2
Valor propio 97.638,6 55.659,5
Varianza 47,3 27,0
Los dos primeros C.P. proporcionan una buena ordenación,
representando el 74,3% de la varianza.
AMARN 2018 - IMFIA.FI.UDELAR -
Ing. Luis Silveira, Ph.D.