0% encontró este documento útil (0 votos)
22 vistas6 páginas

Afc Numero 2

El documento analiza el Análisis de Coordenadas Principales (ACoP) y su relación con el Análisis de Componentes Principales (ACP), destacando cómo se pueden calcular las coordenadas principales a partir de una matriz de similitud. Se discuten complicaciones como la necesidad de que la matriz de similitud tenga sumas cero en filas y columnas, y la posibilidad de que algunos valores propios sean negativos. Se presenta un ejemplo de aplicación del ACoP en el análisis de especies de plantas en una reserva natural, mostrando resultados de valores propios y varianza.

Cargado por

JOSÉ EDUARDO
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
22 vistas6 páginas

Afc Numero 2

El documento analiza el Análisis de Coordenadas Principales (ACoP) y su relación con el Análisis de Componentes Principales (ACP), destacando cómo se pueden calcular las coordenadas principales a partir de una matriz de similitud. Se discuten complicaciones como la necesidad de que la matriz de similitud tenga sumas cero en filas y columnas, y la posibilidad de que algunos valores propios sean negativos. Se presenta un ejemplo de aplicación del ACoP en el análisis de especies de plantas en una reserva natural, mostrando resultados de valores propios y varianza.

Cargado por

JOSÉ EDUARDO
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

ANÁLISIS DE COORDENADAS PRINCIPALES

3. La matriz simétrica n x n

[3]

donde se puede pensar que las sumatorias para j de 1 a p contienen


medidas de las similitudes entre los n objetos considerados.
Esto no es evidente inmediatamente, pero se justifica al considerar
la distancia euclidiana al cuadrado del objeto i al objeto k, que es:

AMARN 2018 - IMFIA.FI.UDELAR -


Ing. Luis Silveira, Ph.D.

ANÁLISIS DE COORDENADAS PRINCIPALES

Desarrollando el lado derecho de esta ecuación se tiene que


[4]

donde sik es el elemento en la i-ésima fila y la k-ésima columna de


XX'. Se deduce que sik es una medida de la similitud entre los
objetos i y k puesto que aumentar sik significa que la distancia dik
entre los objetos disminuye. Además, se ve que sik toma el valor
máximo de (sii + skk)/2 cuando dik = 0, que ocurre cuando los
objetos i y k tienen valores idénticos para las variables X1 a Xp.
AMARN 2018 - IMFIA.FI.UDELAR -
Ing. Luis Silveira, Ph.D.
ANÁLISIS DE COORDENADAS PRINCIPALES

4. Si la matriz

contiene los valores de los p C.P. para los n objetos considerados,


luego puede reescribirse en términos de la matriz de datos X como
Z = X A’ [5]
donde la fila i de A es a’i, el i-ésimo vector propio de la matriz de
covarianza C de la muestra. Es una propiedad de A que A'A = I; es
decir, la transpuesta de A es la inversa de A. Por lo tanto,
posmultiplicando ambos lados de la ecuación precedente por A se
tiene X=ZA [6]
AMARN 2018 - IMFIA.FI.UDELAR -
Ing. Luis Silveira, Ph.D.

ANÁLISIS DE COORDENADAS PRINCIPALES

Esta enumeración de resultados ha sido larga, pero necesaria para


explicar el análisis de coordenadas principales (ACoP) en relación con
el análisis de componentes principales (ACP). Para identificar esta
relación, tengan en cuenta que a partir de las ecuaciones [1] y [2]

 X = 


Luego premultiplicando ambos términos de la ecuación por X y


utilizando la ecuación [3] se tiene
S(X ) = (  − 1  )
o S =  − 1  [7]

AMARN 2018 - IMFIA.FI.UDELAR -


Ing. Luis Silveira, Ph.D.
ANÁLISIS DE COORDENADAS PRINCIPALES

 =  es un vector de n elementos, que contiene los valores de Zi


para los n objetos considerados. Por lo tanto, el i-ésimo valor propio
de la matriz de similitud S = X'X es (n-1) , y el correspondiente
vector propio da los valores del el i-ésimo C.P. para los n objetos.
El análisis de coordenadas principales (ACoP) consiste en
aplicar la ecuación [7] a una matriz S (n x n) de similitudes entre n
objetos, que se calcula utilizando cualquiera de los índices de
similitud disponibles. De esta forma, es posible encontrar los C.P.
correspondientes a S sin necesariamente medir ninguna variable en
los objetos de interés. Los componentes tendrán las propiedades de
los C.P. y, en particular, no estarán correlacionados para n objetos.
AMARN 2018 - IMFIA.FI.UDELAR -
Ing. Luis Silveira, Ph.D.

ANÁLISIS DE COORDENADAS PRINCIPALES

Aplicando ACoP a la matriz XX’ se obtiene esencialmente la misma


ordenación que resulta de aplicar ACP a la matriz de datos X.

Diferencias en términos de escalado:

Método Escalado/Varianza
ACoP (n-1)
ACP

Esta diferencia es inmaterial porque son solo importantes los valores


relativos de los objetos en los ejes de ordenación.

AMARN 2018 - IMFIA.FI.UDELAR -


Ing. Luis Silveira, Ph.D.
ANÁLISIS DE COORDENADAS PRINCIPALES

Complicaciones:
1) La matriz de similitud no cumple todas las propiedades de una
matriz calculada a partir de los datos según S = XX '
De la ecuación [3], las sumas de las filas y columnas de XX‘ son
todas cero. Por ej., la suma de la primera fila es

donde las sumatorias son para j de 1 a p. Esto es cero porque es n


veces la media de Xj, y se supone que todas las variables X tienen
media cero. Por lo tanto, se requiere que la matriz de similitud S
tenga sumas cero para filas y columnas.
AMARN 2018 - IMFIA.FI.UDELAR -
Ing. Luis Silveira, Ph.D.

ANÁLISIS DE COORDENADAS PRINCIPALES

Complicaciones:
Si este no es el caso, entonces la matriz inicial puede ser doblemente
centrada reemplazando el elemento sik en la fila i y la columna k
por sik-si-sk + s, donde si es la media de la i-ésima fila de S, sk es la
media de la k-ésima columna de S, y s es la media de todos los
elementos en S. La matriz de similitud doble-centrada tendrá cero
media en filas y columnas y, por lo tanto, es más adecuada para el
análisis.

AMARN 2018 - IMFIA.FI.UDELAR -


Ing. Luis Silveira, Ph.D.
ANÁLISIS DE COORDENADAS PRINCIPALES

Complicaciones:
2) Algunos de los valores propios de la matriz de similitud pueden
ser negativos, con lo que los correspondientes C.P. parecen tener
varianzas negativas.
Sin embargo, la ordenación solo utiliza los componentes asociados
con los valores propios mayores, por lo que unos pocos valores
propios negativos pequeños carecen de importancia.
En caso que los valores propios mayores sean negativos, esto
sugiere que la matriz de similitud no es adecuada para la
ordenación.

AMARN 2018 - IMFIA.FI.UDELAR -


Ing. Luis Silveira, Ph.D.

ANÁLISIS DE COORDENADAS PRINCIPALES

Ej. de uso del ACoP - Especies de plantas en la Reserva


Natural Steneryd:
Los datos sobre abundancia de especies en parcelas se volvieron a
analizar usando distancias de Manhattan entre las parcelas. Esto
es, la distancia entre las parcelas i y k se midieron por

  = ∑   −  , donde la sumatoria aplica a j sobre las 25 especies y


xij representa la abundancia de las especies j en la parcela i. Las
similitudes se calcularon como   =− /2 y luego se centraron
doblemente antes de calcular los valores y vectores propios.

AMARN 2018 - IMFIA.FI.UDELAR -


Ing. Luis Silveira, Ph.D.
ANÁLISIS DE COORDENADAS PRINCIPALES

Ej. de uso del ACoP - Especies de plantas en la Reserva


Natural Steneryd:

AMARN 2018 - IMFIA.FI.UDELAR -


Ing. Luis Silveira, Ph.D.

ANÁLISIS DE COORDENADAS PRINCIPALES

Ej. de uso del ACoP - Especies de plantas en la Reserva


Natural Steneryd:
Análisis de Coordenadas Principales:

Se detectó al menos un valor propio negativo, pero no se aplicó ninguna corrección.

Valores propios:

F1 F2 F3 F4 F5 F6 F7 F8 F9 F10 F11 F12 F13 F14 F15 F16 F17


Valor propio 100080,656 55710,764 19899,949 11819,752 8702,828 7317,958 3580,102 2861,856 1735,927 840,389 376,853 88,774 0,000 -278,927 -1441,396 -1968,883 -2893,544
Variabilidad (%) 40,745 23,189 9,019 5,822 4,588 4,040 2,561 2,277 1,832 1,477 1,294 1,180 0,000 0,000 0,000 0,000 0,000
% acumulado 40,745 63,933 72,952 78,774 83,362 87,403 89,964 92,242 94,073 95,551 96,845 98,025 98,025 98,025 98,025 98,025 98,025

Procedimiento de Bryan Manly F1 F2


Valor propio 97.638,6 55.659,5
Varianza 47,3 27,0

Los dos primeros C.P. proporcionan una buena ordenación,


representando el 74,3% de la varianza.
AMARN 2018 - IMFIA.FI.UDELAR -
Ing. Luis Silveira, Ph.D.

También podría gustarte