0% encontró este documento útil (0 votos)
71 vistas29 páginas

Análisis de Datos Composicionales: Técnicas y Aplicaciones

El documento discute diversas técnicas de análisis de datos composicionales, incluyendo distancias como Aitchison, Euclidiana, y métodos robustos para la detección de outliers. Se presentan enfoques como la transformación CLR, PCA, y el uso de balances para interpretar datos geológicos y geoquímicos. Además, se enfatiza la importancia de la ortonormalidad en el análisis y se comparan diferentes métodos de logratios para mejorar la interpretación de los datos.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
71 vistas29 páginas

Análisis de Datos Composicionales: Técnicas y Aplicaciones

El documento discute diversas técnicas de análisis de datos composicionales, incluyendo distancias como Aitchison, Euclidiana, y métodos robustos para la detección de outliers. Se presentan enfoques como la transformación CLR, PCA, y el uso de balances para interpretar datos geológicos y geoquímicos. Además, se enfatiza la importancia de la ortonormalidad en el análisis y se comparan diferentes métodos de logratios para mejorar la interpretación de los datos.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

Bucianti 2014 /buccianti 03

Se habla sobre distancia de aitchinson y distancia euclidiana es lo


mismo en CLR espacio

Alr : no es isométrico que implica que las distancias no son


equivalentes en ambos espacios

ILR : bases ortonormales basadas en SBP llamados balances

Filmozer y Hron 2007 .Deteccion de outliers de data composiconal


de manera robusta

Uso de distancia de mahalanobis usando ILR y luego aplicando DM


clásico y robusto

Por ALR ,CLR e ILR con estimador clásico dan el mismo resultado

ALR e ILR con estimador robusto MCD

Egozcue ,buccianti 2023 .Exploracion de data geoquímica usando


técnicas composiconales .Guia practica.

Importancia de remover outliers uso de MD robust

PCA de clr CoDa-PCA

Princiapl componentes son también coordenadas ortogonales (ojito)


pero con estructura diferente

Procedimiento para hacer CoDa-PCA

[Link]ón CLR  Centrado de CLR  cclr(x)

[Link] un SVD de cclr(x)

[Link] biplots

Obs. Aquí se recomienda eliminar outliers.

Se explica las direcciones como interpretación ,angulo de 90° ,180°


entre biplots.

Tabla de PCs

Uso de sbp para hallar ilr coordinates ,en orden a decrecer la varianza
Se puede hacer interpretación de ramas del dendrograma

Uso de balances para discriminar cuencas (en ese estudio)

Uso de balances para determinar una la variable de altura , no


obstante puede discriminar algunas .Uso de técnica Lasso

uso de kmeans en coordenadas ILR ,balances o CLR

Azevedo Luis :Flying in composutional morphospaces

Uso de distancia de aitchison intragrupos e intergrupos Uso de


gráficos ternarios

Uso de MANOVA y labda de Wilks

Uso de clr PCa y biplots

Uso de balances dendogramas

Campbell 2009 .Trabajó con Grunsky : análisis de data


composiconal para datos elementales en ciencia forense.

Uso de pairplor de CLR transformado (scatterplot de todos los


elementos contra todos

Otra vez CLR PCA Biplota de PC1 y PC2

Uso de LDA

Uso de test formales de validación .Uso de rock aus y Hotellings T2


(uso de permutaciones para remover el asunto de multivariabilidad.

Drouiche Abdelmalek : Groundwater quality assessment using


revised classical diagrams and compositional data analysis
(CoDa): Case study of Wadi Ranyah, Saudi Arabia

Uso de ilr y clr

Clr  PCA robusto : En R función clr y luego prcomp

Ilr para hallar la calidad de agua

Uso de kmeans en PC1 y PC2

Cluster análisis qmode y rmode

Behnam Sadeghi : How to choose a proper representation of


compositional data for mineral exploration?

Clr PCA

Ilr RPCA

Y son comparados con principal balances(PB)


Hay 3 formas de sacar los sbp el criterio es de uno

Luego de tener se hace una interpolación y luego uso de técnica


fractal C-A y N-S para btener anomalías

Emmanuel John M. Carranza : Analysis and mapping of


geochemical anomalies using logratio-transformed stream
sediment data with censored values

Uso de ln ,alr ,clr e ILR y luego fractal C-A para el estudio .Uso y
eliminacion de outliers .hace comparativa.

Thiombane:Exploratory analysis of multi-element geochemical


patterns in soil from the Sarno River Basin (Campania region,
southern Italy) through compositional data analysis (CODA)

Uso de HC ,clr-biplot y AF principa

Compositional data analysis of regional geochemical data in


the Lhasa area of Tibet, China

Aplica términos de data driven y data knowlge a los balances y los


compara con los PC debido a que se da a entender que los PCs a
pesar de que se le haga una rotación de varimax habrá partes de una
variable en otras PCs
Mark Engle : Linking compositional data analysis with
thermodynamic geochemical modeling: Oilfield brines from the
Permian Basin, USA

Empleo de amalgamación de HCO3 y CO3 y todo sigue normal .

Uso de diagrama de proporciones molares .Uso de bpc

Se hacen los scatterplot de esos balances Ca*SO4/H20 vsCa/SO4

Pedro Acosta-Góngora:Compositional balance analysis for Cu–


Zn(±Co) geochemical anomaly mapping in Trøndelag county,
Norway

Uso de coba .Uso de data driven y data knowledge balances

Uso de [Link] package de R

Se sacan balances de data driven y knowlege ,así como de los PCs de


modo que se hace un heatmap
Yue Liu : Compositional Balance Analysis: An Elegant Method
of Geochemical Pattern Recognition and Anomaly Mapping for
Mineral Exploration

Uso de FA y PCA ,indica uque no elimina correlaciones entre los


componentes y/o factoes y da paso a COBA .Indica y se comprubea
que el COBA es mas eficiente en interpretación de procesos
geoquímicos /geologicos.

Greenacre,grunsky :

A comparison of amalgamation and isometric logratios in


compositional data analysis

Se hace una comparativa de dos enfoques ,donde se busca que no se


use ILR sino simples pairwise logratios.

Explica que teóricamente el ILR es atractivo pero no tiene buena forma


de interpretrse .la fuente de su debilidad es el uso de la media
geométrica que es una medida promediadora contraria a la intuición
de combinación de partes .y se ve afectado por partes con valores
muy pequeños.

Se propone logratios de amalgamaciones mas intuitivo e interpretable


que ilr

Se habla de PLRs pivot log ratios

SLR es un logratio sin algún factor escalar

Enfoque es identificar la varianza explicada y no la varianza


contribuida por cada variable explicatoria .Ojito
Según deepseek depende

Si el objetivo es predecir la variable dependiente con la mayor


precisión posible (varianza explicada)

Si el ojetivo es entender el papel de cada variable en un contexto


multivariable

Para modelos de clustering (var contribuyente) ,LDA (var


contribuyente) ,y arboles de decisión (variable explicada)

La selección de logratios se basa en explicar la mayor varianza R2 en


cada paso

Tengo 20 variables .Se hace métodos para encontrar variables


explicatorias que expliquen bien la varianza total .

Un camino es encontrar los mejores pairwise

Otro enfoque es usando el dendograma donde podemos amalgamar


variables usando la variable explicatoria como media de distancia

Otra forma es ya amalgamando y luego hacer lo del pairwise.

Correlación de Procrustes :Tecnica multivariable

Uso de LRA(logratio análisis) : maximum amount of logratio variance


LRA es PCA de CLR, que difiere en que en el biplot muestra
interpretación

Por lo que también se puede decir que LRA es la PCA de la matriz de


pairwise logratios

Ojito en Procustres debe haber igual cantidad que total de datos.

En los biplots se usa “Se utiliza el escalado biplot de contribución.”

Ojo el biplot pca y steps tienen mucha relación y coherencia

Uso de ALRs para realizae distancia de mahalanobis ara detección de


outliers.

Michael Greenacre :Variable Selection in Compositional Data


Analysis Using Pairwise Logratios
Adelantandonos en el uso de coordinate tables ,aquí se usan tablas
composicionales .En el sentido que se usan balances tanto para las
filas ,como para las columnas .Es decir se usa BSP para ambos de
modo que una vez hecho los balances se hacen Z or que forma +/- de
row 1 col1 … de una matriz de si por ejemplo es 3X5 entonces los Zor
formados serian 2x4 …

Y se hace didáctico usando una tabla (por eso coordinate tables)

Ojito :muestra de 42 tablas composicionales 3×5

Vemos como al final existen 2x4 balances y con eso se hace PCA para
observar resultados. Ojito con los términos de odd ratios y balances , al
parecer odd ratios es cuando se combinan los balances de filas y
columnas

orthogonal pivot coordinates" y "odds ratios" están relacionados pero


no son lo mismo

Odd ratios mide la asociación entre variables categóricas ,cuantifica las


proporciones de diferentes componentes ,que permite evaluar si hay
dependencia o patron estructural entre filas y columnas.

Ortogonal pivot coordinates : Forma especifica de transformar los


datos

Odd ratios sobre probabilidades en el sentido de que puedes formular


preguntas y responder con si o no

Coordenadas ortogonales pivotales (uso de balances SBP normal no


bcp) según el texto . Uso de PCA .interes.

V. Nesrstova ´1, P. Jaˇ skov´ u a1, I. Pavl˚1 K. Hron1, J. Palarea-


Albaladejo2, A. Gaba ´ 3, J. Pelclova ´4 and K. Faˇcevicova´
5Simple enough, but not simpler: reconsidering additive
logratio coordinates in compositional análisis

Hace una recapitulación de los métodos para tratar data composional

Uso de ALR como interesante

CLR ,OLR (uso de bases ortonormales [interesante en teoría] (balances


y pivot tables]

Enfatiza a greenacre que menciona critica sobre los balances y que


ortonormalidad no es necesaria .Propone ALRs (no obstante no
preserva distancias y ángulos que causa problemas en PCA que es
efectivo en equivariantes ortogonales y análisis de regresion)

Hron cuyo objetivo es mantener ortonormalidad y uso de simples pares


de logratios propone backwards pivot coordinates (bpc) . Donde
demuestra que la ortonormalidad si importa cuando se aplican
métodos estadísticos populares como acp o análisis de regresión

Por ultimo se hace una extensión de este análisis de backwards pivot


a coordinate tables (Egozcue y Facevicova)

BPCs  Captura información en coordenadas ALR mientras cumple


ortogonalidad .
Por ejemplo, el primero seria

La ortonormalidad es importante en ACP porque aquí garantiza


que la varianza total explicada coincida en base a clr representation.
Esto garantiza que cada componente capture una parte única de la
variabilidad de los datos, sin superponerse con otros componentes.

Ojito : norma unitaria de 1 para decir que se tiene bases ortogonales.

Compositional tables :Se explica que es crucial la ortognalidad para su


descomposicon en independientes e interactivas artes y preservando
sus respectiva dimensionalidad .Compositional tables esta compuesto
por I filas y J columnas que envuelven 2 tipos de objetos elementales.

Uso de términos de row backwards pivot balances (rpbc)

Uso de términos de columns backwards pivot balances (cbpc)

Uso de términos para table backwards pivot coordinates (tbpc)

Estos 3 ecuaciones pueden ser también analizadas separadamente


cuando solo un especifico búsqueda de información es de interés.

Alr crea correlaciones artificiales

PCA loadings (coeficientes de combinaciones lineales de variables


originales)

Scores ( valores de componentes principales)


La ordinaria formulación de PCA y asociada a biplot esta basada en
coeficientes clr

Con respecto a los bpc ,combina las primeras coordenadas de cada


sistema pivote.

Ojito con el paquete robcompositions que abarca también PCA tanto


de bpc como de coordinate tables para realizar PCA y regresión lineal

Aplicaciones : 336 niños de 8-18 años que hacen en un día 24


horas ,en 4 variables ,uso de bpc y PCA y se compara con alr .Alr no
representa bien .Mejor es bpc que no exagera variabilidades.

Tenemos primero que entender tema de vectores para entender .

Imagina que tienes 2 variables x e y .y suman 100% entonces estas en


un espacio bidimensional cada flecha es una composición . la longitud
de cada flechita se llama magnitud (norma) y se mide usando las
variables sumatoria de variables al cuadrado. En pocas palabras
distancia de 0.0 a la coordenada

La distancia de aitchinson es lo de Pitágoras de distancia de un punto a


otro cuanto de distancia hay

Ahora el producto interno un vector se proyecta en otro ,aquí todos


estarán en coordenadas positivas así que siempre el resultado será
positivo para este valor y siempre habrá superposición.

Mide cuanto de un vector contribuye en la dirección de otro.

Imagina que tienes 2 vectores ,una fuerza empuja 10 N hacia el norte y


otra empuja 8 N en angulo de 60° ,el Producto interno dice cuanto de
vector de 8N contribuye a la misma dirección que la primera.

En si es la distancia que tiene un vector cuando se proyecta en otro.

El simplex depende de la dimensionalidad o variables


LIBRO DE DATA COMPOSITIONAL ANALISIS

ALR  Cumple con permutación y powering mas no con


distancia ,norma y producto interno de aitchison por lo que se dice que
no es isométrica

CLR  Cumple con todo lo de arriba pero se observa que tiene


dependencia de los otros componentes debido a que la suma (“ya
comprobada”) de estos coeficientes da 0 y por ende una matriz
singular que hace que no se pueda usar ni hacer un análisis univariado
.Por lo que no se recomienda uso de análisis uni,ni bivariado ya que al
tener una parte de este en otros coeficientes los hace dependientes y
por ende erroneo los análisis univ y biv. .

ILR -> cumple con todo lo de CLR y ademas rompe dependencia en el


sentido que el factor escala transforma en bases ortonormales.

Pivot coordinates :Al inicio no se usa SBP ,pero de manera grafica si se


puede usar

Imaginamos que tenemos 5 variables: X1X23X4X5

Un sistema de coordenadas puede ser RAIZ(D-1)/D X1/


X2X3X4X5 ,Segundo X2/X3X4X5 ,Tercero X3/X4X5 y el ultimo X4/X5
todos con un factor de escala donde se observa que el x1 solo aparece
en z1 ,el x2 solo en z1 y z2 …

Pivot coordinates isométricos : Se usa para correlación bivariada y


análisis de regresión

Balances : Correlación de mas de dos partes ,usa SBP (y el orden del


SBP ) tiene otros criterios como mejor varianza ,optima o W.
Para gráficos univariados de simples partes son graficados con
knowledge driven logratios,data driven log coordinates ,pairwise
logratios ,first pivot coordinates

Nuevos estadígrafos

Media aritmética NO : Imagina que tenemos x1 (1,9) x2 (5,3) ;la media


seria X(3,3)

Pero su proporcion es 1 ,asi que falla.

En vez se multiplican y se sale al final G: G1 ,G2,..GD ,que seria la


media de cada columna con la cantidad de filas.

ANALISIS UNIVARIDO

Prohibido CLRs

Buenas practicas :

Balances

Knowledge driven logratios (conocimiento de un experto)

Data driven (Uso de SBP )

Pairwise logratios

Uso de Histograma y qqplot en datos con % y puntuación z

Si tenemos solo una variable que seria por ejemplo cantidad de


personas que son doctores y cantidad que son mujeres .

Análisis Bivariado : Uso de ILR

Uso de pivot simetric coordinates.


Interesante poque se observa como en el primero no hay tendencia
mas si agrupaciones y en el simetric pivot si hay tendencia.

Análisis multivariado

Uso de diagrama ternario para 3 .

Se supone que debe hacerse un reclosure de 3 partes para observar el


comportamiento.

Estimacion de parámetros : Cuando los datos están en ILR se puede


aplicar los métodos de estimación de parámetros,prueba de hipostesis
,etc,

Hay invarianza bajo rotación de coordenadas : sto significa que el


resultado de la prueba no depende del sistema de coordenadas
orthonormales elegido, siempre que sea ortogonal.

Test de Hotelling : para probar si la media de una población


multivariada es igual a un valor hipotético, suponiendo normalidad.

Otros ejemplos son MANOVA ,cluster análisis ,discriminant


análisis ,donde la elección de coordenadas ortonormales usualmente
no importa.

Pero ojito con análisis de regresión que ya no es el caso.()

Estimadores clásicos vs robustos

Localización univariada : Media aritmética vs mediana

Escala univariada : Desviación estándar vs MAD y/o rango


intercuartílico

Localización multivariada y covarianza : Matriz de covarianza vs MCD


y/o OGK

En detección de outliers :

Uso de treshold (uso de desviación estándar)

Uso de MAD

Uso de rango intercuartílico grafico de tukey

Outilers multivariados

Uso de distancia de mahalanobis : método clásico matriz de


covarianza y media

Método robusto : Uso como parámetros de estimadores MCD

Uso de gráficos de mvoutlier del mismo paquete y su grafico ,uso de


outCoda de robcomposition .Es mas estético el primero

CLUSTER ANALISIS
La distancia mas popular para medir distancias de variables continuas
es la distancia [Link] hay otras como la distancia de
Manhattan

Para variables binarias y nominales tales como Jaccard distance

Una distancia generalizada que considera diferentes tipos de variables


es la Distancia GOWER

Pero OJITO : estamos en datos composicionales ,aquí se usa distancia


de AITCHISON

Alternativamente la data composicional se puede transformar en


coordenadas ortonormales y usar la medida estándar de Distancia
euclidiana.

Mientras mas pequeña las distancias de aitchison son de interés de


agrupamiento

Y con esto se comienza el primer método de clustering : Hierechical


clustering donde como que cada punto se “fusiona” y luego se mide
con otros ,así hasta juntas TODAS las observacioenes en un simple
gran cluster.

El procedimiento se llama “aglomerative” y el procedimiento en


reversa se llama “divisive”

También es optimo haciendo el Q-mode clustering pero se requiere


una medida de asociación entre las partes

HC (hierical clustering)

Ojito se usa ILR o pivot coordinates ,respecto a los métodos es


single ,complete,average,centroid,Ward.D) todos estos se usan con
respecto al R-mode.

x <- alcoholreg[, c("recorded", "unrecorded")]

res <-hclust(dist(pivotCoord(x)), method = "ward.D")

Estrategias de enlaces de clustering jerárquico :

Single Linkage

Dendograma no balanceado
Adecuado para detectar valores atípicos ,tiende a ser desequilibrado
en el sentido que los grandes clussteres se combinan
rá[Link] grupos pequeños y pocos grupos grandes.

Cada punto es un conglomerado ,se unen puntos que tienen distancias


mas cortas ,se agrupan y así para englobar a un gran cluster

Complete linkage : Similar pero identifica conglomerados que tiene la


distancia mas larga entre los puntos y hace ese algoritmo ,donde toma
el segundo mas largo y así

Dendograma balanceado

Average linkage. Calcula la distancia promedio entre todos los pares de


puntos en diferentes conglomerados e identifica el par con distancia
promedio mas corta

Centroide Linkage : Calcula el centroide o punto medio de cada


conglomerado ,,identifica el par de conglomerados con centroides mas
cercanos

Método Ward : Comienza con cada punto como su propio


conglomerado,calcula la varianza dentro de cada
conglomerado ,Identifica los dos conglomerados cuya fusión resulta en
el menor aumento en la varianza dentro del conglomerado

Tree cutting (tala de árbol) .Referido al dendograma

Hay un paquete llamado dynamicTreeCut ,pero varios autores y su


experiencia demuestran que esos métodos amenudo no dan buenos
resultados.

Métodos de partición:

Uso de Kmeans (variante del EM algoritmo) .Implementado en R

Algunas variantes de k-means donde el algoritmo de MacQueen es


utilizado,pero por defecto esta el Hartigan-wong

cl1 <- kmeans(Z, centers = 4, algorithm = "MacQueen") ,con el


[Link]= me da la iteración de agrupamiento ,debido a que si pongo 1
,2 3,4 y así veremos poco a poco como es el proceso.

Una limitación del Kmeans es que suele ser esféricamente simétrica.

CLUSTERING BASADO EN MODELOS

El modelo estándar es la distribución normal multivariada con media y


covarianza muestral de las n filas.
Se considera NECESARIO primero transformar coordenadas a ilr
(Pivote) coordinates ,antes de aplicar un modelo de base clustering
pueda ser aplicado.

Para simplificar el modelo y hacer la estimación más manejable, a


menudo se imponen restricciones en las matrices de covarianza.

Covarianza esférica igual para todos los conglomerados: todas las


matrices de covarianza son iguales y esféricas matriz identidad y σ² es
un parámetro de varianza común Σj = σ²I para j = 1, ..., nc ,una cov
constante

Covarianza esferica diferente para cada conglomerado :permitir que


cada conglomerado tenga su propia varianza, es decir, Σj = σ²j I para j
= 1 una cov variable que hace a que cada congl tenga su propio radio
pero sigue siendo esferico

Uso de paquete mclust packag Mclust() .Uso de BIC por defecto. El G :


es la cantidad de modelos mínimo a máximo

library("mclust")

res <- Mclust(Z, G = 3:9, verbose = FALSE) # 3 to 9 mixture


components

plot(res, what = "BIC")

plot(res, what = "classification")


OJITO : Que temenos que entender que kmeans y los modelos basados
en distribuciones son [Link] ejemplo el kmeans en si hay una
función donde uno ya establece la cantidad de clusters
kmeans() .Ahora el otro es Mclust()

el agrupamiento k-means asume que los conglomerados son esféricos


y de tamaño similar, lo que puede llevar a asignaciones incorrectas de
puntos cuando los conglomerados tienen formas irregulares o
alargadas

Por otro lado, el agrupamiento basado en modelos es más flexible y


puede adaptarse mejor a las formas reales de los conglomerados, lo
que resulta en asignaciones más precisas de los puntos de datos.

Fuzzy clustering

La básica diferencia con los métodos de partición es que una


observación no se asigna a un solo cluster ,sino que hay una
asignación proporcional a todos los clústeres :Es decir :es una técnica
de agrupamiento que permite a un punto de datos pertenecer a
múltiples conglomerados con diferentes grados de [Link]
agrupamiento difuso permite que un punto pertenezca a varios
conglomerados simultáneamente, con un grado de pertenencia que
indica la fuerza de la asociación.

En coordenadas ortonormales

Uso de función cmeans () de paquete e1071

Al igual que kmeans se tiende a formar conglomerados esféricos

Elección del # de conglomerados.

library("e1071") groups <- 4 res <- cmeans(Z, groups) for(i in


seq_along(1:groups)){ plot(Z, col = gray(1- res$membership[, i])) #
produces Fig. 6.7 }
CLUSTERING PARTS :USO DE Q MODE CLUSTERING

Lo anterior ,todo fue uso de R mode clustering ,es decir usando cada
muestra .

Ahora el objetivo es agrupar las variables o partes


[Link] el ingrediente clave son las distancias o
disimilitudes.

Una opción para observar la relación entre partes es variation matrix

Cuanto menor sea el valor de tjk mas constante será la relación


logarí[Link] este caso las partes correspondientes pueden
considerarse proporcionales.

Los elementos de la matriz pueden ser directamente usados como


medida de disimilitud para clustering sin embargo que la matriz de
variación NO POSEE las propiedades de una matriz de distancias.

La elección estándar podría ser la varianza muestral ,pero también


mas robusto podría cosiderarse MCD que esta por defecto en la
función variation de robcompositions .

Aquí se puede usar esto como medida para clustering y usar también
el hclust

data("expendituresEU") [Link] <- [Link](variation(expendituresEU,


robust = FALSE)) [Link] <- [Link](variation(expendituresEU))

plot(hclust([Link], method = "ward.D")) # produces Fig. 6.8 left


plot(hclust([Link], method = "ward.D"))

Se compara ambos medidas y vemos como son diferentes los


resultados.

Y se ve que con el método clásico una variable esta como “outiler”


pero con respecto al método robusto no se debe sacar conclusiones
precipitadas.
UNA VEZ que ya tenemos hecho los clusters se deben VALIDAR ,que
consiste que halla logrado alta homogeneidad de clusters.,asimismo
diferentes clusters deben ser disimilares. Es decir heterogeneidad
entre clusters debe ser lograda.

Heterogeneidad entre grupos :Esto se mide between cluster sum of


squares Bnc

Homogeneidad dentro de cada cluster  within cluster sum of squares


Wnc

Mientras que Bnc debería ser grande, Wnc debería ser pequeño.

Validacion usando Calinski-Harabasz index

Y Hartigan index

Otra forma de validación es usando average silhouette width

En el ejemplo

Uso de clustCoDa_qmode de robcompositions ,simplemente se pone la


data.

Para rmode clustering hierechical se usa hclust y coordenada pivote y


dist() Luego de tener el grafico de dendograma uso de cutree() al
objeto con el numero deseado de clústeres.

moss$hclust <-cutree([Link], 7)

Una vez que observas que tienes 7 clusteres según el R mode y haces
un cuttree .Puedes hacer e implementar los clustering como
kmeans ,Mclust , y cmeans para ver que tan buenos son con la
cantidad de clústeres que según tu viendo el HC observas.

Otro grafico de interpretación es la dominancia de cada elemento en la


composición de cada cluster. ,los colores indican cluster diferentes

No esta hecho con


clustCoda sino con Mclust

Si te das cuenta en el cluster de verde ,los mas resaltantes son Cu,Ni y


Co ,donde se observa como difieren de los otros clusters ,en cluster
azul es el Al,Fe y V como dominantes….

Uso de clustCoda() permite llamar varios métodos de clustering y


diferentes algoritmos y unificar la salida .
[Link] <- clustCoDa(X, k = 7, method = "complete", scale =
"none", verbose = FALSE) table(cutree([Link], 7),
[Link]$cluster)

Ojo con el tema de scaling ,En mayoría de algoritmos de clústeres es


crucial que se escale primero las variables para que media sea 0 y
varianza 1.

En data composicional es necesario? No debido a que la suma es


constante

Ahora es necesario en coordenadas ortnormales? Tampoco

El escalado en datos composicionales debería ser ESTRICTAMENTE


EVITADO.

Validacion usando silhoutee value : Gráficos de silhoutee values son


implementados en paquete cluster usando el algoritmo pam()

library("cluster")

[Link] <- pam([Link], 9)

plot([Link], [Link] = 2)

abline(h = which(abs(diff(grp)) > 0), col = "blue", lty = 2)

ANALISIS DE COMPONENTES PRINCIPALES


La data se transforma a coordenadas ortogonales (pivot ) y luego se
hace centrado de la media Z=Xilr−medias.

Se usa el enfoque de decomposicion de valores singulares donde la


matriz nxD matriz X pasa a ser la matriz nx(D-1) Z .Donde Z se
compone de 3 partes

Z=UDWT
U : Coordenadas de las muestras en el espacio de componentes
principales

Ejemplo: La primera columna de U contiene las proyecciones de todas


las muestras en el primer componente principal (PC1).

Matriz D : d1,d2,...,dpd1,d2,...,dp indican la "importancia" de cada


componente principal

W :Direcciones de los componentes principales en el espacio original


(loading matrix). Los loadings pueden ser visto como los pesos de
variables para determinar los componentes principales

La primera columna de W indica cómo contribuye cada coordenada ilr


al PC1.

Scores (los puntitos en el biplot) loadings las direcciones de las


variables

Se usan dos enfoques para hacer un análisis de PCA

Enfoque en termino de grupo de partes (balances) o en partes


individuales

(balances)

Ejemplo: Comparar minerales duros vs. minerales blandos.

Si prefieres interpretar los resultados en términos de parte


individuales (ej: Cuarzo, Feldespato), este enfoque no es ideal

Usar D Sistemas de Coordenadas Pivot (Pivot Coordinates)

 Son un tipo de coordenadas log-ratio donde cada parte se


compara con el resto de las partes, una a la vez.

 Para DD partes, necesitas DD sistemas de coordenadas pivot.

ALTERNATIVA QUE PUEDE HACERSE PARA ANALIZAR TANTO BALANCES


COMO INDIVIDUALES (PIVOT) : USO DE CLR coeficientes.

Un solo sistema de coordenadas: No necesitas múltiples sistemas


como en las coordenadas pivot

Relación con balances: Los coeficientes CLR están relacionados con


los balances

Problemas : Singularidad e interpretabilidad

Ejemplo
Tengo 10 partes y 4 partes conforman por ejemplo min duros y 3
felsicos ,se usan esos dos balances y PCA

EJEMPLOS :

Prcomp () basado en SVD

Princomp () eigen-decompositionof the covari ance matrix

pcaCoDa() usa internamente Princomp() con biplot como resultante de


proyecciones clr

mult_comp= cuantos conjuntos de datos existen (si quieres hacer a


mas de un dataset)

Representación de componentes principales en diagrama ternario

Un componente principal en diagrama ternario usando ternarydiag()


usando line=”pca” de robcompositions observa el PCA de por ejemplo
100 muestras de 3 partes el 1er Componente

Se compara el enfoque robusto y no robusto de PCA usando


pcaCoDa ,method=”classical” or “robust”

Xlabs elige que poner en puntos ,ósea valor numérico? ,cluster ¿?

res<-pcaCoDa(Beer, method = "classical")

biplot(res, xlabs =[Link], xlim = c(-0.3,0.2))

biplot(res, xlabs =[Link], xlim= c(-0.3,0.2)

ANALISIS DE CORRELACION

El objetivo es cuantificar la fuerza de relación entre los pares de


variables o entre grupos de variables

Datos transformados en coordenadas ortonormales como


balances .Uso de coeficiente de correlación de Pearson [-1,1]
(RELACION LINEAL ENTRE 2 VARIABLES .Sensible a outliers.

aquí se refiere a un teórico cov y a un teórico var

Cuando se dispone de una muestra de n coordenadas balance, la


covarianza y las varianzas se sustituyen por sus homólogas de
muestra.
Se puede usar MCD en vez del clásico covarianza

La interpretación podría ser complicada si no se tiene en cuenta el SBP


con un conocimiento agregado por [Link] ende se usa Pivot
simetric coordinates como [Link] debe tener en cuenta que clr
no se recomienda para correlación debido al sesgo negativo de
estructura de covarianza.

Existen 2 opciones mas como medidas : Por ejemplo para correlaciones


de rangos (posiciones relativas) que tiene como objetivo estudiar
asociaciones entre los rangos de diferentes variables o de diferentes
rangos de una variable

Spearman: Mide la fuerza y dirección de una relación monótona (no


lineal) .

Medida de que tan bien se puede describir la relación entre dos


variables mediante función monótona

Kendall : Para conjunto de datos pequeños .Porcion de rangos que


coinciden entre 2 variables

Gamma de Goodman y Kruskal, una medida de la fuerza de asociación


de los datos tabulados cruzados cuando ambas variables se miden a
nivel ordinal

Correlación de rangos es particularmente recomendable cuando hay


desviación de normalidad.

Ojito con Correlación de Pearson clásico y robusto.

Tanto como los datos composicionales como clr tienen var negativo y
por ende corrrelacion pierde su valor predictivo

Por ende un tipo de coordenadas se debe buscar

Y esta es pivot simetric coordinates .Pero , también aquí hay que tener
cuidado con la interpretación del coeficiente de correlación resultante.

Por lo tanto, las partes restantes también pueden influir en el valor del
coeficiente de correlación, que corresponde plenamente a la
naturaleza relativa de los datos de composición.

Como consecuencia, un coeficiente de correlación positivo significaría


que las dominancias de las dos cantidades sobre los respectivos
"representantes promedio" de las otras partes aumentan
simultáneamente y viceversa para la correlación [Link]
cero podría significar que la dominancia de esas dos cantidades son
controlados por procesos no correlacionados.
Uso de matriz de correlación pivote de orden D

Correlación multiple

Squared correlation coefficient abre la posibilidad de considerar una


medida de correlación mas general. Apropiado en datos
composicionales

Una medida de correlación lineal entre un balance y un grupo de


balances es el coeficiente de correlación multiple [0,1] donde 0 indica
no relación y 1 bastante relación .Al igual que Pearson hay método
clásico usando matriz de covarianza o robusto usando MCD

El coeficiente de correlación múltiple mide la fuerza de la relación


lineal entre:

 La información relativa de una parte específica (xl) de la


composición.

 Las demás partes de la composición.

 Valores pequeños (ρ2≈0): Indican que la parte xl tiene un


comportamiento excepcional o dominante con respecto al resto
de las partes. Esto sugiere que xl no sigue las mismas
tendencias que las otras partes.

 Valores grandes (ρ2≈1): Indican que la parte xl está


fuertemente relacionada con el resto de la composición

Tipicamente se usa pivot coordinates en vez de balances debido a que


como se menciona se esta comparando un elemento con todos ,no
entre partes.

Correlation Between Groups of Compositional Parts

Aqui si se usan balances

Donde [0,1] es lo mismo que en arriba

Uso de canonical variables y correlación CANONICA mide la relación


lineal entre dos conjuntos de variables multivariadas

Las variables canónicas no necesariamente representan la mayor


cantidad de varianza dentro de cada grupo de datos (como lo hacen
los componentes principales en el análisis de componentes
principales).El análisis canónico busca encontrar combinaciones
lineales dentro de cada conjunto de variables que maximicen la
correlación entre esos dos conjuntos

Variables latentes (canónicas) :

 Se crean combinaciones lineales de las variables en X y Y


llamadas variables canónicas (U y V).

 Estas combinaciones se calculan para maximizar la


correlación entre U y V.

 Correlación máxima : La correlación entre las variables


canónicas U y V es lo que se llama correlación canónica .

Se tienen 2 datasets multivariados .X con X1,X2,X3.. XD & Y con


Y1,Y2,Y3... XP

Se crean 2 variables canonicas es decir de la combinacion de todas las


variables de X en una variable canonica y de todas las Y en otra y se
hace lo mismo coeficiente de correlacion .

Una correlación canónica alta (por ejemplo, 0.85) indica una fuerte
relación entre los hábitos alimenticios y los resultados médicos.

EJEMPLOS

Usando dos variables simples .Uso de pivot simétrico

Uso de corCoda de robcompositions

Rp1 <- corCoDa(phdred)

Rs1 <- corCoDa(phdred,method="spearman")

Se observa que pearson se afecta por outliers y spearman no

Uso de MCD en Pearson :Primero hallas el MCD y luego conviertes la


matriz MCD en matriz de correlación robusta

Entonces ,lo que se haría seria primero convertir la data en pivot


simétricos

Luego saco la matriz de correlación de la matriz MCD y obtengo mi


matriz de correlación robusta.

Z <- pivotCoord(phdred[, c(1,2,3:5)], method = "symm")

Rr[i, j] <- covMcd(Z[, 1:2], cor = TRUE)$cor[1, 2]

Y se puede expresar en heatmap

Uso de validación de ambas correlaciones usando [Link]()

CORRELACION MULTIPLE
En este caso se tuvo 2 datas una multivariable y una de otro
análisis .todos en el mismo [Link] modo que se tuvo una data de
data composicional y otra de no composicional en [Link] se va
a agregar esta data a la composicional y observar el comportamiento
de esa variable no composiconal con las composicionales convertidas a
ilr ,ojo ,la variable única no se convierte a ilr porque en sí es
independiente.

data("gemas")

x <- log(gemas$AnnPrec) # log-transformed annual precipitation X <-


gemas[, 12:29]

Z <- pivotCoord(X)

xZ <- cbind(x, Z)

[Link] <- cov(xZ) # choose orthonormal coordinates

#correlation coefficient:

1- det([Link]) / (det([Link][-1,-1]) * [Link][1, 1]) ## [1] 0.254522

El resultado es entre la precipitación y la química.

## [1] 0.254522 #correlacion débil.

Uso de MCD como método robusto.

library("robustbase")

[Link] <- covMcd(xZ)$cov # compute squared multiple correlation


coefficient:

1- det([Link]) / (det([Link][-1,-1]) * [Link][1, 1])

# [1] 0.3644017

Ojo al final la tabla xZ se considera todos independientes

Si solo tengo una tabla y quisiera comparar uno con todos ,se
recomienda usar el pivote 1 con todos .

EXAMPLE FOR CORRELATION BETWEEN GROUPS OF COMPOSITIONAL


PARTS
Vemos como esta todo hacia los márgenes ,El powering y perturbación
sirve para ponerlo mejor visualmente

Cambio de planes .En vez de usar los pivotes simétricos normales se


usara weifght pivots simétricos .Las variables con grandes varianzas
logarítmicas se ponderan a la baja para suprimir su efecto sobre las
variables restantes,

ANALISIS DISCRIMINANTE

Se usa la información previa de la suposicion de normalidad en


coordenadas ILR para representar distribuciones de grupos

LDA (asume matriz de covarianza conjunta) y QDA (asume matrices de


covarianza de grupos individuales) asumen previamente normalidad en
ILR

Fisher discriminant no asumen distribución subyacente.

Uso de MCD como método robusto de matriz de covarianza

Introducción: permiten asignar una nueva observación de conjunto de


pruebas a uno de los grupos teniendo en cuenta la información previa
sobre la pertinencia de las [Link] tarea del AD es predecir la clase
de pertencia para la observación.

Se establece en base a reglas : Bayes y [Link] se basan en


diferentes supuestos.

Regla de Bayes:Requiere una especificación de la distribución


subyaciente de la data

Regla de Fisher : No requiere explícitamente distribución subyaciente.

Dado que estamos en data composicional es necesario uso de ILR


porque el AD se basa en geometría euclidiana

Regla de Bayes : probabilidad de que ocurra en cada agrupamiento,el


mayor es al que [Link] de distribución normal multivariada.
Hace el QDA y LDA (depende de lo resaltado con amarillo)

Desde un punto de vista de entrenamiento entre QDA y LDA ,qda tiene


muchos parámetros debido a individuales grupos de
covarianzas ,mientras que LDA solo [Link] el qda es mas
sobreajustado ,mientras que LDA a desajustado.

Validacion realista pero no optimo es validación cruzada.


Ojo: QDA y LDA invariantes a coordenadas ortonormales

Discriminante de Fisher : Esta discriminante y su extensión para el


caso de multigrupos usa la idea de buscar dirección de proyección que
permiten máxima separación entre grupos medios

Para obtener una regla de clasificación es utilizado para computar


discriminante de Fisher en cada grupo. Aquí se necesita parámetros
poblacionales

Uno puede usar estimadores clásicos como por ejemplo media


aritmética para estimar la media y matriz de covarianza muestra .

Estimadores robustos: MCD en bayes rule y otras opciones.

LDA robusto uso de rrcov Linda()

Predict()

QdaCov()

Dafisher()

METHODS FOR HIGH-DIMENSIONAL COMPOSITIONAL DATA

SVD se usa para hacer PCA y PLS

PLS (Partial Least Squares ) para regresión y clasificación.

El PLS en regresionn es técnica para analizar datos en los que hay alta
colinealidad entre variables [Link] cuando hay muchas
variables predictoras

Ejemplo ,tienens muchas variables predictoras y solo unas pocas


[Link] haces reg lineal tradicional probablemente sugra
colinealidad .Usando PLS se puede reducir la dimensionalidad de
variables predictoras en pocas latentes

También se usa para clasificación como PLS-DA (Partial squares


discriminan análisis)

MARKERS : Variables o caractertísticas en un conjunto de datos que


son particularmente importantes

Se identifican con Pairwise logratios y principal balances.

Libraría pls usa función mvr() para PLS

Un método para identificar marcadores en mayoría de casos comunes


de dos grupos de observación es el enfoque propuesto por Walach
basado en matriz de variación que revela la proporcionalidad entre las
partes.

Existen menos variables en comparación con el método de [Link]


solo se busca identificar variables que permiten distinguir entre dos
grupos.

Uso de varianza empririca clásica .Uso de función biomarker() y “std”

Método robusto de estimador de varianza de matriz de variación es


sigma estimator debido a la sensibilidad de outliers .

prmdaCV (método robusto de PLS) mejorar prcision de clasificacion

Compare modelo PLS basado en clr coeficientes usando enforque de


matrix variation y tau estimador.

TABLAS COMPOSIONALES

Facevicová COMPOSITIONAL CUBES: A NEW CONCEPT FOR


MULTI-FACTORIAL COMPOSITIONS :2022

En coordinate cube también se usan balances

También podría gustarte