Bucianti 2014 /buccianti 03
Se habla sobre distancia de aitchinson y distancia euclidiana es lo
mismo en CLR espacio
Alr : no es isométrico que implica que las distancias no son
equivalentes en ambos espacios
ILR : bases ortonormales basadas en SBP llamados balances
Filmozer y Hron 2007 .Deteccion de outliers de data composiconal
de manera robusta
Uso de distancia de mahalanobis usando ILR y luego aplicando DM
clásico y robusto
Por ALR ,CLR e ILR con estimador clásico dan el mismo resultado
ALR e ILR con estimador robusto MCD
Egozcue ,buccianti 2023 .Exploracion de data geoquímica usando
técnicas composiconales .Guia practica.
Importancia de remover outliers uso de MD robust
PCA de clr CoDa-PCA
Princiapl componentes son también coordenadas ortogonales (ojito)
pero con estructura diferente
Procedimiento para hacer CoDa-PCA
[Link]ón CLR Centrado de CLR cclr(x)
[Link] un SVD de cclr(x)
[Link] biplots
Obs. Aquí se recomienda eliminar outliers.
Se explica las direcciones como interpretación ,angulo de 90° ,180°
entre biplots.
Tabla de PCs
Uso de sbp para hallar ilr coordinates ,en orden a decrecer la varianza
Se puede hacer interpretación de ramas del dendrograma
Uso de balances para discriminar cuencas (en ese estudio)
Uso de balances para determinar una la variable de altura , no
obstante puede discriminar algunas .Uso de técnica Lasso
uso de kmeans en coordenadas ILR ,balances o CLR
Azevedo Luis :Flying in composutional morphospaces
Uso de distancia de aitchison intragrupos e intergrupos Uso de
gráficos ternarios
Uso de MANOVA y labda de Wilks
Uso de clr PCa y biplots
Uso de balances dendogramas
Campbell 2009 .Trabajó con Grunsky : análisis de data
composiconal para datos elementales en ciencia forense.
Uso de pairplor de CLR transformado (scatterplot de todos los
elementos contra todos
Otra vez CLR PCA Biplota de PC1 y PC2
Uso de LDA
Uso de test formales de validación .Uso de rock aus y Hotellings T2
(uso de permutaciones para remover el asunto de multivariabilidad.
Drouiche Abdelmalek : Groundwater quality assessment using
revised classical diagrams and compositional data analysis
(CoDa): Case study of Wadi Ranyah, Saudi Arabia
Uso de ilr y clr
Clr PCA robusto : En R función clr y luego prcomp
Ilr para hallar la calidad de agua
Uso de kmeans en PC1 y PC2
Cluster análisis qmode y rmode
Behnam Sadeghi : How to choose a proper representation of
compositional data for mineral exploration?
Clr PCA
Ilr RPCA
Y son comparados con principal balances(PB)
Hay 3 formas de sacar los sbp el criterio es de uno
Luego de tener se hace una interpolación y luego uso de técnica
fractal C-A y N-S para btener anomalías
Emmanuel John M. Carranza : Analysis and mapping of
geochemical anomalies using logratio-transformed stream
sediment data with censored values
Uso de ln ,alr ,clr e ILR y luego fractal C-A para el estudio .Uso y
eliminacion de outliers .hace comparativa.
Thiombane:Exploratory analysis of multi-element geochemical
patterns in soil from the Sarno River Basin (Campania region,
southern Italy) through compositional data analysis (CODA)
Uso de HC ,clr-biplot y AF principa
Compositional data analysis of regional geochemical data in
the Lhasa area of Tibet, China
Aplica términos de data driven y data knowlge a los balances y los
compara con los PC debido a que se da a entender que los PCs a
pesar de que se le haga una rotación de varimax habrá partes de una
variable en otras PCs
Mark Engle : Linking compositional data analysis with
thermodynamic geochemical modeling: Oilfield brines from the
Permian Basin, USA
Empleo de amalgamación de HCO3 y CO3 y todo sigue normal .
Uso de diagrama de proporciones molares .Uso de bpc
Se hacen los scatterplot de esos balances Ca*SO4/H20 vsCa/SO4
Pedro Acosta-Góngora:Compositional balance analysis for Cu–
Zn(±Co) geochemical anomaly mapping in Trøndelag county,
Norway
Uso de coba .Uso de data driven y data knowledge balances
Uso de [Link] package de R
Se sacan balances de data driven y knowlege ,así como de los PCs de
modo que se hace un heatmap
Yue Liu : Compositional Balance Analysis: An Elegant Method
of Geochemical Pattern Recognition and Anomaly Mapping for
Mineral Exploration
Uso de FA y PCA ,indica uque no elimina correlaciones entre los
componentes y/o factoes y da paso a COBA .Indica y se comprubea
que el COBA es mas eficiente en interpretación de procesos
geoquímicos /geologicos.
Greenacre,grunsky :
A comparison of amalgamation and isometric logratios in
compositional data analysis
Se hace una comparativa de dos enfoques ,donde se busca que no se
use ILR sino simples pairwise logratios.
Explica que teóricamente el ILR es atractivo pero no tiene buena forma
de interpretrse .la fuente de su debilidad es el uso de la media
geométrica que es una medida promediadora contraria a la intuición
de combinación de partes .y se ve afectado por partes con valores
muy pequeños.
Se propone logratios de amalgamaciones mas intuitivo e interpretable
que ilr
Se habla de PLRs pivot log ratios
SLR es un logratio sin algún factor escalar
Enfoque es identificar la varianza explicada y no la varianza
contribuida por cada variable explicatoria .Ojito
Según deepseek depende
Si el objetivo es predecir la variable dependiente con la mayor
precisión posible (varianza explicada)
Si el ojetivo es entender el papel de cada variable en un contexto
multivariable
Para modelos de clustering (var contribuyente) ,LDA (var
contribuyente) ,y arboles de decisión (variable explicada)
La selección de logratios se basa en explicar la mayor varianza R2 en
cada paso
Tengo 20 variables .Se hace métodos para encontrar variables
explicatorias que expliquen bien la varianza total .
Un camino es encontrar los mejores pairwise
Otro enfoque es usando el dendograma donde podemos amalgamar
variables usando la variable explicatoria como media de distancia
Otra forma es ya amalgamando y luego hacer lo del pairwise.
Correlación de Procrustes :Tecnica multivariable
Uso de LRA(logratio análisis) : maximum amount of logratio variance
LRA es PCA de CLR, que difiere en que en el biplot muestra
interpretación
Por lo que también se puede decir que LRA es la PCA de la matriz de
pairwise logratios
Ojito en Procustres debe haber igual cantidad que total de datos.
En los biplots se usa “Se utiliza el escalado biplot de contribución.”
Ojo el biplot pca y steps tienen mucha relación y coherencia
Uso de ALRs para realizae distancia de mahalanobis ara detección de
outliers.
Michael Greenacre :Variable Selection in Compositional Data
Analysis Using Pairwise Logratios
Adelantandonos en el uso de coordinate tables ,aquí se usan tablas
composicionales .En el sentido que se usan balances tanto para las
filas ,como para las columnas .Es decir se usa BSP para ambos de
modo que una vez hecho los balances se hacen Z or que forma +/- de
row 1 col1 … de una matriz de si por ejemplo es 3X5 entonces los Zor
formados serian 2x4 …
Y se hace didáctico usando una tabla (por eso coordinate tables)
Ojito :muestra de 42 tablas composicionales 3×5
Vemos como al final existen 2x4 balances y con eso se hace PCA para
observar resultados. Ojito con los términos de odd ratios y balances , al
parecer odd ratios es cuando se combinan los balances de filas y
columnas
orthogonal pivot coordinates" y "odds ratios" están relacionados pero
no son lo mismo
Odd ratios mide la asociación entre variables categóricas ,cuantifica las
proporciones de diferentes componentes ,que permite evaluar si hay
dependencia o patron estructural entre filas y columnas.
Ortogonal pivot coordinates : Forma especifica de transformar los
datos
Odd ratios sobre probabilidades en el sentido de que puedes formular
preguntas y responder con si o no
Coordenadas ortogonales pivotales (uso de balances SBP normal no
bcp) según el texto . Uso de PCA .interes.
V. Nesrstova ´1, P. Jaˇ skov´ u a1, I. Pavl˚1 K. Hron1, J. Palarea-
Albaladejo2, A. Gaba ´ 3, J. Pelclova ´4 and K. Faˇcevicova´
5Simple enough, but not simpler: reconsidering additive
logratio coordinates in compositional análisis
Hace una recapitulación de los métodos para tratar data composional
Uso de ALR como interesante
CLR ,OLR (uso de bases ortonormales [interesante en teoría] (balances
y pivot tables]
Enfatiza a greenacre que menciona critica sobre los balances y que
ortonormalidad no es necesaria .Propone ALRs (no obstante no
preserva distancias y ángulos que causa problemas en PCA que es
efectivo en equivariantes ortogonales y análisis de regresion)
Hron cuyo objetivo es mantener ortonormalidad y uso de simples pares
de logratios propone backwards pivot coordinates (bpc) . Donde
demuestra que la ortonormalidad si importa cuando se aplican
métodos estadísticos populares como acp o análisis de regresión
Por ultimo se hace una extensión de este análisis de backwards pivot
a coordinate tables (Egozcue y Facevicova)
BPCs Captura información en coordenadas ALR mientras cumple
ortogonalidad .
Por ejemplo, el primero seria
La ortonormalidad es importante en ACP porque aquí garantiza
que la varianza total explicada coincida en base a clr representation.
Esto garantiza que cada componente capture una parte única de la
variabilidad de los datos, sin superponerse con otros componentes.
Ojito : norma unitaria de 1 para decir que se tiene bases ortogonales.
Compositional tables :Se explica que es crucial la ortognalidad para su
descomposicon en independientes e interactivas artes y preservando
sus respectiva dimensionalidad .Compositional tables esta compuesto
por I filas y J columnas que envuelven 2 tipos de objetos elementales.
Uso de términos de row backwards pivot balances (rpbc)
Uso de términos de columns backwards pivot balances (cbpc)
Uso de términos para table backwards pivot coordinates (tbpc)
Estos 3 ecuaciones pueden ser también analizadas separadamente
cuando solo un especifico búsqueda de información es de interés.
Alr crea correlaciones artificiales
PCA loadings (coeficientes de combinaciones lineales de variables
originales)
Scores ( valores de componentes principales)
La ordinaria formulación de PCA y asociada a biplot esta basada en
coeficientes clr
Con respecto a los bpc ,combina las primeras coordenadas de cada
sistema pivote.
Ojito con el paquete robcompositions que abarca también PCA tanto
de bpc como de coordinate tables para realizar PCA y regresión lineal
Aplicaciones : 336 niños de 8-18 años que hacen en un día 24
horas ,en 4 variables ,uso de bpc y PCA y se compara con alr .Alr no
representa bien .Mejor es bpc que no exagera variabilidades.
Tenemos primero que entender tema de vectores para entender .
Imagina que tienes 2 variables x e y .y suman 100% entonces estas en
un espacio bidimensional cada flecha es una composición . la longitud
de cada flechita se llama magnitud (norma) y se mide usando las
variables sumatoria de variables al cuadrado. En pocas palabras
distancia de 0.0 a la coordenada
La distancia de aitchinson es lo de Pitágoras de distancia de un punto a
otro cuanto de distancia hay
Ahora el producto interno un vector se proyecta en otro ,aquí todos
estarán en coordenadas positivas así que siempre el resultado será
positivo para este valor y siempre habrá superposición.
Mide cuanto de un vector contribuye en la dirección de otro.
Imagina que tienes 2 vectores ,una fuerza empuja 10 N hacia el norte y
otra empuja 8 N en angulo de 60° ,el Producto interno dice cuanto de
vector de 8N contribuye a la misma dirección que la primera.
En si es la distancia que tiene un vector cuando se proyecta en otro.
El simplex depende de la dimensionalidad o variables
LIBRO DE DATA COMPOSITIONAL ANALISIS
ALR Cumple con permutación y powering mas no con
distancia ,norma y producto interno de aitchison por lo que se dice que
no es isométrica
CLR Cumple con todo lo de arriba pero se observa que tiene
dependencia de los otros componentes debido a que la suma (“ya
comprobada”) de estos coeficientes da 0 y por ende una matriz
singular que hace que no se pueda usar ni hacer un análisis univariado
.Por lo que no se recomienda uso de análisis uni,ni bivariado ya que al
tener una parte de este en otros coeficientes los hace dependientes y
por ende erroneo los análisis univ y biv. .
ILR -> cumple con todo lo de CLR y ademas rompe dependencia en el
sentido que el factor escala transforma en bases ortonormales.
Pivot coordinates :Al inicio no se usa SBP ,pero de manera grafica si se
puede usar
Imaginamos que tenemos 5 variables: X1X23X4X5
Un sistema de coordenadas puede ser RAIZ(D-1)/D X1/
X2X3X4X5 ,Segundo X2/X3X4X5 ,Tercero X3/X4X5 y el ultimo X4/X5
todos con un factor de escala donde se observa que el x1 solo aparece
en z1 ,el x2 solo en z1 y z2 …
Pivot coordinates isométricos : Se usa para correlación bivariada y
análisis de regresión
Balances : Correlación de mas de dos partes ,usa SBP (y el orden del
SBP ) tiene otros criterios como mejor varianza ,optima o W.
Para gráficos univariados de simples partes son graficados con
knowledge driven logratios,data driven log coordinates ,pairwise
logratios ,first pivot coordinates
Nuevos estadígrafos
Media aritmética NO : Imagina que tenemos x1 (1,9) x2 (5,3) ;la media
seria X(3,3)
Pero su proporcion es 1 ,asi que falla.
En vez se multiplican y se sale al final G: G1 ,G2,..GD ,que seria la
media de cada columna con la cantidad de filas.
ANALISIS UNIVARIDO
Prohibido CLRs
Buenas practicas :
Balances
Knowledge driven logratios (conocimiento de un experto)
Data driven (Uso de SBP )
Pairwise logratios
Uso de Histograma y qqplot en datos con % y puntuación z
Si tenemos solo una variable que seria por ejemplo cantidad de
personas que son doctores y cantidad que son mujeres .
Análisis Bivariado : Uso de ILR
Uso de pivot simetric coordinates.
Interesante poque se observa como en el primero no hay tendencia
mas si agrupaciones y en el simetric pivot si hay tendencia.
Análisis multivariado
Uso de diagrama ternario para 3 .
Se supone que debe hacerse un reclosure de 3 partes para observar el
comportamiento.
Estimacion de parámetros : Cuando los datos están en ILR se puede
aplicar los métodos de estimación de parámetros,prueba de hipostesis
,etc,
Hay invarianza bajo rotación de coordenadas : sto significa que el
resultado de la prueba no depende del sistema de coordenadas
orthonormales elegido, siempre que sea ortogonal.
Test de Hotelling : para probar si la media de una población
multivariada es igual a un valor hipotético, suponiendo normalidad.
Otros ejemplos son MANOVA ,cluster análisis ,discriminant
análisis ,donde la elección de coordenadas ortonormales usualmente
no importa.
Pero ojito con análisis de regresión que ya no es el caso.()
Estimadores clásicos vs robustos
Localización univariada : Media aritmética vs mediana
Escala univariada : Desviación estándar vs MAD y/o rango
intercuartílico
Localización multivariada y covarianza : Matriz de covarianza vs MCD
y/o OGK
En detección de outliers :
Uso de treshold (uso de desviación estándar)
Uso de MAD
Uso de rango intercuartílico grafico de tukey
Outilers multivariados
Uso de distancia de mahalanobis : método clásico matriz de
covarianza y media
Método robusto : Uso como parámetros de estimadores MCD
Uso de gráficos de mvoutlier del mismo paquete y su grafico ,uso de
outCoda de robcomposition .Es mas estético el primero
CLUSTER ANALISIS
La distancia mas popular para medir distancias de variables continuas
es la distancia [Link] hay otras como la distancia de
Manhattan
Para variables binarias y nominales tales como Jaccard distance
Una distancia generalizada que considera diferentes tipos de variables
es la Distancia GOWER
Pero OJITO : estamos en datos composicionales ,aquí se usa distancia
de AITCHISON
Alternativamente la data composicional se puede transformar en
coordenadas ortonormales y usar la medida estándar de Distancia
euclidiana.
Mientras mas pequeña las distancias de aitchison son de interés de
agrupamiento
Y con esto se comienza el primer método de clustering : Hierechical
clustering donde como que cada punto se “fusiona” y luego se mide
con otros ,así hasta juntas TODAS las observacioenes en un simple
gran cluster.
El procedimiento se llama “aglomerative” y el procedimiento en
reversa se llama “divisive”
También es optimo haciendo el Q-mode clustering pero se requiere
una medida de asociación entre las partes
HC (hierical clustering)
Ojito se usa ILR o pivot coordinates ,respecto a los métodos es
single ,complete,average,centroid,Ward.D) todos estos se usan con
respecto al R-mode.
x <- alcoholreg[, c("recorded", "unrecorded")]
res <-hclust(dist(pivotCoord(x)), method = "ward.D")
Estrategias de enlaces de clustering jerárquico :
Single Linkage
Dendograma no balanceado
Adecuado para detectar valores atípicos ,tiende a ser desequilibrado
en el sentido que los grandes clussteres se combinan
rá[Link] grupos pequeños y pocos grupos grandes.
Cada punto es un conglomerado ,se unen puntos que tienen distancias
mas cortas ,se agrupan y así para englobar a un gran cluster
Complete linkage : Similar pero identifica conglomerados que tiene la
distancia mas larga entre los puntos y hace ese algoritmo ,donde toma
el segundo mas largo y así
Dendograma balanceado
Average linkage. Calcula la distancia promedio entre todos los pares de
puntos en diferentes conglomerados e identifica el par con distancia
promedio mas corta
Centroide Linkage : Calcula el centroide o punto medio de cada
conglomerado ,,identifica el par de conglomerados con centroides mas
cercanos
Método Ward : Comienza con cada punto como su propio
conglomerado,calcula la varianza dentro de cada
conglomerado ,Identifica los dos conglomerados cuya fusión resulta en
el menor aumento en la varianza dentro del conglomerado
Tree cutting (tala de árbol) .Referido al dendograma
Hay un paquete llamado dynamicTreeCut ,pero varios autores y su
experiencia demuestran que esos métodos amenudo no dan buenos
resultados.
Métodos de partición:
Uso de Kmeans (variante del EM algoritmo) .Implementado en R
Algunas variantes de k-means donde el algoritmo de MacQueen es
utilizado,pero por defecto esta el Hartigan-wong
cl1 <- kmeans(Z, centers = 4, algorithm = "MacQueen") ,con el
[Link]= me da la iteración de agrupamiento ,debido a que si pongo 1
,2 3,4 y así veremos poco a poco como es el proceso.
Una limitación del Kmeans es que suele ser esféricamente simétrica.
CLUSTERING BASADO EN MODELOS
El modelo estándar es la distribución normal multivariada con media y
covarianza muestral de las n filas.
Se considera NECESARIO primero transformar coordenadas a ilr
(Pivote) coordinates ,antes de aplicar un modelo de base clustering
pueda ser aplicado.
Para simplificar el modelo y hacer la estimación más manejable, a
menudo se imponen restricciones en las matrices de covarianza.
Covarianza esférica igual para todos los conglomerados: todas las
matrices de covarianza son iguales y esféricas matriz identidad y σ² es
un parámetro de varianza común Σj = σ²I para j = 1, ..., nc ,una cov
constante
Covarianza esferica diferente para cada conglomerado :permitir que
cada conglomerado tenga su propia varianza, es decir, Σj = σ²j I para j
= 1 una cov variable que hace a que cada congl tenga su propio radio
pero sigue siendo esferico
Uso de paquete mclust packag Mclust() .Uso de BIC por defecto. El G :
es la cantidad de modelos mínimo a máximo
library("mclust")
res <- Mclust(Z, G = 3:9, verbose = FALSE) # 3 to 9 mixture
components
plot(res, what = "BIC")
plot(res, what = "classification")
OJITO : Que temenos que entender que kmeans y los modelos basados
en distribuciones son [Link] ejemplo el kmeans en si hay una
función donde uno ya establece la cantidad de clusters
kmeans() .Ahora el otro es Mclust()
el agrupamiento k-means asume que los conglomerados son esféricos
y de tamaño similar, lo que puede llevar a asignaciones incorrectas de
puntos cuando los conglomerados tienen formas irregulares o
alargadas
Por otro lado, el agrupamiento basado en modelos es más flexible y
puede adaptarse mejor a las formas reales de los conglomerados, lo
que resulta en asignaciones más precisas de los puntos de datos.
Fuzzy clustering
La básica diferencia con los métodos de partición es que una
observación no se asigna a un solo cluster ,sino que hay una
asignación proporcional a todos los clústeres :Es decir :es una técnica
de agrupamiento que permite a un punto de datos pertenecer a
múltiples conglomerados con diferentes grados de [Link]
agrupamiento difuso permite que un punto pertenezca a varios
conglomerados simultáneamente, con un grado de pertenencia que
indica la fuerza de la asociación.
En coordenadas ortonormales
Uso de función cmeans () de paquete e1071
Al igual que kmeans se tiende a formar conglomerados esféricos
Elección del # de conglomerados.
library("e1071") groups <- 4 res <- cmeans(Z, groups) for(i in
seq_along(1:groups)){ plot(Z, col = gray(1- res$membership[, i])) #
produces Fig. 6.7 }
CLUSTERING PARTS :USO DE Q MODE CLUSTERING
Lo anterior ,todo fue uso de R mode clustering ,es decir usando cada
muestra .
Ahora el objetivo es agrupar las variables o partes
[Link] el ingrediente clave son las distancias o
disimilitudes.
Una opción para observar la relación entre partes es variation matrix
Cuanto menor sea el valor de tjk mas constante será la relación
logarí[Link] este caso las partes correspondientes pueden
considerarse proporcionales.
Los elementos de la matriz pueden ser directamente usados como
medida de disimilitud para clustering sin embargo que la matriz de
variación NO POSEE las propiedades de una matriz de distancias.
La elección estándar podría ser la varianza muestral ,pero también
mas robusto podría cosiderarse MCD que esta por defecto en la
función variation de robcompositions .
Aquí se puede usar esto como medida para clustering y usar también
el hclust
data("expendituresEU") [Link] <- [Link](variation(expendituresEU,
robust = FALSE)) [Link] <- [Link](variation(expendituresEU))
plot(hclust([Link], method = "ward.D")) # produces Fig. 6.8 left
plot(hclust([Link], method = "ward.D"))
Se compara ambos medidas y vemos como son diferentes los
resultados.
Y se ve que con el método clásico una variable esta como “outiler”
pero con respecto al método robusto no se debe sacar conclusiones
precipitadas.
UNA VEZ que ya tenemos hecho los clusters se deben VALIDAR ,que
consiste que halla logrado alta homogeneidad de clusters.,asimismo
diferentes clusters deben ser disimilares. Es decir heterogeneidad
entre clusters debe ser lograda.
Heterogeneidad entre grupos :Esto se mide between cluster sum of
squares Bnc
Homogeneidad dentro de cada cluster within cluster sum of squares
Wnc
Mientras que Bnc debería ser grande, Wnc debería ser pequeño.
Validacion usando Calinski-Harabasz index
Y Hartigan index
Otra forma de validación es usando average silhouette width
En el ejemplo
Uso de clustCoDa_qmode de robcompositions ,simplemente se pone la
data.
Para rmode clustering hierechical se usa hclust y coordenada pivote y
dist() Luego de tener el grafico de dendograma uso de cutree() al
objeto con el numero deseado de clústeres.
moss$hclust <-cutree([Link], 7)
Una vez que observas que tienes 7 clusteres según el R mode y haces
un cuttree .Puedes hacer e implementar los clustering como
kmeans ,Mclust , y cmeans para ver que tan buenos son con la
cantidad de clústeres que según tu viendo el HC observas.
Otro grafico de interpretación es la dominancia de cada elemento en la
composición de cada cluster. ,los colores indican cluster diferentes
No esta hecho con
clustCoda sino con Mclust
Si te das cuenta en el cluster de verde ,los mas resaltantes son Cu,Ni y
Co ,donde se observa como difieren de los otros clusters ,en cluster
azul es el Al,Fe y V como dominantes….
Uso de clustCoda() permite llamar varios métodos de clustering y
diferentes algoritmos y unificar la salida .
[Link] <- clustCoDa(X, k = 7, method = "complete", scale =
"none", verbose = FALSE) table(cutree([Link], 7),
[Link]$cluster)
Ojo con el tema de scaling ,En mayoría de algoritmos de clústeres es
crucial que se escale primero las variables para que media sea 0 y
varianza 1.
En data composicional es necesario? No debido a que la suma es
constante
Ahora es necesario en coordenadas ortnormales? Tampoco
El escalado en datos composicionales debería ser ESTRICTAMENTE
EVITADO.
Validacion usando silhoutee value : Gráficos de silhoutee values son
implementados en paquete cluster usando el algoritmo pam()
library("cluster")
[Link] <- pam([Link], 9)
plot([Link], [Link] = 2)
abline(h = which(abs(diff(grp)) > 0), col = "blue", lty = 2)
ANALISIS DE COMPONENTES PRINCIPALES
La data se transforma a coordenadas ortogonales (pivot ) y luego se
hace centrado de la media Z=Xilr−medias.
Se usa el enfoque de decomposicion de valores singulares donde la
matriz nxD matriz X pasa a ser la matriz nx(D-1) Z .Donde Z se
compone de 3 partes
Z=UDWT
U : Coordenadas de las muestras en el espacio de componentes
principales
Ejemplo: La primera columna de U contiene las proyecciones de todas
las muestras en el primer componente principal (PC1).
Matriz D : d1,d2,...,dpd1,d2,...,dp indican la "importancia" de cada
componente principal
W :Direcciones de los componentes principales en el espacio original
(loading matrix). Los loadings pueden ser visto como los pesos de
variables para determinar los componentes principales
La primera columna de W indica cómo contribuye cada coordenada ilr
al PC1.
Scores (los puntitos en el biplot) loadings las direcciones de las
variables
Se usan dos enfoques para hacer un análisis de PCA
Enfoque en termino de grupo de partes (balances) o en partes
individuales
(balances)
Ejemplo: Comparar minerales duros vs. minerales blandos.
Si prefieres interpretar los resultados en términos de parte
individuales (ej: Cuarzo, Feldespato), este enfoque no es ideal
Usar D Sistemas de Coordenadas Pivot (Pivot Coordinates)
Son un tipo de coordenadas log-ratio donde cada parte se
compara con el resto de las partes, una a la vez.
Para DD partes, necesitas DD sistemas de coordenadas pivot.
ALTERNATIVA QUE PUEDE HACERSE PARA ANALIZAR TANTO BALANCES
COMO INDIVIDUALES (PIVOT) : USO DE CLR coeficientes.
Un solo sistema de coordenadas: No necesitas múltiples sistemas
como en las coordenadas pivot
Relación con balances: Los coeficientes CLR están relacionados con
los balances
Problemas : Singularidad e interpretabilidad
Ejemplo
Tengo 10 partes y 4 partes conforman por ejemplo min duros y 3
felsicos ,se usan esos dos balances y PCA
EJEMPLOS :
Prcomp () basado en SVD
Princomp () eigen-decompositionof the covari ance matrix
pcaCoDa() usa internamente Princomp() con biplot como resultante de
proyecciones clr
mult_comp= cuantos conjuntos de datos existen (si quieres hacer a
mas de un dataset)
Representación de componentes principales en diagrama ternario
Un componente principal en diagrama ternario usando ternarydiag()
usando line=”pca” de robcompositions observa el PCA de por ejemplo
100 muestras de 3 partes el 1er Componente
Se compara el enfoque robusto y no robusto de PCA usando
pcaCoDa ,method=”classical” or “robust”
Xlabs elige que poner en puntos ,ósea valor numérico? ,cluster ¿?
res<-pcaCoDa(Beer, method = "classical")
biplot(res, xlabs =[Link], xlim = c(-0.3,0.2))
biplot(res, xlabs =[Link], xlim= c(-0.3,0.2)
ANALISIS DE CORRELACION
El objetivo es cuantificar la fuerza de relación entre los pares de
variables o entre grupos de variables
Datos transformados en coordenadas ortonormales como
balances .Uso de coeficiente de correlación de Pearson [-1,1]
(RELACION LINEAL ENTRE 2 VARIABLES .Sensible a outliers.
aquí se refiere a un teórico cov y a un teórico var
Cuando se dispone de una muestra de n coordenadas balance, la
covarianza y las varianzas se sustituyen por sus homólogas de
muestra.
Se puede usar MCD en vez del clásico covarianza
La interpretación podría ser complicada si no se tiene en cuenta el SBP
con un conocimiento agregado por [Link] ende se usa Pivot
simetric coordinates como [Link] debe tener en cuenta que clr
no se recomienda para correlación debido al sesgo negativo de
estructura de covarianza.
Existen 2 opciones mas como medidas : Por ejemplo para correlaciones
de rangos (posiciones relativas) que tiene como objetivo estudiar
asociaciones entre los rangos de diferentes variables o de diferentes
rangos de una variable
Spearman: Mide la fuerza y dirección de una relación monótona (no
lineal) .
Medida de que tan bien se puede describir la relación entre dos
variables mediante función monótona
Kendall : Para conjunto de datos pequeños .Porcion de rangos que
coinciden entre 2 variables
Gamma de Goodman y Kruskal, una medida de la fuerza de asociación
de los datos tabulados cruzados cuando ambas variables se miden a
nivel ordinal
Correlación de rangos es particularmente recomendable cuando hay
desviación de normalidad.
Ojito con Correlación de Pearson clásico y robusto.
Tanto como los datos composicionales como clr tienen var negativo y
por ende corrrelacion pierde su valor predictivo
Por ende un tipo de coordenadas se debe buscar
Y esta es pivot simetric coordinates .Pero , también aquí hay que tener
cuidado con la interpretación del coeficiente de correlación resultante.
Por lo tanto, las partes restantes también pueden influir en el valor del
coeficiente de correlación, que corresponde plenamente a la
naturaleza relativa de los datos de composición.
Como consecuencia, un coeficiente de correlación positivo significaría
que las dominancias de las dos cantidades sobre los respectivos
"representantes promedio" de las otras partes aumentan
simultáneamente y viceversa para la correlación [Link]
cero podría significar que la dominancia de esas dos cantidades son
controlados por procesos no correlacionados.
Uso de matriz de correlación pivote de orden D
Correlación multiple
Squared correlation coefficient abre la posibilidad de considerar una
medida de correlación mas general. Apropiado en datos
composicionales
Una medida de correlación lineal entre un balance y un grupo de
balances es el coeficiente de correlación multiple [0,1] donde 0 indica
no relación y 1 bastante relación .Al igual que Pearson hay método
clásico usando matriz de covarianza o robusto usando MCD
El coeficiente de correlación múltiple mide la fuerza de la relación
lineal entre:
La información relativa de una parte específica (xl) de la
composición.
Las demás partes de la composición.
Valores pequeños (ρ2≈0): Indican que la parte xl tiene un
comportamiento excepcional o dominante con respecto al resto
de las partes. Esto sugiere que xl no sigue las mismas
tendencias que las otras partes.
Valores grandes (ρ2≈1): Indican que la parte xl está
fuertemente relacionada con el resto de la composición
Tipicamente se usa pivot coordinates en vez de balances debido a que
como se menciona se esta comparando un elemento con todos ,no
entre partes.
Correlation Between Groups of Compositional Parts
Aqui si se usan balances
Donde [0,1] es lo mismo que en arriba
Uso de canonical variables y correlación CANONICA mide la relación
lineal entre dos conjuntos de variables multivariadas
Las variables canónicas no necesariamente representan la mayor
cantidad de varianza dentro de cada grupo de datos (como lo hacen
los componentes principales en el análisis de componentes
principales).El análisis canónico busca encontrar combinaciones
lineales dentro de cada conjunto de variables que maximicen la
correlación entre esos dos conjuntos
Variables latentes (canónicas) :
Se crean combinaciones lineales de las variables en X y Y
llamadas variables canónicas (U y V).
Estas combinaciones se calculan para maximizar la
correlación entre U y V.
Correlación máxima : La correlación entre las variables
canónicas U y V es lo que se llama correlación canónica .
Se tienen 2 datasets multivariados .X con X1,X2,X3.. XD & Y con
Y1,Y2,Y3... XP
Se crean 2 variables canonicas es decir de la combinacion de todas las
variables de X en una variable canonica y de todas las Y en otra y se
hace lo mismo coeficiente de correlacion .
Una correlación canónica alta (por ejemplo, 0.85) indica una fuerte
relación entre los hábitos alimenticios y los resultados médicos.
EJEMPLOS
Usando dos variables simples .Uso de pivot simétrico
Uso de corCoda de robcompositions
Rp1 <- corCoDa(phdred)
Rs1 <- corCoDa(phdred,method="spearman")
Se observa que pearson se afecta por outliers y spearman no
Uso de MCD en Pearson :Primero hallas el MCD y luego conviertes la
matriz MCD en matriz de correlación robusta
Entonces ,lo que se haría seria primero convertir la data en pivot
simétricos
Luego saco la matriz de correlación de la matriz MCD y obtengo mi
matriz de correlación robusta.
Z <- pivotCoord(phdred[, c(1,2,3:5)], method = "symm")
Rr[i, j] <- covMcd(Z[, 1:2], cor = TRUE)$cor[1, 2]
Y se puede expresar en heatmap
Uso de validación de ambas correlaciones usando [Link]()
CORRELACION MULTIPLE
En este caso se tuvo 2 datas una multivariable y una de otro
análisis .todos en el mismo [Link] modo que se tuvo una data de
data composicional y otra de no composicional en [Link] se va
a agregar esta data a la composicional y observar el comportamiento
de esa variable no composiconal con las composicionales convertidas a
ilr ,ojo ,la variable única no se convierte a ilr porque en sí es
independiente.
data("gemas")
x <- log(gemas$AnnPrec) # log-transformed annual precipitation X <-
gemas[, 12:29]
Z <- pivotCoord(X)
xZ <- cbind(x, Z)
[Link] <- cov(xZ) # choose orthonormal coordinates
#correlation coefficient:
1- det([Link]) / (det([Link][-1,-1]) * [Link][1, 1]) ## [1] 0.254522
El resultado es entre la precipitación y la química.
## [1] 0.254522 #correlacion débil.
Uso de MCD como método robusto.
library("robustbase")
[Link] <- covMcd(xZ)$cov # compute squared multiple correlation
coefficient:
1- det([Link]) / (det([Link][-1,-1]) * [Link][1, 1])
# [1] 0.3644017
Ojo al final la tabla xZ se considera todos independientes
Si solo tengo una tabla y quisiera comparar uno con todos ,se
recomienda usar el pivote 1 con todos .
EXAMPLE FOR CORRELATION BETWEEN GROUPS OF COMPOSITIONAL
PARTS
Vemos como esta todo hacia los márgenes ,El powering y perturbación
sirve para ponerlo mejor visualmente
Cambio de planes .En vez de usar los pivotes simétricos normales se
usara weifght pivots simétricos .Las variables con grandes varianzas
logarítmicas se ponderan a la baja para suprimir su efecto sobre las
variables restantes,
ANALISIS DISCRIMINANTE
Se usa la información previa de la suposicion de normalidad en
coordenadas ILR para representar distribuciones de grupos
LDA (asume matriz de covarianza conjunta) y QDA (asume matrices de
covarianza de grupos individuales) asumen previamente normalidad en
ILR
Fisher discriminant no asumen distribución subyacente.
Uso de MCD como método robusto de matriz de covarianza
Introducción: permiten asignar una nueva observación de conjunto de
pruebas a uno de los grupos teniendo en cuenta la información previa
sobre la pertinencia de las [Link] tarea del AD es predecir la clase
de pertencia para la observación.
Se establece en base a reglas : Bayes y [Link] se basan en
diferentes supuestos.
Regla de Bayes:Requiere una especificación de la distribución
subyaciente de la data
Regla de Fisher : No requiere explícitamente distribución subyaciente.
Dado que estamos en data composicional es necesario uso de ILR
porque el AD se basa en geometría euclidiana
Regla de Bayes : probabilidad de que ocurra en cada agrupamiento,el
mayor es al que [Link] de distribución normal multivariada.
Hace el QDA y LDA (depende de lo resaltado con amarillo)
Desde un punto de vista de entrenamiento entre QDA y LDA ,qda tiene
muchos parámetros debido a individuales grupos de
covarianzas ,mientras que LDA solo [Link] el qda es mas
sobreajustado ,mientras que LDA a desajustado.
Validacion realista pero no optimo es validación cruzada.
Ojo: QDA y LDA invariantes a coordenadas ortonormales
Discriminante de Fisher : Esta discriminante y su extensión para el
caso de multigrupos usa la idea de buscar dirección de proyección que
permiten máxima separación entre grupos medios
Para obtener una regla de clasificación es utilizado para computar
discriminante de Fisher en cada grupo. Aquí se necesita parámetros
poblacionales
Uno puede usar estimadores clásicos como por ejemplo media
aritmética para estimar la media y matriz de covarianza muestra .
Estimadores robustos: MCD en bayes rule y otras opciones.
LDA robusto uso de rrcov Linda()
Predict()
QdaCov()
Dafisher()
METHODS FOR HIGH-DIMENSIONAL COMPOSITIONAL DATA
SVD se usa para hacer PCA y PLS
PLS (Partial Least Squares ) para regresión y clasificación.
El PLS en regresionn es técnica para analizar datos en los que hay alta
colinealidad entre variables [Link] cuando hay muchas
variables predictoras
Ejemplo ,tienens muchas variables predictoras y solo unas pocas
[Link] haces reg lineal tradicional probablemente sugra
colinealidad .Usando PLS se puede reducir la dimensionalidad de
variables predictoras en pocas latentes
También se usa para clasificación como PLS-DA (Partial squares
discriminan análisis)
MARKERS : Variables o caractertísticas en un conjunto de datos que
son particularmente importantes
Se identifican con Pairwise logratios y principal balances.
Libraría pls usa función mvr() para PLS
Un método para identificar marcadores en mayoría de casos comunes
de dos grupos de observación es el enfoque propuesto por Walach
basado en matriz de variación que revela la proporcionalidad entre las
partes.
Existen menos variables en comparación con el método de [Link]
solo se busca identificar variables que permiten distinguir entre dos
grupos.
Uso de varianza empririca clásica .Uso de función biomarker() y “std”
Método robusto de estimador de varianza de matriz de variación es
sigma estimator debido a la sensibilidad de outliers .
prmdaCV (método robusto de PLS) mejorar prcision de clasificacion
Compare modelo PLS basado en clr coeficientes usando enforque de
matrix variation y tau estimador.
TABLAS COMPOSIONALES
Facevicová COMPOSITIONAL CUBES: A NEW CONCEPT FOR
MULTI-FACTORIAL COMPOSITIONS :2022
En coordinate cube también se usan balances