0% encontró este documento útil (0 votos)
16 vistas10 páginas

Interpretacions Plots Practical

El documento describe técnicas de reducción de dimensionalidad como PCA, tSNE y UMAP, enfocándose en cómo transforman datos originales en nuevas variables que preservan la variabilidad y relaciones entre muestras. Se discuten aspectos clave a observar en cada método, como la separación entre grupos, la variabilidad interna, la estructura de clusters y posibles efectos de batch. Además, se abordan parámetros importantes como el número de vecinos y la distancia mínima en UMAP, que afectan la interpretación de los datos y la visualización de patrones.

Cargado por

marti.diez
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
16 vistas10 páginas

Interpretacions Plots Practical

El documento describe técnicas de reducción de dimensionalidad como PCA, tSNE y UMAP, enfocándose en cómo transforman datos originales en nuevas variables que preservan la variabilidad y relaciones entre muestras. Se discuten aspectos clave a observar en cada método, como la separación entre grupos, la variabilidad interna, la estructura de clusters y posibles efectos de batch. Además, se abordan parámetros importantes como el número de vecinos y la distancia mínima en UMAP, que afectan la interpretación de los datos y la visualización de patrones.

Cargado por

marti.diez
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

PCA

PCA: Transforma los datos originales en nuevas variables que explican la mayor parte de la
variabilidad en el menor número de dimensiones posibles. Cada punto es una sample. Las
elipses que rodean estos puntos enseñan la dispersión y confianza.

¿Qué hay que observar?


1.​ Separación entre grupos
○​ Si los grupos están bien separados y sus elipses no se superponen indica
que la variable que define esos grupos es una fuente importante de
variabilidad.
○​ Si las variables se superponen mucho, probablemente esa variable tiene
poco efecto en los datos. En el caso de arriba, Time tendría poco efecto y
A/B experiment tendría mucho. El caso de replicate podría tener un
outlier/batch effect porque los grupos 1, 2, 4 están muy separados y el 3 es
más disperso (solapa al grupo 1, 2)

2.​ Tamaño y forma de las elipses


○​ Pequeñas y compactas indican poca variabilidad dentro del grupo, quiere
decir que es muy consistente. Grandes o alargadas indican mucha
variabilidad dentro del grupo, lo cual puede deberse a ruido técnico (batch
effect), ruido biológico (noise) o la presencia de outliers

3.​ Ejes y proporción de varianza


○​ Los ejes del gráfico (Dim1, Dim2) indican qué proporción de la varianza total
explican. Normalmente Dim1 es la que más explica la varianza.
○​ Cuanto mayor sea la varianza explicada por los primeros componentes,
mejor se representa la estructura global del dataset en el gráfico
4.​ Orientación de los grupos
○​ Si los grupos se separan principalmente a lo largo de Dim1 (horizontalmente)
o Dim2 (verticalmente), eso te indica qué componente principal está
capturando la diferencia relevante. Por ejemplo, si tuvieses un grupo a la
izquierda y otro a la derecha se separarían por Dim1, y si tuvieses uno arriba
y otro abajo se separarían por Dim2

5.​ Posibles batch effects


○​ Si los grupos definidos por replicates se agrupan más frecuentemente que
los definidos por tipo de experimento significa que puede haber un efecto de
batch, y para quitarlo hay que normalizar la data.

Lo de arriba se ha ploteado con fviz, pero si lo ploteas con ggplot se aplica exactamente el
mismo razonamiento:

Cuando normalizamos la data nos cambia el plot:


En este caso vemos claramente que el tipo de experimento es relevante, hay muy buena
separación aunque en los 3 casos hay un outlier que tendremos que quitar (arriba a la
izquierda). Confirmamos que Time tiene un efecto mucho menor que las otras 2. Replicate
tiene separación en los grupos 1, 2, 4 con una superposición del grupo 3 bastante grande,
entonces el outlier viene de ese grupo. Las elipses más alargadas son las que más
variabilidad tienen (Grupo 4 de los replicates por ejemplo), aunque no es fiable ya que
puede ser (y en este caso es) por ruido o outliers. Las más compactas son las más
consistentes (más fiables). Los % de los ejes indican la varianza, entonces vemos que Dim1
es la que más explica la varianza en este caso.

Con ggplot se ve claramente lo que argumentamos:

Cuando quitamos el outlier vemos cómo se agrupan los grupos realmente, por tipo de
experimento y por tiempo, cada cluster con una sample de cada replicate. Los del
experimento A a la izquierda y los del B a la derecha
tSNE

tSNE: Transforma los datos originales en nuevas variables manteniendo relaciones de


proximidad en un espacio de menos dimensiones. Cada punto es una sample y los
diferentes colores y formas indican diferentes replicates y time points en este caso (en otros
casos miras la leyenda y de ahí ves que representan)

¿Qué hay que observar?


1.​ Separación entre grupos
○​ Si los grupos están bien separados y no se superponen indica que la variable
que define esos grupos es una fuente importante de variabilidad. Si se
mezclan significa que la variable que se usa para definirlos tiene poco
impacto (tenemos que ver clusters claramente diferenciados por color, forma
y tamaño para que sea fiable). Podemos interpretar lo mismo que el PCA, en
este caso el color (Time) no parece afectar, pero el tipo de experimento si
(hay clusters de tamaño pequeño y grande (tamaño del tipo, no de que haya
2 samples en uno y 400 en otro))

2.​ Distribución de los puntos


○​ Los grupos compactos indican poca variabilidad dentro de cada condición
(compacto por tipo, replicate o time), y esto significa que es consistente. Si
los grupos son dispersos puede haber batch effect, outliers o simplemente
ruido biológico

3.​ Ejes y relaciones espaciales


○​ A diferencia del PCA, los ejes en tSNE no representan la varianza explicada,
sino la relación de similitud entre las muestras. Lo importante es observar
cómo los grupos se distribuyen en el espacio, mirando si la separación refleja
diferencias biológicas o simplemente ruido
4.​ Orientación de los grupos
○​ No tienen una interpretación directa, lo que realmente importa en el tSNE es
la proximidad y agrupación de los puntos porque el algoritmo está diseñado
para preservar las relaciones de similitud locales. En lugar de fijarse si los
grupos son horizontales o verticales, es mejor centrarse en cómo están
agrupados y qué tan separados están

5.​ Posibles batch effects


○​ Si los grupos por réplicas están más separados que los agrupados por
experimento puede haber un efecto de batch, y para eliminarlo normalizamos
la data.

Al normalizar la data nos queda así:

Podemos sacar las mismas conclusiones que con el PCA, hay clusters muy pequeños
separados por tiempo y cada cluster tiene una sample de cada replicate. Además, están
separados por tipo de experimento, lo que significa que es una variable muy relevante
biológicamente para explicar la data

Iteraciones, repeticiones, perplexity

Iteraciones:
-​ Si tienes pocas iteraciones (por ejemplo 50) el algoritmo no va a tener suficiente
tiempo para organizar los puntos de manera significativa, lo que hace que tenga una
estructura poco definida sin agrupaciones claras
-​ Si tienes bastantes iteraciones (entre 500 y 1000 por ejemplo) el algoritmo habrá
formado los clusters que se esperan por tipo de experimento y tiempo (o las
variables que tengas), y eso significa que el algoritmo ha aprendido patrones
relevantes de los datos y está reflejando la estructura que tienen

-​ Si tienes muchas iteraciones (de 1000 hasta 10000 por ejemplo) puede hacer que
los clusters se sobreajusten, ya que aunque el algoritmo sigue refinando la
separación de los puntos puede exagerar ciertas diferencias y ocultar información
útil. Un número excesivo fuerza los datos a un agrupamiento muy marcado en
función de una sola variable dominante, reduciendo la posibilidad de capturar otras
relaciones menos evidentes

Repeticiones
-​ tSNE es un algoritmo estocástico (probabilidades), lo que significa que cada vez que
se ejecuta sin una semilla fija genera un gráfico distinto. Aunque la apariencia
cambie, la estructura y patrones de agrupación se mantienen constantes si el
algoritmo está capturando correctamente los datos.

-​ Le ponemos un número de repeticiones (del 1 al 4 por ejemplo) y podemos ver si los


clusters son consistentes o no. Si lo son significa que la estructura de los datos es
estable y sugiere que el algoritmo guarda correctamente la información importante
en la reducción dimensional.

-​ Aunque haya variaciones en donde están colocados los puntos entre las
repeticiones, si los grupos se mantienen separados por la variable que nos interesa
(por ejemplo, el tipo de experimento), refuerza la idea de que la variable es clave
para la estructura

Perplexity
-​ Es un parámetro clave que influye en la agrupación de los datos y la estructura de
los clusters. El valor afecta cómo el algoritmo balancea la localidad y globalidad de
las relaciones de similitud en los datos.

-​ Un valor bajo (entre 1 y 10) hace que los clusters tiendan a ser muy compactos y
bien definidos. Capturará relaciones locales pero puede fragmentar el espacio y
perder conexiones globales importantes y puede exagerar la separación entre
puntos, haciendo que grupos que tienen que estar conectados se vean más
separados de lo que realmente están

-​ Un valor intermedio (⅓ del máximo) tiene un mejor balance entre agrupaciones


locales y la estructura global. Los clusters siguen bien definidos pero permiten más
conexión entre ellos, reflejando mejor la estructura de los datos. Este suele ser un
muy buen rango para identificar patrones biológicos o experimentales.

-​ Aunque el valor óptimo varía según el dataset, por norma general el mejor valor que
puede tener la perplexity es la mitad del valor máximo, que esto asegura que la
estructura capturada sea representativa sin perder información clave
-​ Un valor alto (⅔ del máximo) reorganiza los clusters en menos grupos con más
muestras por cluster. Se prioriza la estructura global sobre la local, lo que puede
camuflar diferencias sutiles entre grupos. Es útil en datasets con una clara
separación global entre categorías grandes

-​ Usando el valor máximo de la perplexity puede reducir la estructura a solo 2 clusters


grandes muy separados en casos extremos. La agrupación pierde detalle y se centra
solo en las relaciones generales. No es recomendable usarlo

UMAP

UMAP: Permite visualizar datos de alta dimensión en un espacio más comprensible. A


diferencia del PCA (captura la variabilidad total) y el tSNE (enfatiza relaciones locales),
UMAP encuentra una buena combinación entre preservar la estructura global y local, lo que
lo hace útil para descubrir patrones y agrupaciones

¿Qué hay que observar?


1.​ Separación entre grupos
○​ Mismo criterio que los anteriores

2.​ Estructura de los clusters


○​ Cada cluster debe estar compuesto por samples de distintos replicates
dentro de una misma condición (como tipo de experimento). Si después del
UMAP los clusters siguen separados indica que las diferencias son biológicas
o experimentalmente reales, no por efectos técnicos ni batch
3.​ Outliers y ruido
○​ Los puntos alejados de los clusters principales pueden indicar outliers. En
caso de haber puntos muy separados tenemos que revisar el origen y
eliminarlos para tener una interpretación más clara

4.​ Ejes y relaciones espaciales


○​ Los ejes no representan la varianza como en el PCA, pero reflejan relaciones
de similitud entre las muestras (como en el tSNE). Es importante evaluar la
distribución global de los puntos en el espacio para identificar qué factores
están dominando la agrupación

5.​ Efectos de batch


○​ Si las muestras están separadas por replicates y no por condición podría
haber batch effect y al normalizar la data se habrá corregido

6.​ Comparación con otros métodos


○​ Si se compara con PCA y tSNE, UMAP es el más rápido en tiempo de
ejecución y tiende a mantener mejor tanto la estructura global como la local.
Si los clusters en UMAP reflejan patrones similares a los de PCA o tSNE,
refuerza la idea de que las separaciones son significativas y no tienen
efectos aleatorios

El UMAP normalizado refuerza los mismos patrones claves identificados en los otros 2
métodos con una representación más enfocada en la conectividad de los datos en lugar de
agrupaciones rígidas. Esto lo hace útil para detectar gradientes de variabilidad dentro de los
clusters y entender mejor las transiciones entre grupos.

Con el UMAP también puedes predecir nuevos puntos a través de datos anteriores (ver en
el practical la parte de predecir el replicate 4 a partir de los otros 3)
Number of neighbors, minimum distance

Number of neighbors
-​ Controla el número de vecinos más cercanos que se consideran al construir el plot
de conectividad (cuántos vecinos tiene cada sample). Este valor influye directamente
en el equilibrio entre la preservación de la estructura local y global de los datos
durante la reducción de dimensionalidad.

-​ Tener pocos vecinos significa que el UMAP se enfoca principalmente en la estructura


local de los datos. Esto quiere decir que el algoritmo prioriza mantener juntas las
observaciones más similares entre sí, lo cual puede llevar a una mayor
fragmentación del espacio y a una mayor cantidad de pequeños grupos o clusters en
el plot.
-​ Ventajas: Mejor diferenciación de pequeñas subpoblaciones o patrones
locales y útil cuando se espera una alta granularidad en los datos

-​ Desventajas: Puede dar lugar a sobrefragmentación, haciendo parecer que


hay más subgrupos de los que realmente hay y además se pierde contexto
global, dificultando ver relaciones amplias entre grupos

-​ Tener muchos vecinos significa que el UMAP amplía su enfoque a la estructura


global del conjunto de datos. En este caso, las relaciones entre puntos lejanos
también se tienen en cuenta, lo que suaviza el plot y tiende a agrupar datos en
formas más amplias y conectadas.
-​ Ventajas: Mayor cohesión general del gráfico y permite identificar tendencias
globales o agrupaciones amplias

-​ Desventajas: Puede ocultar subestructuras locales y grupos pequeños


pueden perderse o fusionarse con otros

-​ El número de vecinos tiene un impacto significativo en la forma en que interpretamos


la agrupación, la dispersión y la relación entre observaciones en el espacio reducido:
-​ Valores bajos favorecen una exploración detallada de relaciones de corto
alcance

-​ Valores altos son preferibles cuando el objetivo es obtener una visión general
y menos fragmentada del conjunto de datos

-​ Ajustar n_neighbors no solo modifica la apariencia del gráfico, sino que también
cambia la narrativa que obtenemos sobre la estructura y complejidad de los datos

Minimum distance
-​ Define la distancia mínima permitida entre puntos en la proyección de menor
dimensión. A diferencia de n_neighbors, que influye en cómo se construye la
estructura del grafo de vecinos, min_dist afecta cómo se distribuyen los puntos en el
espacio, es decir, cuánto se permite que se compacten o dispersen

-​ Distancias mínimas bajas significa que el UMAP permite que los puntos similares
estén muy compactados entre sí en el espacio y esto genera visualizaciones con
grupos bien definidos y claramente separados.
-​ Ventajas: Resalta subestructuras locales con alta densidad y es útil para
identificar clusters bien diferenciados

-​ Desventajas: Puede dar la impresión de separaciones más nítidas de lo que


realmente existen en los datos y tiene riesgo de exagerar diferencias entre
grupos

-​ Distancias mínimas altas hace que el UMAP fuerce una dispersión mayor entre
puntos, incluso si son similares. Los grupos tienden a ocupar más espacio y
aparecen menos compactos en la visualización
-​ Ventajas: Mejora la percepción de la continuidad entre observaciones y
reduce la posibilidad de interpretar agrupaciones artificiales

-​ Desventajas: Puede ocultar agrupaciones verdaderas al esparcir puntos


similares y difumina las fronteras entre clusters reales

-​ min_dist afecta directamente a la forma visual en que se perciben las relaciones en


los datos.
-​ Valores bajos enfatizan la separación y definición de grupos
-​ Valores altos promueven una distribución más homogénea y continua, lo que
puede ser útil cuando se sospecha que los datos representan transiciones o
gradientes (como en procesos biológicos o de desarrollo)

También podría gustarte