0% encontró este documento útil (0 votos)

16 vistas10 páginas

Interpretacions Plots Practical

El documento describe técnicas de reducción de dimensionalidad como PCA, tSNE y UMAP, enfocándose en cómo transforman datos originales en nuevas variables que preservan la variabilidad y relaciones entre muestras. Se discuten aspectos clave a observar en cada método, como la separación entre grupos, la variabilidad interna, la estructura de clusters y posibles efectos de batch. Además, se abordan parámetros importantes como el número de vecinos y la distancia mínima en UMAP, que afectan la interpretación de los datos y la visualización de patrones.

Cargado por

marti.diez

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

16 vistas10 páginas

Interpretacions Plots Practical

Cargado por

marti.diez

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

PCA

PCA: Transforma los datos originales en nuevas variables que explican la mayor parte de la
variabilidad en el menor número de dimensiones posibles. Cada punto es una sample. Las
elipses que rodean estos puntos enseñan la dispersión y confianza.

¿Qué hay que observar?

1. Separación entre grupos
○ Si los grupos están bien separados y sus elipses no se superponen indica
que la variable que define esos grupos es una fuente importante de
variabilidad.
○ Si las variables se superponen mucho, probablemente esa variable tiene
poco efecto en los datos. En el caso de arriba, Time tendría poco efecto y
A/B experiment tendría mucho. El caso de replicate podría tener un
outlier/batch effect porque los grupos 1, 2, 4 están muy separados y el 3 es
más disperso (solapa al grupo 1, 2)

2. Tamaño y forma de las elipses

○ Pequeñas y compactas indican poca variabilidad dentro del grupo, quiere
decir que es muy consistente. Grandes o alargadas indican mucha
variabilidad dentro del grupo, lo cual puede deberse a ruido técnico (batch
effect), ruido biológico (noise) o la presencia de outliers

3. Ejes y proporción de varianza

○ Los ejes del gráfico (Dim1, Dim2) indican qué proporción de la varianza total
explican. Normalmente Dim1 es la que más explica la varianza.
○ Cuanto mayor sea la varianza explicada por los primeros componentes,
mejor se representa la estructura global del dataset en el gráfico
4. Orientación de los grupos
○ Si los grupos se separan principalmente a lo largo de Dim1 (horizontalmente)
o Dim2 (verticalmente), eso te indica qué componente principal está
capturando la diferencia relevante. Por ejemplo, si tuvieses un grupo a la
izquierda y otro a la derecha se separarían por Dim1, y si tuvieses uno arriba
y otro abajo se separarían por Dim2

5. Posibles batch effects

○ Si los grupos definidos por replicates se agrupan más frecuentemente que
los definidos por tipo de experimento significa que puede haber un efecto de
batch, y para quitarlo hay que normalizar la data.

Lo de arriba se ha ploteado con fviz, pero si lo ploteas con ggplot se aplica exactamente el
mismo razonamiento:

Cuando normalizamos la data nos cambia el plot:

En este caso vemos claramente que el tipo de experimento es relevante, hay muy buena
separación aunque en los 3 casos hay un outlier que tendremos que quitar (arriba a la
izquierda). Confirmamos que Time tiene un efecto mucho menor que las otras 2. Replicate
tiene separación en los grupos 1, 2, 4 con una superposición del grupo 3 bastante grande,
entonces el outlier viene de ese grupo. Las elipses más alargadas son las que más
variabilidad tienen (Grupo 4 de los replicates por ejemplo), aunque no es fiable ya que
puede ser (y en este caso es) por ruido o outliers. Las más compactas son las más
consistentes (más fiables). Los % de los ejes indican la varianza, entonces vemos que Dim1
es la que más explica la varianza en este caso.

Con ggplot se ve claramente lo que argumentamos:

Cuando quitamos el outlier vemos cómo se agrupan los grupos realmente, por tipo de
experimento y por tiempo, cada cluster con una sample de cada replicate. Los del
experimento A a la izquierda y los del B a la derecha
tSNE

tSNE: Transforma los datos originales en nuevas variables manteniendo relaciones de

proximidad en un espacio de menos dimensiones. Cada punto es una sample y los
diferentes colores y formas indican diferentes replicates y time points en este caso (en otros
casos miras la leyenda y de ahí ves que representan)

¿Qué hay que observar?

1. Separación entre grupos
○ Si los grupos están bien separados y no se superponen indica que la variable
que define esos grupos es una fuente importante de variabilidad. Si se
mezclan significa que la variable que se usa para definirlos tiene poco
impacto (tenemos que ver clusters claramente diferenciados por color, forma
y tamaño para que sea fiable). Podemos interpretar lo mismo que el PCA, en
este caso el color (Time) no parece afectar, pero el tipo de experimento si
(hay clusters de tamaño pequeño y grande (tamaño del tipo, no de que haya
2 samples en uno y 400 en otro))

2. Distribución de los puntos

○ Los grupos compactos indican poca variabilidad dentro de cada condición
(compacto por tipo, replicate o time), y esto significa que es consistente. Si
los grupos son dispersos puede haber batch effect, outliers o simplemente
ruido biológico

3. Ejes y relaciones espaciales

○ A diferencia del PCA, los ejes en tSNE no representan la varianza explicada,
sino la relación de similitud entre las muestras. Lo importante es observar
cómo los grupos se distribuyen en el espacio, mirando si la separación refleja
diferencias biológicas o simplemente ruido
4. Orientación de los grupos
○ No tienen una interpretación directa, lo que realmente importa en el tSNE es
la proximidad y agrupación de los puntos porque el algoritmo está diseñado
para preservar las relaciones de similitud locales. En lugar de fijarse si los
grupos son horizontales o verticales, es mejor centrarse en cómo están
agrupados y qué tan separados están

5. Posibles batch effects

○ Si los grupos por réplicas están más separados que los agrupados por
experimento puede haber un efecto de batch, y para eliminarlo normalizamos
la data.

Al normalizar la data nos queda así:

Podemos sacar las mismas conclusiones que con el PCA, hay clusters muy pequeños
separados por tiempo y cada cluster tiene una sample de cada replicate. Además, están
separados por tipo de experimento, lo que significa que es una variable muy relevante
biológicamente para explicar la data

Iteraciones, repeticiones, perplexity

Iteraciones:
- Si tienes pocas iteraciones (por ejemplo 50) el algoritmo no va a tener suficiente
tiempo para organizar los puntos de manera significativa, lo que hace que tenga una
estructura poco definida sin agrupaciones claras
- Si tienes bastantes iteraciones (entre 500 y 1000 por ejemplo) el algoritmo habrá
formado los clusters que se esperan por tipo de experimento y tiempo (o las
variables que tengas), y eso significa que el algoritmo ha aprendido patrones
relevantes de los datos y está reflejando la estructura que tienen

- Si tienes muchas iteraciones (de 1000 hasta 10000 por ejemplo) puede hacer que
los clusters se sobreajusten, ya que aunque el algoritmo sigue refinando la
separación de los puntos puede exagerar ciertas diferencias y ocultar información
útil. Un número excesivo fuerza los datos a un agrupamiento muy marcado en
función de una sola variable dominante, reduciendo la posibilidad de capturar otras
relaciones menos evidentes

Repeticiones
- tSNE es un algoritmo estocástico (probabilidades), lo que significa que cada vez que
se ejecuta sin una semilla fija genera un gráfico distinto. Aunque la apariencia
cambie, la estructura y patrones de agrupación se mantienen constantes si el
algoritmo está capturando correctamente los datos.

- Le ponemos un número de repeticiones (del 1 al 4 por ejemplo) y podemos ver si los

clusters son consistentes o no. Si lo son significa que la estructura de los datos es
estable y sugiere que el algoritmo guarda correctamente la información importante
en la reducción dimensional.

- Aunque haya variaciones en donde están colocados los puntos entre las
repeticiones, si los grupos se mantienen separados por la variable que nos interesa
(por ejemplo, el tipo de experimento), refuerza la idea de que la variable es clave
para la estructura

Perplexity
- Es un parámetro clave que influye en la agrupación de los datos y la estructura de
los clusters. El valor afecta cómo el algoritmo balancea la localidad y globalidad de
las relaciones de similitud en los datos.

- Un valor bajo (entre 1 y 10) hace que los clusters tiendan a ser muy compactos y
bien definidos. Capturará relaciones locales pero puede fragmentar el espacio y
perder conexiones globales importantes y puede exagerar la separación entre
puntos, haciendo que grupos que tienen que estar conectados se vean más
separados de lo que realmente están

- Un valor intermedio (⅓ del máximo) tiene un mejor balance entre agrupaciones

locales y la estructura global. Los clusters siguen bien definidos pero permiten más
conexión entre ellos, reflejando mejor la estructura de los datos. Este suele ser un
muy buen rango para identificar patrones biológicos o experimentales.

- Aunque el valor óptimo varía según el dataset, por norma general el mejor valor que
puede tener la perplexity es la mitad del valor máximo, que esto asegura que la
estructura capturada sea representativa sin perder información clave
- Un valor alto (⅔ del máximo) reorganiza los clusters en menos grupos con más
muestras por cluster. Se prioriza la estructura global sobre la local, lo que puede
camuflar diferencias sutiles entre grupos. Es útil en datasets con una clara
separación global entre categorías grandes

- Usando el valor máximo de la perplexity puede reducir la estructura a solo 2 clusters

grandes muy separados en casos extremos. La agrupación pierde detalle y se centra
solo en las relaciones generales. No es recomendable usarlo

UMAP

UMAP: Permite visualizar datos de alta dimensión en un espacio más comprensible. A

diferencia del PCA (captura la variabilidad total) y el tSNE (enfatiza relaciones locales),
UMAP encuentra una buena combinación entre preservar la estructura global y local, lo que
lo hace útil para descubrir patrones y agrupaciones

¿Qué hay que observar?

1. Separación entre grupos
○ Mismo criterio que los anteriores

2. Estructura de los clusters

○ Cada cluster debe estar compuesto por samples de distintos replicates
dentro de una misma condición (como tipo de experimento). Si después del
UMAP los clusters siguen separados indica que las diferencias son biológicas
o experimentalmente reales, no por efectos técnicos ni batch
3. Outliers y ruido
○ Los puntos alejados de los clusters principales pueden indicar outliers. En
caso de haber puntos muy separados tenemos que revisar el origen y
eliminarlos para tener una interpretación más clara

4. Ejes y relaciones espaciales

○ Los ejes no representan la varianza como en el PCA, pero reflejan relaciones
de similitud entre las muestras (como en el tSNE). Es importante evaluar la
distribución global de los puntos en el espacio para identificar qué factores
están dominando la agrupación

5. Efectos de batch

○ Si las muestras están separadas por replicates y no por condición podría
haber batch effect y al normalizar la data se habrá corregido

6. Comparación con otros métodos

○ Si se compara con PCA y tSNE, UMAP es el más rápido en tiempo de
ejecución y tiende a mantener mejor tanto la estructura global como la local.
Si los clusters en UMAP reflejan patrones similares a los de PCA o tSNE,
refuerza la idea de que las separaciones son significativas y no tienen
efectos aleatorios

El UMAP normalizado refuerza los mismos patrones claves identificados en los otros 2
métodos con una representación más enfocada en la conectividad de los datos en lugar de
agrupaciones rígidas. Esto lo hace útil para detectar gradientes de variabilidad dentro de los
clusters y entender mejor las transiciones entre grupos.

Con el UMAP también puedes predecir nuevos puntos a través de datos anteriores (ver en
el practical la parte de predecir el replicate 4 a partir de los otros 3)
Number of neighbors, minimum distance

Number of neighbors
- Controla el número de vecinos más cercanos que se consideran al construir el plot
de conectividad (cuántos vecinos tiene cada sample). Este valor influye directamente
en el equilibrio entre la preservación de la estructura local y global de los datos
durante la reducción de dimensionalidad.

- Tener pocos vecinos significa que el UMAP se enfoca principalmente en la estructura

local de los datos. Esto quiere decir que el algoritmo prioriza mantener juntas las
observaciones más similares entre sí, lo cual puede llevar a una mayor
fragmentación del espacio y a una mayor cantidad de pequeños grupos o clusters en
el plot.
- Ventajas: Mejor diferenciación de pequeñas subpoblaciones o patrones
locales y útil cuando se espera una alta granularidad en los datos

- Desventajas: Puede dar lugar a sobrefragmentación, haciendo parecer que

hay más subgrupos de los que realmente hay y además se pierde contexto
global, dificultando ver relaciones amplias entre grupos

- Tener muchos vecinos significa que el UMAP amplía su enfoque a la estructura

global del conjunto de datos. En este caso, las relaciones entre puntos lejanos
también se tienen en cuenta, lo que suaviza el plot y tiende a agrupar datos en
formas más amplias y conectadas.
- Ventajas: Mayor cohesión general del gráfico y permite identificar tendencias
globales o agrupaciones amplias

- Desventajas: Puede ocultar subestructuras locales y grupos pequeños

pueden perderse o fusionarse con otros

- El número de vecinos tiene un impacto significativo en la forma en que interpretamos

la agrupación, la dispersión y la relación entre observaciones en el espacio reducido:
- Valores bajos favorecen una exploración detallada de relaciones de corto
alcance

- Valores altos son preferibles cuando el objetivo es obtener una visión general
y menos fragmentada del conjunto de datos

- Ajustar n_neighbors no solo modifica la apariencia del gráfico, sino que también
cambia la narrativa que obtenemos sobre la estructura y complejidad de los datos

Minimum distance
- Define la distancia mínima permitida entre puntos en la proyección de menor
dimensión. A diferencia de n_neighbors, que influye en cómo se construye la
estructura del grafo de vecinos, min_dist afecta cómo se distribuyen los puntos en el
espacio, es decir, cuánto se permite que se compacten o dispersen

- Distancias mínimas bajas significa que el UMAP permite que los puntos similares
estén muy compactados entre sí en el espacio y esto genera visualizaciones con
grupos bien definidos y claramente separados.
- Ventajas: Resalta subestructuras locales con alta densidad y es útil para
identificar clusters bien diferenciados

- Desventajas: Puede dar la impresión de separaciones más nítidas de lo que

realmente existen en los datos y tiene riesgo de exagerar diferencias entre
grupos

- Distancias mínimas altas hace que el UMAP fuerce una dispersión mayor entre
puntos, incluso si son similares. Los grupos tienden a ocupar más espacio y
aparecen menos compactos en la visualización
- Ventajas: Mejora la percepción de la continuidad entre observaciones y
reduce la posibilidad de interpretar agrupaciones artificiales

- Desventajas: Puede ocultar agrupaciones verdaderas al esparcir puntos

similares y difumina las fronteras entre clusters reales

- min_dist afecta directamente a la forma visual en que se perciben las relaciones en

los datos.
- Valores bajos enfatizan la separación y definición de grupos
- Valores altos promueven una distribución más homogénea y continua, lo que
puede ser útil cuando se sospecha que los datos representan transiciones o
gradientes (como en procesos biológicos o de desarrollo)

También podría gustarte

Análisis y Visualización de Imágenes FITS
Aún no hay calificaciones
Análisis y Visualización de Imágenes FITS
14 páginas
Análisis Topológico de Datos
Aún no hay calificaciones
Análisis Topológico de Datos
20 páginas
Técnicas de Segmentación y Clasificación
Aún no hay calificaciones
Técnicas de Segmentación y Clasificación
14 páginas
Análisis de Datos Geoespaciales en 2D y 3D
Aún no hay calificaciones
Análisis de Datos Geoespaciales en 2D y 3D
78 páginas
Gráficos para Análisis Exploratorio de Datos
Aún no hay calificaciones
Gráficos para Análisis Exploratorio de Datos
34 páginas
Herramientas de Visualización en Data Science
Aún no hay calificaciones
Herramientas de Visualización en Data Science
83 páginas
Lectura 3 - Agrupación Desde Machine Learning
Aún no hay calificaciones
Lectura 3 - Agrupación Desde Machine Learning
9 páginas
Gráficos con ggplot2 en R
Aún no hay calificaciones
Gráficos con ggplot2 en R
47 páginas
Análisis Exploratorio de Datos en R
Aún no hay calificaciones
Análisis Exploratorio de Datos en R
29 páginas
Guía de Análisis y Visualización de Datos
Aún no hay calificaciones
Guía de Análisis y Visualización de Datos
10 páginas
Análisis PCA y t-SNE en R
Aún no hay calificaciones
Análisis PCA y t-SNE en R
6 páginas
Lab2 Gráficos - Con - Comentarios
Aún no hay calificaciones
Lab2 Gráficos - Con - Comentarios
9 páginas
Técnicas de Minería de Datos y Visualización
Aún no hay calificaciones
Técnicas de Minería de Datos y Visualización
799 páginas
4) Graficos en R
Aún no hay calificaciones
4) Graficos en R
41 páginas
Visualización de Datos en R: Guía Completa
Aún no hay calificaciones
Visualización de Datos en R: Guía Completa
127 páginas
Representatividad Espacial de Muestras
Aún no hay calificaciones
Representatividad Espacial de Muestras
10 páginas
Técnicas de Aprendizaje No Supervisado
Aún no hay calificaciones
Técnicas de Aprendizaje No Supervisado
33 páginas
Análisis y Modelado del Variograma
Aún no hay calificaciones
Análisis y Modelado del Variograma
18 páginas
Herramientas para Estimación de Recursos Mineros
Aún no hay calificaciones
Herramientas para Estimación de Recursos Mineros
58 páginas
RStudio para Negocios: Guía Práctica
Aún no hay calificaciones
RStudio para Negocios: Guía Práctica
8 páginas
Visualización de Datos con ggplot2 en R
Aún no hay calificaciones
Visualización de Datos con ggplot2 en R
28 páginas
Guía R: Estadísticas y Gráficos Rápidos
Aún no hay calificaciones
Guía R: Estadísticas y Gráficos Rápidos
7 páginas
Clase 6
Aún no hay calificaciones
Clase 6
17 páginas
15 Agrupacion
Aún no hay calificaciones
15 Agrupacion
60 páginas
Clase 10
Aún no hay calificaciones
Clase 10
53 páginas
Gráficos y Análisis Estadístico en R
Aún no hay calificaciones
Gráficos y Análisis Estadístico en R
14 páginas
Data-Visualization Es
Aún no hay calificaciones
Data-Visualization Es
2 páginas
R Graficos
Aún no hay calificaciones
R Graficos
71 páginas
Manejo y Visualización de Datos en R
Aún no hay calificaciones
Manejo y Visualización de Datos en R
8 páginas
Módulo 5 - Visualización de Datos en R
Aún no hay calificaciones
Módulo 5 - Visualización de Datos en R
29 páginas
Ejercicios R Ggplot
Aún no hay calificaciones
Ejercicios R Ggplot
19 páginas
Cómo hacer un circulograma y gráfico circular
33% (3)
Cómo hacer un circulograma y gráfico circular
5 páginas
Análisis Estadístico con R y ISO 13528
Aún no hay calificaciones
Análisis Estadístico con R y ISO 13528
21 páginas
Herramientas R para Segmentación de Mercados
Aún no hay calificaciones
Herramientas R para Segmentación de Mercados
23 páginas
Cómo Interpretar Un Gráfico t-SNE
Aún no hay calificaciones
Cómo Interpretar Un Gráfico t-SNE
1 página
Visualización de Datos con R: Guía Esencial
Aún no hay calificaciones
Visualización de Datos con R: Guía Esencial
60 páginas
Análisis Cluster en MATLAB y SPSS
Aún no hay calificaciones
Análisis Cluster en MATLAB y SPSS
21 páginas
Análisis Exploratorio de Datos y Preprocesamiento
Aún no hay calificaciones
Análisis Exploratorio de Datos y Preprocesamiento
28 páginas
Qué Es Un Gráfico
Aún no hay calificaciones
Qué Es Un Gráfico
9 páginas
Diffrac - Eva Cluster Analysis
Aún no hay calificaciones
Diffrac - Eva Cluster Analysis
21 páginas
Agrupamiento KMeans en Python
100% (1)
Agrupamiento KMeans en Python
16 páginas
Algoritmos No Supervisados y PCA
Aún no hay calificaciones
Algoritmos No Supervisados y PCA
4 páginas
Taller3 Visualizacion Datos Umaña Giuliana
Aún no hay calificaciones
Taller3 Visualizacion Datos Umaña Giuliana
13 páginas
Casos-ML-Unsupervised - Eysen Perez
Aún no hay calificaciones
Casos-ML-Unsupervised - Eysen Perez
1 página
Análisis Geoestadístico de Datos Espaciales
Aún no hay calificaciones
Análisis Geoestadístico de Datos Espaciales
15 páginas
Análisis de Cluster en Pancreatitis
Aún no hay calificaciones
Análisis de Cluster en Pancreatitis
11 páginas
Establecimiento de Centroides en K-Medias
Aún no hay calificaciones
Establecimiento de Centroides en K-Medias
4 páginas
Paquete Clustering para Agrupamiento Eficiente
Aún no hay calificaciones
Paquete Clustering para Agrupamiento Eficiente
15 páginas
Clustering
Aún no hay calificaciones
Clustering
38 páginas
Clase 2 - Machine Learning - Unsupervised
Aún no hay calificaciones
Clase 2 - Machine Learning - Unsupervised
32 páginas
Análisis de Clúster: Técnicas y Métricas
100% (1)
Análisis de Clúster: Técnicas y Métricas
68 páginas
Análisis de Conglomerados: José A Perusquía Cortés Análisis Multivariado Semestre I
Aún no hay calificaciones
Análisis de Conglomerados: José A Perusquía Cortés Análisis Multivariado Semestre I
53 páginas
Picd-408 Ejercicio T004
Aún no hay calificaciones
Picd-408 Ejercicio T004
4 páginas
Ingeniería de Características en Datos
Aún no hay calificaciones
Ingeniería de Características en Datos
3 páginas
1 Datos y Preprocesamiento
Aún no hay calificaciones
1 Datos y Preprocesamiento
34 páginas
Graficos Estadisticos
Aún no hay calificaciones
Graficos Estadisticos
18 páginas
Equipos de Pulverización Agrícola SIRFRAN
Aún no hay calificaciones
Equipos de Pulverización Agrícola SIRFRAN
296 páginas
Proy. Investigacion de Mercado
Aún no hay calificaciones
Proy. Investigacion de Mercado
24 páginas
Historia de Panamá: De la Colonia a la Independencia
Aún no hay calificaciones
Historia de Panamá: De la Colonia a la Independencia
25 páginas
Examen Del Primer Trimestre - 1ro de Secundaria
Aún no hay calificaciones
Examen Del Primer Trimestre - 1ro de Secundaria
2 páginas
Definición y Importancia del Balance de Comprobación
100% (1)
Definición y Importancia del Balance de Comprobación
2 páginas
Fundamentos de Química Orgánica
Aún no hay calificaciones
Fundamentos de Química Orgánica
36 páginas
Póster IMV
Aún no hay calificaciones
Póster IMV
1 página
Perfil y Historia del CEPB "Mil Olores"
Aún no hay calificaciones
Perfil y Historia del CEPB "Mil Olores"
14 páginas
Copia de CANCIONERO
Aún no hay calificaciones
Copia de CANCIONERO
4 páginas
Etapas del Método Estadístico
Aún no hay calificaciones
Etapas del Método Estadístico
2 páginas
Auditorías Ambientales en Empresas
Aún no hay calificaciones
Auditorías Ambientales en Empresas
2 páginas
Constitución de Sociedades Mercantiles en México
Aún no hay calificaciones
Constitución de Sociedades Mercantiles en México
1 página
Jhonatan Montalvo
Aún no hay calificaciones
Jhonatan Montalvo
2 páginas
Contrato de Arrendamiento Local 2019
Aún no hay calificaciones
Contrato de Arrendamiento Local 2019
7 páginas
Terms of Employment
Aún no hay calificaciones
Terms of Employment
12 páginas
Manual
Aún no hay calificaciones
Manual
4 páginas
03-Necesidad de Una Planeación
Aún no hay calificaciones
03-Necesidad de Una Planeación
2 páginas
2da Clase - PENICILINAS. Dra. de Freitas
100% (3)
2da Clase - PENICILINAS. Dra. de Freitas
56 páginas
Bombas Tradicionales
Aún no hay calificaciones
Bombas Tradicionales
5 páginas
Guión de Pesebre Viviente Infantil
100% (6)
Guión de Pesebre Viviente Infantil
13 páginas
Política Integral de Sostenibilidad Antamina
Aún no hay calificaciones
Política Integral de Sostenibilidad Antamina
1 página
Opciones de Contratación de Desarrolladores
Aún no hay calificaciones
Opciones de Contratación de Desarrolladores
3 páginas
Cartas Circularesdep Educacion
67% (6)
Cartas Circularesdep Educacion
12 páginas
Los Exploradores de Cavernas
Aún no hay calificaciones
Los Exploradores de Cavernas
2 páginas
Intervenciones Socioeducativas para Niños
Aún no hay calificaciones
Intervenciones Socioeducativas para Niños
4 páginas
TERNURA Gabriela Mistra
Aún no hay calificaciones
TERNURA Gabriela Mistra
12 páginas
Examen Católica PUCP 2011 Respuestas
Aún no hay calificaciones
Examen Católica PUCP 2011 Respuestas
18 páginas
Lista de Ingredientes Químicos
Aún no hay calificaciones
Lista de Ingredientes Químicos
23 páginas
Nómina de Pago de Natividad Aranda
Aún no hay calificaciones
Nómina de Pago de Natividad Aranda
1 página
Crítica a la Idolatría del Dinero
Aún no hay calificaciones
Crítica a la Idolatría del Dinero
4 páginas

Interpretacions Plots Practical

Cargado por

Interpretacions Plots Practical

Cargado por

PCA

¿Qué hay que observar?

2.​ Tamaño y forma de las elipses

3.​ Ejes y proporción de varianza

5.​ Posibles batch effects

Cuando normalizamos la data nos cambia el plot:

Con ggplot se ve claramente lo que argumentamos:

tSNE: Transforma los datos originales en nuevas variables manteniendo relaciones de

¿Qué hay que observar?

2.​ Distribución de los puntos

3.​ Ejes y relaciones espaciales

5.​ Posibles batch effects

Al normalizar la data nos queda así:

Iteraciones, repeticiones, perplexity

-​ Le ponemos un número de repeticiones (del 1 al 4 por ejemplo) y podemos ver si los

-​ Un valor intermedio (⅓ del máximo) tiene un mejor balance entre agrupaciones

-​ Usando el valor máximo de la perplexity puede reducir la estructura a solo 2 clusters

UMAP: Permite visualizar datos de alta dimensión en un espacio más comprensible. A

¿Qué hay que observar?

2.​ Estructura de los clusters

4.​ Ejes y relaciones espaciales

5.​ Efectos de batch

6.​ Comparación con otros métodos

-​ Tener pocos vecinos significa que el UMAP se enfoca principalmente en la estructura

-​ Desventajas: Puede dar lugar a sobrefragmentación, haciendo parecer que

-​ Tener muchos vecinos significa que el UMAP amplía su enfoque a la estructura

-​ Desventajas: Puede ocultar subestructuras locales y grupos pequeños

-​ El número de vecinos tiene un impacto significativo en la forma en que interpretamos

-​ Desventajas: Puede dar la impresión de separaciones más nítidas de lo que

-​ Desventajas: Puede ocultar agrupaciones verdaderas al esparcir puntos

-​ min_dist afecta directamente a la forma visual en que se perciben las relaciones en

También podría gustarte

2. Tamaño y forma de las elipses

3. Ejes y proporción de varianza

5. Posibles batch effects

2. Distribución de los puntos

3. Ejes y relaciones espaciales

5. Posibles batch effects

- Le ponemos un número de repeticiones (del 1 al 4 por ejemplo) y podemos ver si los

- Un valor intermedio (⅓ del máximo) tiene un mejor balance entre agrupaciones

- Usando el valor máximo de la perplexity puede reducir la estructura a solo 2 clusters

2. Estructura de los clusters

4. Ejes y relaciones espaciales

5. Efectos de batch

6. Comparación con otros métodos

- Tener pocos vecinos significa que el UMAP se enfoca principalmente en la estructura

- Desventajas: Puede dar lugar a sobrefragmentación, haciendo parecer que

- Tener muchos vecinos significa que el UMAP amplía su enfoque a la estructura

- Desventajas: Puede ocultar subestructuras locales y grupos pequeños

- El número de vecinos tiene un impacto significativo en la forma en que interpretamos

- Desventajas: Puede dar la impresión de separaciones más nítidas de lo que

- Desventajas: Puede ocultar agrupaciones verdaderas al esparcir puntos

- min_dist afecta directamente a la forma visual en que se perciben las relaciones en