0% encontró este documento útil (0 votos)

30 vistas32 páginas

Técnicas de Clustering en Aprendizaje No Supervisado

Este documento resume diferentes técnicas de aprendizaje no supervisado como PCA, t-SNE, UMAP y clustering. Explica algoritmos de clustering como k-means, clustering jerárquico y DBSCAN. Finalmente, discute métodos para evaluar la calidad de los clusterings obtenidos, incluyendo comparaciones con una partición de referencia cuando está disponible y métricas internas como el coeficiente de silueta cuando no hay partición de referencia.

Cargado por

Japigrande

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

30 vistas32 páginas

Técnicas de Clustering en Aprendizaje No Supervisado

Cargado por

Japigrande

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

Aprendizaje automático no supervisado (II)

Flavio Pazos Obregón

Implementación de modelos basados en aprendizaje automático para el abordaje de problemas biológicos
Curso PEDECIBA Bioinformática - 2023
Plan para hoy:

Clustering
- k means
- Clustering jerárquico
- DBSCAN
Evaluación
Aprendizaje no supervisado

alterix.com

- Engloba técnicas de aprendizaje automático en las que no hay un salida conocida de antemano, ni
etiquetas o categorías con las que entrenar al algoritmo de aprendizaje.
- Se le presentan los datos al algoritmo y se espera que el mismo “extraiga” conocimiento de ellos.
- Se puede dividir en dos tipos: transformaciones de los datos y clustering
Transformaciones

- Buscan crear nuevas representaciones de los datos que pueden ser más fáciles de entender que la
representación original (para humanos o para otros algoritmos)
- Una aplicación habitual es la reducción de dimensionalidad, que busca representar los datos en
espacios de menor dimensión manteniendo la mayor cantidad de información posible.
PCA

- Estandarización
- Cálculo de la matriz de covarianza (m x m)
- Cómputo de vectores y valores propios
- Elegir los p primeros vectores propios según sus valores propios (con p < m)
- Proyectar los datos originales en el nuevo espacio
tSNE

- Calcula la distribución conjunta Pij, que asigna una probabilidad a cada combinación de valores posibles
de todas las variables en el espacio original.
- Distribución Qij en el espacio de menor dimensionalidad (inicialización aleatoria u otra técnica)
- Cálculo de la divergencia Kullback-Leibler entre ambas distribuciones e Iteraciones para minimizarla
UMAP

- Grafo de vecinos en el espacio de alta dimensionalidad

- Para cada punto, se identiﬁcan sus k vecinos más cercanos en función de alguna métrica de similitud (los
dos parámetros a ajustar)
- se busca una representación de menor dimensionalidad que mantenga las relaciones de vecindad
- función de pérdida especíﬁca (SNE Loss) para optimizar las ubicaciones de los puntos
Clustering

- Es la tarea de dividir el dataset en grupos, llamados clusters,

- El objetivo es que los items de cada grupo sean similares entre sí y que los items de grupos
diferentes sean distintos
- Un algoritmo de clustering le asigna (o le predice) un grupo particular a cada item
Algunos algoritmos de clustering
k-means
k-Means
k-Means

- Busca los centroides de los

clusters que sean representativos
de ciertas regiones de los datos
- Itera entre dos pasos: asignar
cada punto al cluster con el
centroide más cercano y calcular
cada centroide como el promedio
de los puntos asignados al
mismo.
- El algoritmo termina cuando las
asignaciones a centroides dejan
de cambiar.
k-Means

Muller & Guido, 2017

- El algoritmo inicializa declarando, al azar, una cantidad de centroides que se debe indicar
- Luego se puede usar para asignar cada nuevo dato al centroide más cercano
k-Means

- Asume cosas que no siempre se cumplen; misma densidad, que todas las direcciones de variación son
igualmente importantes, que los clusters son convexos
k-Means

Muller & Guido, 2017

- Funciona bien cuando los datos forman clusters compactos y distintos y se elige un buen k
k-Means

https://stackoverflow.com/questions/15376075/
- Para elegir k se puede graficar la suma de todas las distancias (al cuadrado) entre los puntos de un
mismo cluster como función de k.
- Esta suma siempre es decreciente, pero también su pendiente. Se puede usar el codo o “elbow” como
criterio para fijar k
clustering jerárquico
https://medium.com/@viveksalunkhe80/hierarchical-clustering/
Clustering jerárquico

- Los métodos jerárquicos tienen por objetivo agrupar clusters para formar uno nuevo o bien
separar alguno ya existente para dar origen a otros dos, de tal forma que se minimice alguna
distancia o se maximice alguna medida de similitud.
- Se subdividen en métodos aglomerativos y disociativos, cada un una gran diversidad de variantes.
Clustering aglomerativo

Muller & Guido, 2017

- Al inicio cada punto es un cluster en sí mismo y luego se van combinando sucesivamente los dos clusters
más similares.
- Se va reduciendo el número de clusters hasta que se satisface cierta condición
- Existen varios criterios para deﬁnir cuales son los dos clusters “más cercanos” o “más similares”
Linkage

- Distintos criterios para combinar clusters:

- single linkage: la mínima distancia entre sus componentes
- complete linkage: la menor distancia máxima entre sus componentes.
- average: el menor promedio (ponderado o no) de la distancia entre todos sus componentes
- Ward: la fusión que resulte en el menor incremento en la suma de todas las distancias (al
cuadrado) de cada punto al centroide del nuevo cluster.
- Distintas distancias: Euclídea (L2), Manhattan (L1), coseno, matrices precomputadas.
Dendrogramas

Muller & Guido, 2017

- cada dato es un punto en al base y se forma un nodo al unir dos clusters

- el largo de cada rama representa la distancia entre los clusters que se unen y ramas más largas
indican que se unen clusters más distintos
Cuántos clusters?

- El dendrograma puede proporcionar una indicación del número de clusters.

- Método del codo, midiendo la varianza intra-cluster promedio para cada cantidad de clusters.
- Método silhouette: mide cuán similar es un objeto a su propio cluster en comparación con otros clusters.
DBSCAN

- Density-based Spatial Clustering of Applications with Noise

- No necesita predeterminar la cantidad de clusters
- Puede capturar formas complejas e identiﬁcar puntos que son ruído
DBSCAN
DBSCAN

- La idea es que los clusters forman zonas densas separadas por zonas menos densas
- Identiﬁca puntos “core” en base a dos parámetros: : min_samples y eps.
- Un puno es un “core” si hay por lo menos min_samples a menos de la distancia eps del mismo
- Los cores que están entre sí a menos de eps se incluyen en el mismo cluster.
DBSCAN

- Se elige un punto al azar y se buscan todos los vecinos a menos de eps.

- si hay menos de min_samples, se lo clasifica como ruido (no pertenece a ningún cluster)
- si hay más que min_samples, se lo clasifica como core y se le asigna un nuevo cluster
- Para cada vecino a menos de eps
- si aún no pertenece a un cluster, se lo asigna al cluster que se acaba de crear
- si es core, se visita a sus respectivos vecinos y se repite
- si no es un core, se los clasifica como punto frontera
- El cluster crece hasta que no hay más cores a menos de eps del punto seleccionado al inicio
- Se visita otro punto que no haya sido visitado y se itera
DBSCAN

- Al ﬁnalizar hay tres tipos de

puntos: core, frontera (a menos
de eps de un core) y ruido.
- En sucesivas corridas el
algoritmo llegará siempre a los
mismo punto core y puntos
ruido.
- Los puntos frontera pueden
pertenecer a distintos clusters,
dependiendo del orden en que se
visiten los puntos.
- Es muy importante normalizar
Evaluación de clusterings
Evaluación

- Se pueden hacer distintos tipos de evaluaciones:

- Internas: utilizando scores para cuantiﬁcar la calidad de los clusters
- Externas: se compara con una clasiﬁcación pre-existente o “ground truth”
- Manuales: inspección por un humano
- Indirectas: evaluando su utilidad para cierta aplicación particular
Evaluación

- a: n° pares de puntos que están en el mismo cluster en ambas particiones.

- b: n° de pares de puntos que están en diferentes clusters en ambas particiones.
- n es el número total de puntos en el conjunto de datos.

- Cuando hay una “ground truth” adjusted rand index (ARI).

Evaluación

- a: distancia promedio entre un punto y todos los otros puntos de su mismo cluster
- b: distancia promedio entre un punto y todos los puntos del cluster más cercano

- Cuando no hay ground truth: silhouette coeﬁcient

Evaluación

- Evaluar si el algoritmo aprendió algo útil suele ser un desafío

- En general se aplica a datos sin etiquetas y no se sabe cómo debería ser un clustering “correcto”.
- A menudo la única manera de evaluar los resultados es su inspección manual.

También podría gustarte

Técnicas de Aprendizaje No Supervisado
Aún no hay calificaciones
Técnicas de Aprendizaje No Supervisado
33 páginas
Tecnicas de Clustering en Machine Learning
Aún no hay calificaciones
Tecnicas de Clustering en Machine Learning
12 páginas
Algoritmos de Clústering y Aplicaciones
Aún no hay calificaciones
Algoritmos de Clústering y Aplicaciones
75 páginas
15 Agrupacion
Aún no hay calificaciones
15 Agrupacion
60 páginas
Curso de Clustering con Python y scikit-learn
Aún no hay calificaciones
Curso de Clustering con Python y scikit-learn
106 páginas
Introducción al Clustering en Machine Learning
Aún no hay calificaciones
Introducción al Clustering en Machine Learning
40 páginas
Clustering y Dimensionalidad en IA
Aún no hay calificaciones
Clustering y Dimensionalidad en IA
10 páginas
Clase 08 - Parte II - Modelos Analíticos para DS III
Aún no hay calificaciones
Clase 08 - Parte II - Modelos Analíticos para DS III
13 páginas
Técnicas de Clustering: Análisis y Comparación
Aún no hay calificaciones
Técnicas de Clustering: Análisis y Comparación
4 páginas
Analisis Cluster
Aún no hay calificaciones
Analisis Cluster
22 páginas
Análisis de Conglomerados: José A Perusquía Cortés Análisis Multivariado Semestre I
Aún no hay calificaciones
Análisis de Conglomerados: José A Perusquía Cortés Análisis Multivariado Semestre I
53 páginas
Fundamentos del Aprendizaje No Supervisado
Aún no hay calificaciones
Fundamentos del Aprendizaje No Supervisado
22 páginas
43 Clustering - Density
Aún no hay calificaciones
43 Clustering - Density
28 páginas
Herramientas R para Segmentación de Mercados
Aún no hay calificaciones
Herramientas R para Segmentación de Mercados
23 páginas
Clustering en Minería de Datos
Aún no hay calificaciones
Clustering en Minería de Datos
49 páginas
Tema 7 Clustering Agrupamiento Clasificacion
Aún no hay calificaciones
Tema 7 Clustering Agrupamiento Clasificacion
38 páginas
Tema 3 No Supervisado
Aún no hay calificaciones
Tema 3 No Supervisado
40 páginas
Metodos Segmentación Python
Aún no hay calificaciones
Metodos Segmentación Python
37 páginas
Clase 10
Aún no hay calificaciones
Clase 10
53 páginas
Clase 2 - Machine Learning - Unsupervised
Aún no hay calificaciones
Clase 2 - Machine Learning - Unsupervised
32 páginas
Clase 6 Minería de Datos
Aún no hay calificaciones
Clase 6 Minería de Datos
64 páginas
Segmentación de Datos con Python
100% (1)
Segmentación de Datos con Python
37 páginas
AnaliticaDeDatos Modulo5 TecnicasDeClustering
Aún no hay calificaciones
AnaliticaDeDatos Modulo5 TecnicasDeClustering
48 páginas
Algoritmos Clustering
Aún no hay calificaciones
Algoritmos Clustering
11 páginas
Clustering
Aún no hay calificaciones
Clustering
38 páginas
Clustering
Aún no hay calificaciones
Clustering
26 páginas
Ensayo Bse de Datos
Aún no hay calificaciones
Ensayo Bse de Datos
4 páginas
Clustering
Aún no hay calificaciones
Clustering
30 páginas
Clustering
Aún no hay calificaciones
Clustering
29 páginas
Menacho MineriaDatosS09 1
Aún no hay calificaciones
Menacho MineriaDatosS09 1
26 páginas
Ensayo Bse de K-MEANS Y DBSCAN Hector Jhefferson Herrera Choque
Aún no hay calificaciones
Ensayo Bse de K-MEANS Y DBSCAN Hector Jhefferson Herrera Choque
9 páginas
Fundamentos del Aprendizaje No Supervisado
Aún no hay calificaciones
Fundamentos del Aprendizaje No Supervisado
19 páginas
K Means
Aún no hay calificaciones
K Means
25 páginas
Fundamentos del Aprendizaje No Supervisado
Aún no hay calificaciones
Fundamentos del Aprendizaje No Supervisado
39 páginas
Fundamentos del Clustering en Minería de Datos
Aún no hay calificaciones
Fundamentos del Clustering en Minería de Datos
92 páginas
1.2 Lectura - DBSCAN
Aún no hay calificaciones
1.2 Lectura - DBSCAN
21 páginas
Aprendizaje No Supervisado Clustering
Aún no hay calificaciones
Aprendizaje No Supervisado Clustering
57 páginas
5 AprendizajeNoSupervisado
Aún no hay calificaciones
5 AprendizajeNoSupervisado
54 páginas
Algoritmo DyClee: Agrupamiento de Trayectorias
Aún no hay calificaciones
Algoritmo DyClee: Agrupamiento de Trayectorias
14 páginas
Introducción al Aprendizaje No Supervisado
Aún no hay calificaciones
Introducción al Aprendizaje No Supervisado
37 páginas
Análisis de Datos y Clustering 2020
Aún no hay calificaciones
Análisis de Datos y Clustering 2020
92 páginas
Algoritmos y Medidas de Agrupamiento
Aún no hay calificaciones
Algoritmos y Medidas de Agrupamiento
6 páginas
Agrupamiento en Minería de Datos IA
Aún no hay calificaciones
Agrupamiento en Minería de Datos IA
39 páginas
Quiz - Clustering
Aún no hay calificaciones
Quiz - Clustering
4 páginas
Algoritmos de Agrupamiento (Clustering)
Aún no hay calificaciones
Algoritmos de Agrupamiento (Clustering)
16 páginas
Aprendizaje No Sup
Aún no hay calificaciones
Aprendizaje No Sup
14 páginas
APUNTE - No Supervisado
Aún no hay calificaciones
APUNTE - No Supervisado
6 páginas
Métodos y Aplicaciones de Clustering
Aún no hay calificaciones
Métodos y Aplicaciones de Clustering
89 páginas
Clustering Jerárquico: Algoritmos y Ejemplo
Aún no hay calificaciones
Clustering Jerárquico: Algoritmos y Ejemplo
20 páginas
Técnicas de Agrupamiento en Clustering
Aún no hay calificaciones
Técnicas de Agrupamiento en Clustering
56 páginas
Algoritmos de Agrupamiento: K-Medias y Jerárquico
Aún no hay calificaciones
Algoritmos de Agrupamiento: K-Medias y Jerárquico
8 páginas
Clasificación y Agrupamiento de Datos
Aún no hay calificaciones
Clasificación y Agrupamiento de Datos
1 página
Algoritmos de Clustering en IA
Aún no hay calificaciones
Algoritmos de Clustering en IA
7 páginas
Clustering en R: Métodos y Evaluación
Aún no hay calificaciones
Clustering en R: Métodos y Evaluación
6 páginas
Sociedad del Riesgo y Modernidad
Aún no hay calificaciones
Sociedad del Riesgo y Modernidad
9 páginas
Comprensión Lectora en Estudiantes Peruanos
Aún no hay calificaciones
Comprensión Lectora en Estudiantes Peruanos
4 páginas
Imaginación Sociológica: Entender lo Social
100% (1)
Imaginación Sociológica: Entender lo Social
4 páginas
Evaluación U1
100% (9)
Evaluación U1
4 páginas
Teoría y Estructura Organizacional
Aún no hay calificaciones
Teoría y Estructura Organizacional
11 páginas
Dislexia y Comprensión Lectora en EGB
Aún no hay calificaciones
Dislexia y Comprensión Lectora en EGB
59 páginas
Pasos del Método Científico
Aún no hay calificaciones
Pasos del Método Científico
6 páginas
Proyecto de Aula 1 Elder Luis de La Ossa Perez
Aún no hay calificaciones
Proyecto de Aula 1 Elder Luis de La Ossa Perez
27 páginas
Proyecto Extranjeras en Cárceles Españolas
Aún no hay calificaciones
Proyecto Extranjeras en Cárceles Españolas
14 páginas
Introduccion Teoria Del Derecgo
Aún no hay calificaciones
Introduccion Teoria Del Derecgo
2 páginas
Teens: Ready
Aún no hay calificaciones
Teens: Ready
2 páginas
Metodología de Investigación Científica
Aún no hay calificaciones
Metodología de Investigación Científica
3 páginas
Aspectos Clave de la Psicología de la Personalidad
Aún no hay calificaciones
Aspectos Clave de la Psicología de la Personalidad
22 páginas
Desarrollo Cognitivo en Niños de 3 y 6 Años
Aún no hay calificaciones
Desarrollo Cognitivo en Niños de 3 y 6 Años
9 páginas
Taller sobre Diseño de Procesos Empresariales
Aún no hay calificaciones
Taller sobre Diseño de Procesos Empresariales
3 páginas
Trabajo Final Teoria de Los Test y Fundamento de Medicion
100% (2)
Trabajo Final Teoria de Los Test y Fundamento de Medicion
13 páginas
Historia de la Ingeniería Industrial
100% (1)
Historia de la Ingeniería Industrial
47 páginas
Biología, Geología y Ciencias Ambientales
Aún no hay calificaciones
Biología, Geología y Ciencias Ambientales
15 páginas
Análisis de Salud y Determinantes 2022
Aún no hay calificaciones
Análisis de Salud y Determinantes 2022
332 páginas
Planeación de Artes Visuales 2021-2022
Aún no hay calificaciones
Planeación de Artes Visuales 2021-2022
2 páginas
Fmx-Ssoma-Pro-002 - Procedimiento Iperc
Aún no hay calificaciones
Fmx-Ssoma-Pro-002 - Procedimiento Iperc
32 páginas
Sor Callista Roy
Aún no hay calificaciones
Sor Callista Roy
16 páginas
Comunicación Preventiva en Trabajo Social
Aún no hay calificaciones
Comunicación Preventiva en Trabajo Social
19 páginas
Plan de Cuarto Grado A
Aún no hay calificaciones
Plan de Cuarto Grado A
16 páginas
Teorica Ajt
Aún no hay calificaciones
Teorica Ajt
15 páginas
Malla Lectura Crítica 4°
Aún no hay calificaciones
Malla Lectura Crítica 4°
4 páginas
Aplicacion de La Terapia de Aceptacion y Compromiso (Act) en Poblacion Mayor Una Revision Sistemática JM Martinez
Aún no hay calificaciones
Aplicacion de La Terapia de Aceptacion y Compromiso (Act) en Poblacion Mayor Una Revision Sistemática JM Martinez
21 páginas
Educación Ambiental: Propuestas y Reflexiones
Aún no hay calificaciones
Educación Ambiental: Propuestas y Reflexiones
18 páginas
Modelo teórico de nacionalización en España
Aún no hay calificaciones
Modelo teórico de nacionalización en España
3 páginas
LAB I Física III
Aún no hay calificaciones
LAB I Física III
16 páginas