Clustering: K-Means
ALGORITMO NO SUPERVISADO
Álvaro Ruiz
Andrés Rojas
Santiago Navarro
Bayron Tovar
Aprendizaje no Supervisado
- Algoritmos de clustering (K-Means)
- Análisis de componentes principales
- Descomposición en valores singulares (singular value decomposition)
- Análisis de componentes independientes (Independent Component Analysis)
CARACTERISTICAS
- Cluster
- Centroides
- Actualización de los centroides
K-Means
Capaz de definir el número de clusters.
Determina las coordenadas del centroide.
Determina la distancia de cada objeto a los centroides.
Agrupa los objetos basados en la menor distancia.
ALGORITMO DE K-MEANS
- Este algoritmo consta en dividir los datos de entradas en grupos diferentes.
- Recibe como entrada el número de grupos K y los datos de entrada.
- Las datos de entrada son un conjunto de características de las variables en
cuestión.
- Se inicia con valores estimados iniciales para los Kappa centroides
ETAPAS DEL ALGORITMO
1. Inicialización: una vez escogido el número de grupos, k, se
establecen k centroides en el espacio de los datos, por ejemplo,
escogiéndolos aleatoriamente.
2. Asignación objetos a los centroides: cada objeto de los datos es
asignado a su centroide más cercano.
3. Actualización centroides: se actualiza la posición del centroide de
cada grupo tomando como nuevo centroide la posición del promedio
de los objetos pertenecientes a dicho grupo.
FUNCION A OPTIMIZAR
S es el conjunto de datos
Xj está representado en vectores que representa una caracteristica
K es el numero de grupos
Ui es el centroide de cada grupo k
ACTUALIZACION DE CENTROIDES
La forma de actualizar los centroides se recalcula de tal
manera que se toma la media de todos los puntos de datos
asignados al grupo de ese centroide.
ELIGIENDO EL MEJOR K
- No existe un método como tal para elegir el mejor valor para K. El usuario
varía este valor en un rango que el permite obtener excelentes resultados.
- Una técnica muy usada comúnmente es comparar los diferentes
resultados de las distancias medias del conjunto de datos con su
centroide de grupo.
- A medida que K aumenta, la distancia entre los grupos de datos aumenta
hasta llegar a 0.
- validación cruzada, los criterios de información, el método de salto teórico
de la información, el método de silueta y el algoritmo G-medias.
USOS COMERCIALES
DEL ALGORITMO K-MEANS
USOS COMERCIALES
DEL ALGORITMO K-MEANS
El algoritmo de agrupamiento K- means se utiliza para encontrar
grupos que no se han etiquetado explícitamente en los
datos. Esto se puede usar para confirmar las suposiciones
empresariales sobre qué tipos de grupos existen o para identificar
grupos desconocidos en conjuntos de datos complejos.
Segmentación de usuarios/clientes basado en el
comportamiento:
• Utilizando datos como el comportamiento web, el patrón de
consume, se pueden agrupar clientes o usuarios en distintos
grupos.
• Segmento por historial de compra
• Segmentar por actividades en aplicación, sitio web o plataforma
• Definir personas basadas en intereses.
• Crear perfiles basados en el seguimiento de la actividad.
• Categorización de
inventario: agrupando
productos por su patrón de
venta.
• Inventario grupal por
actividad de ventas.
• Inventario grupal por
métricas de fabricación
• Detección de anomalías: según el comportamiento web es posible diferenciar
distintos grupos. Por ejemplo, usuarios humanos, bots, arañas web o trolls.
• Separe los grupos de actividad válidos de los bots.
• Grupo de actividad válida para limpiar la detección de valores atípicos.
NOTAS ADICIONALES Y
ALTERNATIVAS
INGENIERÍA DE CARACTERÍSTICAS
La ingeniería de características es el proceso de utilizar el conocimiento
del dominio para elegir qué métricas de datos se ingresarán como
características en un algoritmo de aprendizaje automático.
• El uso de características significativas
capturar la variabilidad de los datos
encuentra todos los grupos por medio de el algoritmo
• Los datos categóricos
las etiquetas de categoría como género, país, tipo de navegador
codificarse o separarse para que pueda funcionar el algoritmo
• Las transformaciones de características
Representan tasas en lugar de mediciones.
Ayudar a normalizar los datos.
ALTERNATIVAS
- Existe una serie de algoritmos - Un posible resultado es que no hay grupos en
alternativos de agrupación en los datos; en su lugar, todos los datos caen a lo
clústerin incluyen DBScan , agrupación largo de los rangos de características continuas
espectral y modelado con mezclas dentro de un solo grupo.
gaussianas. - Es posible revisar las características de los
- Una técnica de reducción de datos y será necesario incluir diferentes
dimensionalidad, como el análisis de mediciones o si la transformación de una
componentes principales, utilizada para característica mejora la variabilidad de los
separar grupos de patrones en los datos.
datos. - Es posible que desee imponer categorías o
etiquetas en función del conocimiento del
dominio
- modificar su enfoque de análisis.
EJEMPLO
GRACIAS…