M D KDD: Técnicas de Minería de Datos

El documento describe el proceso de minería de datos KDD y las técnicas de minería de datos como los árboles de decisión, reglas de asociación, redes neuronales y agrupamiento. Explica que el agrupamiento es un método de aprendizaje no supervisado que busca caracterizar conceptos desconocidos agrupando instancias con características similares. Detalla los elementos básicos, objetivos y procesos del agrupamiento, incluyendo algoritmos como K-medias que asigna cada instancia al centroide más cercano

Cargado por

LILIANA MARILU LOJANO LOJANO

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

69 vistas81 páginas

M D KDD: Técnicas de Minería de Datos

Cargado por

LILIANA MARILU LOJANO LOJANO

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

MINERÍA DE DATOS Y EL PROCESO DE KDD

Fayyad (1996)

 Técnicas de Minería de Datos

ARBOL REGLAS AGRUPAMIENTO RED NEURONAL
AGRUPAMIENTO O CLUSTERING
 El clustering es uno de los métodos de aprendizaje no supervisado
más importantes y busca caracterizar conceptos desconocidos a partir
de los ejemplos disponibles.
 Generalmente, en un problema real se desconoce la clase y es allí
donde el agrupamiento puede ayudar a identificar las características
comunes entre instancias.
 Al no disponer de la clase utiliza una medida de similitud para
determinar el parecido entre instancias.
¿CÓMO LOS AGRUPARÍAS?
¿CÓMO LOS AGRUPARÍAS?
ELEMENTOS BÁSICOS DEL AGRUPAMIENTO
 Identificar las características relevantes de cada tipo de elemento.
 Indicar la manera en que se realizará la comparación (DISTANCIA)
AGRUPAMIENTO O CLUSTERING
 El resultado de aplicar una técnica de clustering es una serie de
agrupamientos o clusters formados al particionar las instancias.
Long.eje mayor

Color
AGRUPAMIENTO - OBJETIVO
AGRUPAMIENTO O CLUSTERING
 Permite encontrar grupos de instancias con características similares.
 Aplicaciones
 Identificar grupos y describirlos
 Detectar clientes con características similares para ofrecer servicios
adecuados.
 Identificar alumnos con rendimientos académicos similares con el
objetivo de reducir la deserción escolar.
 Detección de casos anómalos
 Detección de fraudes.
CALIDAD DEL AGRUPAMIENTO OBTENIDO

 Un buen método de agrupamiento producirá grupos de alta calidad en

los cuales
 El parecido entre los elementos que componen un mismo grupo es
alto (intra-cluster).
 El parecido entre los elementos de grupos distintos es bajo (inter-
cluster).
AGRUPAMIENTO - OBJETIVO
 Minimizar la distancia entre los elementos de un mismo cluster
(intra-cluster)
 Maximizar la distancia entre clusters (inter-cluster)
PROCESO DE AGRUPAMIENTO
 Seleccionar las características relevantes
 Definir una representación adecuada.
 Definir la medida de similitud a utilidad (medida de distancia).
Depende del problema.
 Aplicar un algoritmo de agrupamiento
 Validar los grupos obtenidos y de ser necesario volver a repetir el
proceso.
PROCESO DE AGRUPAMIENTO
TIPOS DE ALGORITMOS DE AGRUPAMIENTO
 Algoritmo Partitivo
 Particionan los datos creando un número K de clusters.
 Una instancia pertenece a un único grupo.

 Algoritmo Jerárquico
 Generan una estructura jerárquica de clusters que permiten ver las particiones de
las instancias con distinta granularidad.
 Una instancia pertenece a un único grupo.

 Algoritmo probabilista
 Los clusters se generan con un método probabilístico
ALGORITMOS DE CLUSTERING PARTITIVOS
 Obtiene una única partición de los datos
K-MEDIAS
 El algoritmo K-Medias fue propuesto por MacQueen, en 1967.
 Requiere conocer a priori el número K de grupos a formar.
 El algoritmo está basado en la minimización de la distancia interna (la
suma de las distancias de los ejemplos asignados a un agrupamiento al
centroide de dicho agrupamiento).
 De hecho, este algoritmo minimiza la suma de las distancias al cuadrado
de cada ejemplo al centroide de su agrupamiento.
K-MEDIAS
 Características
 El algoritmo es sencillo y eficiente.
 Procesa los ejemplos secuencialmente (por lo que requiere un
almacenamiento mínimo).
 Está sesgado por el orden de presentación de los ejemplos (los
primeros ejemplos determinan la configuración inicial de los
agrupamientos)
 Su comportamiento depende enormemente del parámetro K.
ALGORITMO K-MEDIAS
 Elegir aleatoriamente K ejemplos de entrada como centros iniciales.
 Repetir
 Redistribuir los ejemplos entre los clusters utilizando la mínima
distancia euclídea al cuadrado como clasificador.
 Calcular los centros de los K clusters.
hasta que no cambien los centros de los clusters

KMedias.py
Agrupando los ejemplos de PuntosClusters.csv usando
k-medias con k = 3 clusters

El proceso inicia
tomando k=3
ejemplos como
centros iniciales
Agrupando los ejemplos de PuntosClusters.csv usando
k-medias con k = 3 clusters

Para cada ejemplo se

identifica el centro más
cercano usando alguna
medida de proximidad

𝑿 = 𝒙𝟏 , 𝒙𝟐
Ci = 𝒄𝒊𝟏 , 𝒄𝒊𝟐 i=1,2,3
dist2(Ci,X) = (𝒄𝒊𝟏 − 𝒙𝟏 )𝟐 + (𝒄𝒊𝟐 − 𝒙𝟐 )𝟐
Agrupando los ejemplos de PuntosClusters.csv usando
k-medias con k = 3 clusters

Para cada ejemplo se

identifica el centro más
cercano usando alguna
medida de proximidad
Agrupando los ejemplos de PuntosClusters.csv usando
k-medias con k = 3 clusters

Repetir esto para

todos los ejemplos.

Asignar cada
ejemplo al centro
más cercano
Agrupando los ejemplos de PuntosClusters.csv usando
k-medias con k = 3 clusters

Recalcular la
posición de los
centros.

 Cada centro se reubica

promediando los valores
de los atributos de los
ejemplos que los
conforman.
Agrupando los ejemplos de PuntosClusters.csv usando
k-medias con k = 3 clusters

Recalcular la
posición de los
centros.

 Cada centro se reubica

promediando los valores
de los atributos de los
ejemplos que los
conforman.
Agrupando los ejemplos de PuntosClusters.csv usando
k-medias con k = 3 clusters