Business Intelligence y Gestión
Documental
Caso práctico
Aplicación de minería de datos para la detección de anomalías: un
caso de estudio
MDTI
Contenidos
Desarrollo 2
Bibliografía 5
1
Desarrollo
1. ¿Cuales fueron las acciones realizadas por el equipo de trabajo para cumplir el
primer paso de la metodología CRISP-DM?
El primer paso de la metodología CRISP-DM es conocer el negocio. Esto implica los
siguientes tres puntos:
a) Entender los objetivos y requerimientos del proyecto desde el punto de vista del
negocio.
b) Convertirlos en un problema de data mining.
c) Definir un plan de implementación para cumplir los objetivos.
Durante esta primera etapa, el equipo de trabajo del proyecto se reunió con la
administración con el fin de conocer los problemas detectados por la oficina de fraudes.
Adicionalmente, se determinó el plan de utilizar técnicas de clustering para detectar las
anomalías.
2. ¿Cuales fueron las acciones realizadas por el equipo de trabajo para comprender
la naturaleza de los datos involucrados en el negocio?
Dentro de la metodología CRISP-DM, el paso de conocimiento de los datos implica
entender los datos con los que se está tratando. Wirth y Hipp (2000) describen el proceso de
conocimiento de los datos como un conjunto de actividades que permiten familiarizarse con los
datos, verificar que no tengan problemas de calidad, comenzar la detección de patrones y
formar hipótesis.
Para comprender los datos involucrados en el proceso de negocio, el equipo de trabajo
se reunió con el personal especializado en datos de la empresa. Se revisaron la documentación
de la base de datos, el diccionario de datos, los nombres y atributos de los datos, entre otros.
3. Explique el proceso utilizado para acometer la preparación de los datos en la
organización.
El proceso de preparación de datos incluye preparar las tablas, almacenar, seleccionar,
transformar y limpiar los datos que serán alimentados al modelo.
2
Durante este proceso, el equipo diseñó un almacén de datos, donde se tendrán datos
provenientes de las bases de datos de la organización. Se cargaron los datos desde el 2007 en
el almacén usando un proceso ELT preparado específicamente para ello. Así mismo se
seleccionaron los datos que formarían parte del entrenamiento y del testeo del modelo. Se
seleccionaron las facturaciones de la región de Lautaro (4% del total facturado por la empresa)
y en base a esto, la mitad fueron usados para entrenamiento y la otra mitad para pruebas.
4. Mencione que etapa le sigue a la preparación de los datos y de qué modo fue
realizada por el equipo de trabajo.
La etapa que le sigue a la preparación de los datos es el modelamiento. Esta etapa se
caracteriza por la aplicación de técnicas de modelamiento que se van ajustando para obtener
mejores valores.
El equipo escogió una serie de algoritmos que se utilizarían durante este proceso. Se
definieron así mismo las variables para que Clementine separase los datos en grupos
homólogos. Fue necesario ajustar los parámetros iniciales para los diferentes algoritmos con el
fin de encontrar la cantidad y ajuste de clusters satisfactorios.
5. ¿Cuales fueron los algoritmos utilizados?
El equipo de trabajo seleccionó los algoritmos de K-means, Cobweb y EM para la etapa
de modelamiento.
K-means es un algoritmo de clustering que parte los datos usando una función de coste
de suma de cuadrados (Zha, 2002). En este algoritmo, los clusters se representan por el centro
de masa de sus miembros. Se asigna pertenencia al cluster más cercano para un dato. La
distancia se calcula hacia el centroide del cluster. K es el número de clusters, una variable que
debe definirse antes de comenzar el proceso.
Cobweb es un algoritmo de clustering que devuelve un dendograma llamado “árbol de
clasificación” que caracteriza cada cluster de manera probabilística jerárquica (Sharma, 2012).
Cobweb usa una evaluación heurística para la construcción del árbol de clasificación.
EM (Expectation Maximization, por sus siglas en inglés) es un algoritmo de clustering
basado en distancia que asume que los datos se pueden modelar en combinaciones lineales
de distribuciones normales (Abbas, 2008). Tiene una fuerte base estadística.
3
6. ¿De qué forma se logró garantizar la fase de evaluación en el proyecto?
Para garantizar la fase de evaluación se comprobó que los registros que Clementine
había marcado como anomalías realmente correspondían con el historial de anomalías
encontrado por la oficina de fraudes.
7. Explique brevemente la fase de implementación del proyecto.
Se implementó el proyecto en un servidor de la empresa. Clementine devuelve listados
de posibles casos anómalos que la oficina de fraudes utiliza para corroborar uno a uno. De esta
manera se pueden enfocar en casos que realmente presentan variaciones con respecto al resto
de los datos y no tienen que evaluar uno a uno cada caso de una región entera.
4
Bibliografía
Abbas, O. A. (2008). Comparisons Between Data Clustering Algorithms. International Arab
Journal of Information Technology (IAJIT), 5(3).
[Link]
n_two_clustering_results/attachment/59d651fd79197b80779aa5b9/AS
%3A510117938712577%401498633002553/download/[Link]
Cravero, A., & Sepúlveda, S. (2009). Aplicación de Minería de Datos para la Detección de
Anomalías: Un Caso de Estudio. Workshop Internacional EIG, 1.
[Link]
Sharma, N., Bajpai, A., & Litoriya, M. R. (2012). Comparison the various clustering algorithms of
weka tools. facilities, 4(7), 78-80.
[Link]
WEKA_Clustering_Verfahren.pdf
Wirth, R., & Hipp, J. (2000, April). CRISP-DM: Towards a standard process model for data
mining. In Proceedings of the 4th international conference on the practical applications of
knowledge discovery and data mining (pp. 29-39). London, UK: Springer-Verlag.
[Link]
Zha, H., He, X., Ding, C., Gu, M., & Simon, H. D. (2002). Spectral relaxation for k-means
clustering. In Advances in neural information processing systems (pp. 1057-1064).
[Link]