BI Caso Practico

Este documento describe un caso de estudio sobre la aplicación de técnicas de minería de datos para detectar anomalías. El equipo de trabajo siguió los pasos de la metodología CRISP-DM, incluyendo entender los objetivos del negocio, preparar los datos, modelar los datos usando algoritmos como K-means, Cobweb y EM, y evaluar y implementar el modelo resultante.

Cargado por

Marian Cortez

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

50 vistas6 páginas

BI Caso Practico

Cargado por

Marian Cortez

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

Business Intelligence y Gestión

Documental
Caso práctico

Aplicación de minería de datos para la detección de anomalías: un

caso de estudio

MDTI
Contenidos

Desarrollo 2

Bibliografía 5

1
Desarrollo
1. ¿Cuales fueron las acciones realizadas por el equipo de trabajo para cumplir el
primer paso de la metodología CRISP-DM?
El primer paso de la metodología CRISP-DM es conocer el negocio. Esto implica los
siguientes tres puntos:
a) Entender los objetivos y requerimientos del proyecto desde el punto de vista del
negocio.
b) Convertirlos en un problema de data mining.
c) Definir un plan de implementación para cumplir los objetivos.

Durante esta primera etapa, el equipo de trabajo del proyecto se reunió con la
administración con el fin de conocer los problemas detectados por la oficina de fraudes.
Adicionalmente, se determinó el plan de utilizar técnicas de clustering para detectar las
anomalías.

2. ¿Cuales fueron las acciones realizadas por el equipo de trabajo para comprender
la naturaleza de los datos involucrados en el negocio?
Dentro de la metodología CRISP-DM, el paso de conocimiento de los datos implica
entender los datos con los que se está tratando. Wirth y Hipp (2000) describen el proceso de
conocimiento de los datos como un conjunto de actividades que permiten familiarizarse con los
datos, verificar que no tengan problemas de calidad, comenzar la detección de patrones y
formar hipótesis.
Para comprender los datos involucrados en el proceso de negocio, el equipo de trabajo
se reunió con el personal especializado en datos de la empresa. Se revisaron la documentación
de la base de datos, el diccionario de datos, los nombres y atributos de los datos, entre otros.

3. Explique el proceso utilizado para acometer la preparación de los datos en la

organización.
El proceso de preparación de datos incluye preparar las tablas, almacenar, seleccionar,
transformar y limpiar los datos que serán alimentados al modelo.

2
Durante este proceso, el equipo diseñó un almacén de datos, donde se tendrán datos
provenientes de las bases de datos de la organización. Se cargaron los datos desde el 2007 en
el almacén usando un proceso ELT preparado específicamente para ello. Así mismo se
seleccionaron los datos que formarían parte del entrenamiento y del testeo del modelo. Se
seleccionaron las facturaciones de la región de Lautaro (4% del total facturado por la empresa)
y en base a esto, la mitad fueron usados para entrenamiento y la otra mitad para pruebas.

4. Mencione que etapa le sigue a la preparación de los datos y de qué modo fue
realizada por el equipo de trabajo.
La etapa que le sigue a la preparación de los datos es el modelamiento. Esta etapa se
caracteriza por la aplicación de técnicas de modelamiento que se van ajustando para obtener
mejores valores.
El equipo escogió una serie de algoritmos que se utilizarían durante este proceso. Se
definieron así mismo las variables para que Clementine separase los datos en grupos
homólogos. Fue necesario ajustar los parámetros iniciales para los diferentes algoritmos con el
fin de encontrar la cantidad y ajuste de clusters satisfactorios.

5. ¿Cuales fueron los algoritmos utilizados?

El equipo de trabajo seleccionó los algoritmos de K-means, Cobweb y EM para la etapa
de modelamiento.
K-means es un algoritmo de clustering que parte los datos usando una función de coste
de suma de cuadrados (Zha, 2002). En este algoritmo, los clusters se representan por el centro
de masa de sus miembros. Se asigna pertenencia al cluster más cercano para un dato. La
distancia se calcula hacia el centroide del cluster. K es el número de clusters, una variable que
debe definirse antes de comenzar el proceso.
Cobweb es un algoritmo de clustering que devuelve un dendograma llamado “árbol de
clasificación” que caracteriza cada cluster de manera probabilística jerárquica (Sharma, 2012).
Cobweb usa una evaluación heurística para la construcción del árbol de clasificación.
EM (Expectation Maximization, por sus siglas en inglés) es un algoritmo de clustering
basado en distancia que asume que los datos se pueden modelar en combinaciones lineales
de distribuciones normales (Abbas, 2008). Tiene una fuerte base estadística.

3
6. ¿De qué forma se logró garantizar la fase de evaluación en el proyecto?
Para garantizar la fase de evaluación se comprobó que los registros que Clementine
había marcado como anomalías realmente correspondían con el historial de anomalías
encontrado por la oficina de fraudes.

7. Explique brevemente la fase de implementación del proyecto.

Se implementó el proyecto en un servidor de la empresa. Clementine devuelve listados

de posibles casos anómalos que la oficina de fraudes utiliza para corroborar uno a uno. De esta
manera se pueden enfocar en casos que realmente presentan variaciones con respecto al resto
de los datos y no tienen que evaluar uno a uno cada caso de una región entera.

4
Bibliografía
Abbas, O. A. (2008). Comparisons Between Data Clustering Algorithms. International Arab
Journal of Information Technology (IAJIT), 5(3).
[Link]
n_two_clustering_results/attachment/59d651fd79197b80779aa5b9/AS
%3A510117938712577%401498633002553/download/[Link]

Cravero, A., & Sepúlveda, S. (2009). Aplicación de Minería de Datos para la Detección de
Anomalías: Un Caso de Estudio. Workshop Internacional EIG, 1.
[Link]

Sharma, N., Bajpai, A., & Litoriya, M. R. (2012). Comparison the various clustering algorithms of
weka tools. facilities, 4(7), 78-80.
[Link]
WEKA_Clustering_Verfahren.pdf

Wirth, R., & Hipp, J. (2000, April). CRISP-DM: Towards a standard process model for data
mining. In Proceedings of the 4th international conference on the practical applications of
knowledge discovery and data mining (pp. 29-39). London, UK: Springer-Verlag.
[Link]

Zha, H., He, X., Ding, C., Gu, M., & Simon, H. D. (2002). Spectral relaxation for k-means
clustering. In Advances in neural information processing systems (pp. 1057-1064).
[Link]

También podría gustarte

Caso Practico Ti016 Business Intelligence y Gestion Documental PDF Free
Aún no hay calificaciones
Caso Practico Ti016 Business Intelligence y Gestion Documental PDF Free
8 páginas
Detección de Fraudes en Aguas Araucanía
Aún no hay calificaciones
Detección de Fraudes en Aguas Araucanía
8 páginas
Solucion Caso Practico
Aún no hay calificaciones
Solucion Caso Practico
5 páginas
Estrategias de Inteligencia de Negocios
Aún no hay calificaciones
Estrategias de Inteligencia de Negocios
2 páginas
TI016-CASO PRACTICO - PPSX
Aún no hay calificaciones
TI016-CASO PRACTICO - PPSX
11 páginas
Guía CRISP-DM para Minería de Datos
Aún no hay calificaciones
Guía CRISP-DM para Minería de Datos
5 páginas
TI016 - Business Intelligence y Gestión Documental
100% (1)
TI016 - Business Intelligence y Gestión Documental
6 páginas
CRIS-DM: Detección de Fraudes en Agua
100% (1)
CRIS-DM: Detección de Fraudes en Agua
7 páginas
Business Intelligence y Análisis de Datos
Aún no hay calificaciones
Business Intelligence y Análisis de Datos
9 páginas
Cuestionario Unidad 3
Aún no hay calificaciones
Cuestionario Unidad 3
6 páginas
Metodologías KDD y CRISP-DM en Minería de Datos
Aún no hay calificaciones
Metodologías KDD y CRISP-DM en Minería de Datos
9 páginas
Nolasco Carlos 2da Actividad
Aún no hay calificaciones
Nolasco Carlos 2da Actividad
8 páginas
Introducción a la Minería de Datos
Aún no hay calificaciones
Introducción a la Minería de Datos
42 páginas
Proceso KDD: E.F.P. Ciencia de Datos Aplicada A La Industria
Aún no hay calificaciones
Proceso KDD: E.F.P. Ciencia de Datos Aplicada A La Industria
23 páginas
CASO PRACTICO TI016 Definitivo
Aún no hay calificaciones
CASO PRACTICO TI016 Definitivo
7 páginas
MPA-LaCiencia de Datos Yaplicaciones
Aún no hay calificaciones
MPA-LaCiencia de Datos Yaplicaciones
67 páginas
Proyecto Metodologia Crisp
Aún no hay calificaciones
Proyecto Metodologia Crisp
30 páginas
Aplicación de La Metodología Crisp-Dm A
Aún no hay calificaciones
Aplicación de La Metodología Crisp-Dm A
52 páginas
BI y Gestión Documental Empresarial
Aún no hay calificaciones
BI y Gestión Documental Empresarial
6 páginas
T016 Caso Practico
100% (1)
T016 Caso Practico
3 páginas
CASO PRÁCTICO TI016 Lyy
Aún no hay calificaciones
CASO PRÁCTICO TI016 Lyy
6 páginas
Metodologias para La Gestion de Procesos de Mineria de Datos
Aún no hay calificaciones
Metodologias para La Gestion de Procesos de Mineria de Datos
9 páginas
BI y Gestión Documental en Araucania
Aún no hay calificaciones
BI y Gestión Documental en Araucania
5 páginas
Minería de Datos Usando Sistemas Inteligentes2 PDF
Aún no hay calificaciones
Minería de Datos Usando Sistemas Inteligentes2 PDF
214 páginas
KDD
Aún no hay calificaciones
KDD
6 páginas
Metodologías en Ciencia de Datos
Aún no hay calificaciones
Metodologías en Ciencia de Datos
45 páginas
Etapas del Proceso de Data Mining
Aún no hay calificaciones
Etapas del Proceso de Data Mining
4 páginas
Adv - Mineria de Datos - Spss Clementine
Aún no hay calificaciones
Adv - Mineria de Datos - Spss Clementine
248 páginas
Mineria de Datos Con Excel
100% (1)
Mineria de Datos Con Excel
10 páginas
Foro de Debate y Argumentación
Aún no hay calificaciones
Foro de Debate y Argumentación
5 páginas
Introducción A La Mineria de Datos
Aún no hay calificaciones
Introducción A La Mineria de Datos
56 páginas
Metodología CRISP
Aún no hay calificaciones
Metodología CRISP
10 páginas
Detección de Fraudes en Aguas Araucanía
Aún no hay calificaciones
Detección de Fraudes en Aguas Araucanía
3 páginas
I7725 - 2022B UN 1 AC 2 EL Proceso de Descubrimiento
Aún no hay calificaciones
I7725 - 2022B UN 1 AC 2 EL Proceso de Descubrimiento
11 páginas
Introducción al KDD: Fases y Retos
Aún no hay calificaciones
Introducción al KDD: Fases y Retos
34 páginas
Metodologías y Tareas en Minería de Datos
Aún no hay calificaciones
Metodologías y Tareas en Minería de Datos
200 páginas
Unidad 1. Semana 2. Clase 4
Aún no hay calificaciones
Unidad 1. Semana 2. Clase 4
18 páginas
Detección de Anomalías en Aguas Araucanía
Aún no hay calificaciones
Detección de Anomalías en Aguas Araucanía
4 páginas
Guía CRISP-DM para Minería de Datos
Aún no hay calificaciones
Guía CRISP-DM para Minería de Datos
9 páginas
Detección de Fraudes con CRIS-DM
Aún no hay calificaciones
Detección de Fraudes con CRIS-DM
2 páginas
Gestión Documental en CRISP-DM
Aún no hay calificaciones
Gestión Documental en CRISP-DM
11 páginas
Articulo Metodologias
Aún no hay calificaciones
Articulo Metodologias
11 páginas
17847-Texto Del Artículo-49761-1-10-20170916
Aún no hay calificaciones
17847-Texto Del Artículo-49761-1-10-20170916
12 páginas
Minería de Datos: Guía Completa
Aún no hay calificaciones
Minería de Datos: Guía Completa
10 páginas
CRISP-DM y SEMMA: Guía Completa
Aún no hay calificaciones
CRISP-DM y SEMMA: Guía Completa
28 páginas
Apuntes Big Data
Aún no hay calificaciones
Apuntes Big Data
22 páginas
Introducción a Minería de Datos KDD
Aún no hay calificaciones
Introducción a Minería de Datos KDD
30 páginas
Introducción a la Minería de Datos
Aún no hay calificaciones
Introducción a la Minería de Datos
19 páginas
Descubrimiento de Conocimiento en Bases de Datos
Aún no hay calificaciones
Descubrimiento de Conocimiento en Bases de Datos
30 páginas
Metodologia Crips
Aún no hay calificaciones
Metodologia Crips
6 páginas
Introducción a Minería de Datos y CRISP-DM
Aún no hay calificaciones
Introducción a Minería de Datos y CRISP-DM
22 páginas
Investigacion
Aún no hay calificaciones
Investigacion
24 páginas
El Proceso de Extracción Del Conocimiento
Aún no hay calificaciones
El Proceso de Extracción Del Conocimiento
29 páginas
Minería de Datos
Aún no hay calificaciones
Minería de Datos
10 páginas
Crisp DM
Aún no hay calificaciones
Crisp DM
3 páginas
Universidad Don Bosco: Catedra Base de Datos I
Aún no hay calificaciones
Universidad Don Bosco: Catedra Base de Datos I
5 páginas
BD Bloque (1 2 2.1)
Aún no hay calificaciones
BD Bloque (1 2 2.1)
26 páginas
Introducción a MongoDB: Historia y Ventajas
Aún no hay calificaciones
Introducción a MongoDB: Historia y Ventajas
8 páginas
Tipos y Ventajas de Listas Enlazadas
Aún no hay calificaciones
Tipos y Ventajas de Listas Enlazadas
8 páginas
Privilegios SQL: GRANT, REVOKE y DENY
100% (1)
Privilegios SQL: GRANT, REVOKE y DENY
2 páginas
Cuadro Comparativo Bases de Datos
100% (2)
Cuadro Comparativo Bases de Datos
8 páginas
Manual Cobol
100% (1)
Manual Cobol
67 páginas
Cloud GCP
Aún no hay calificaciones
Cloud GCP
5 páginas
Piad-219 Formatoalumnotrabajofinal
Aún no hay calificaciones
Piad-219 Formatoalumnotrabajofinal
8 páginas
SQL Conceptos Básicos
Aún no hay calificaciones
SQL Conceptos Básicos
28 páginas
Mejores Prácticas para Ser Un DBA SQL Server
100% (1)
Mejores Prácticas para Ser Un DBA SQL Server
4 páginas
Consultas Basicas en Firestore
Aún no hay calificaciones
Consultas Basicas en Firestore
5 páginas
Sybase ASE: Gestión de Bases de Datos
Aún no hay calificaciones
Sybase ASE: Gestión de Bases de Datos
69 páginas
MySQL: Gestión de Bases de Datos Relacionales
Aún no hay calificaciones
MySQL: Gestión de Bases de Datos Relacionales
1 página
Descripcion Del Contenido en BANDAS
Aún no hay calificaciones
Descripcion Del Contenido en BANDAS
1 página
Mongo DB Garantiza La Parte de Acid en El Gestor de Base de Datos
Aún no hay calificaciones
Mongo DB Garantiza La Parte de Acid en El Gestor de Base de Datos
5 páginas
Principales bases de datos NoSQL
Aún no hay calificaciones
Principales bases de datos NoSQL
20 páginas
Tipos de Buscadores Web
Aún no hay calificaciones
Tipos de Buscadores Web
3 páginas
Buenas Prácticas SQL
Aún no hay calificaciones
Buenas Prácticas SQL
42 páginas
Datamart Ventas: Diseño y BI
Aún no hay calificaciones
Datamart Ventas: Diseño y BI
39 páginas
Fundamentos de Business Intelligence
Aún no hay calificaciones
Fundamentos de Business Intelligence
41 páginas
UTP - Diseño Fisico de Un Data Mart PDF
Aún no hay calificaciones
UTP - Diseño Fisico de Un Data Mart PDF
53 páginas
Guía de Normalización de Bases de Datos
Aún no hay calificaciones
Guía de Normalización de Bases de Datos
4 páginas
Laboratorio SQL - Ejercicio 1 - Cursos
Aún no hay calificaciones
Laboratorio SQL - Ejercicio 1 - Cursos
5 páginas
Procedimientos Almacenados
Aún no hay calificaciones
Procedimientos Almacenados
39 páginas
Evaluación Gestión de Bases de Datos
100% (1)
Evaluación Gestión de Bases de Datos
3 páginas
Presentacion de Ruth Toro UPN 2019
Aún no hay calificaciones
Presentacion de Ruth Toro UPN 2019
17 páginas
Comandos SQL Principales
Aún no hay calificaciones
Comandos SQL Principales
4 páginas
Examen de Base de Datos Final de Paola y Monica
Aún no hay calificaciones
Examen de Base de Datos Final de Paola y Monica
5 páginas
Bloqueos en SQL Server: Guía Básica
Aún no hay calificaciones
Bloqueos en SQL Server: Guía Básica
24 páginas