CRISP-DM
Definición, Historia, Características/Etapas, Ejemplo/Aplicación Real y Conclusión
I. ¿Qué es?
CRISP-DM (Cross Industry Standard Process for Data Mining) proporciona una
descripción normalizada del ciclo de vida de un proyecto estándar de análisis de
datos
Es un método probado para orientar trabajos de minería de datos.
Como metodología, incluye descripciones de las fases normales de un proyecto,
las tareas necesarias en cada fase y una explicación de las relaciones entre las
tareas.
Como modelo de proceso, CRISP-DM ofrece un resumen del ciclo vital de minería
de datos.
Entonces, el modelo CRISP-DM cubre las fases de un proyecto, sus tareas
respectivas, y las relaciones entre estas tareas. En este nivel de descripción no es
posible identificar todas las relaciones; las relaciones podrían existir entre
cualquier tarea según los objetivos, el contexto, y el interés del usuario sobre los
datos.
Esta metodología se puede aplicar a una gran variedad de problemas tales como
encontrar perfiles de clientes fraudulentos, estimar la probabilidad de que los
clientes de una empresa se vayan a la competencia o también determinar
patrones de compra para luego, recomendar productos de interés
El ciclo de vida del proyecto de minería de datos consiste en seis fases
La secuencia de las fases no es rígida: se permite movimiento hacia adelante y
hacia atrás entre diferentes fases. El resultado de cada fase determina qué fase, o
qué tarea particular de una fase, hay que hacer después. Las flechas indican las
dependencias más importantes y frecuentes.
II. Historia
III. Características y etapas
Fase I. Business Understanding. Definición de necesidades del cliente (comprensión del
negocio)
Esta fase inicial se enfoca en la comprensión de los objetivos de proyecto. Después se
convierte este conocimiento de los datos en la definición de un problema de minería de
datos y en un plan preliminar diseñado para alcanzar los objetivos.
El objetivo de esta fase es alinear los objetivos del proyecto de data mining con los
objetivos del negocio
En esta fase deberemos ser capaces de:
Establecer los objetivos de negocio.
Evaluar la situación actual.
Fijar los objetivos a nivel de minería de datos.
Obtener un plan de proyecto.
Fase II. Data Understanding. Estudio y comprensión de los datos
La fase de entendimiento de datos comienza con la colección de datos inicial y continúa
con las actividades que permiten familiarizarse con los datos, identificar los problemas de
calidad, descubrir conocimiento preliminar sobre los datos, y/o descubrir subconjuntos
interesantes para formar hipótesis en cuanto a la información oculta.
Dos puntos clave en esta fase: conocer los datos, estructura y distribución, y la calidad de
estos.
En esta fase deberemos ser capaces de:
Ejecutar procesos de captura de datos.
Proporcionar una descripción del juego de datos.
Realizar tareas de exploración de datos.
Gestionar la calidad de los datos, identificando problemas y proporcionando soluciones.
Fase III. Data Preparation. Análisis de los datos y selección de características
La fase de preparación de datos cubre todas las actividades necesarias para construir el
conjunto final de datos (los datos que se utilizarán en las herramientas de modelado) a
partir de los datos en bruto iniciales. Las tareas incluyen la selección de tablas, registros y
atributos, así como la transformación y la limpieza de datos para las herramientas que
modelan.
Fase IV. Modeling. Modelado
En esta fase, se seleccionan y aplican las técnicas de modelado que sean pertinentes al
problema (cuantas más mejor), y se calibran sus parámetros a valores óptimos.
Típicamente hay varias técnicas para el mismo tipo de problema de minería de datos.
Algunas técnicas tienen requerimientos específicos sobre la forma de los datos. Por lo
tanto, casi siempre en cualquier proyecto se acaba volviendo a la fase de preparación de
datos.
Fase V. Evaluation. Evaluación (obtención de resultados)
En esta etapa en el proyecto, se han construido uno o varios modelos que parecen
alcanzar calidad suficiente desde la una perspectiva de análisis de datos.
Antes de proceder al despliegue final del modelo, es importante evaluarlo a fondo y
revisar los pasos ejecutados para crearlo, comparar el modelo obtenido con los objetivos
de negocio. Un objetivo clave es determinar si hay alguna cuestión importante de negocio
que no haya sido considerada suficientemente. Al final de esta fase, se debería obtener
una decisión sobre la aplicación de los resultados del proceso de análisis de datos.
Fase VI. Deployment. Despliegue (puesta en producción)
Generalmente, la creación del modelo no es el final del proyecto. Incluso si el objetivo del
modelo es de aumentar el conocimiento de los datos, el conocimiento obtenido tendrá
que organizarse y presentarse para que el cliente pueda usarlo. Dependiendo de los
requisitos, la fase de desarrollo puede ser tan simple como la generación de un informe o
tan compleja como la realización periódica y quizás automatizada de un proceso de
análisis de datos en la organización.
IV. Ejemplo/aplicación real
V. Conclusión