1
Metodología CRISP-DM
La metodología CRISP-DM es ahora la preferida y más usada para realizar minería de
datos entre los proyectos que se realizan, gracias a su posibilidad de poder replicar sus
métodos en otros proyectos, su no distinción entre herramientas y su enfoque que tiene para
los negocios.
Esta contando con 6 pasos para su desarrollo.
Ilustración 1 Flujo de proceso de la metodología CRISP-DM
1. Comprensión del Negocio: Es el entender la visión y objetivos del negocio, el
entendimiento del problema que el negocio desea resolver o conocer.
a. Determinar los objetivos
b. Valoración de la situación
c. Objetivos de la minería de datos
d. Plan del proyecto
Esta fase se lleva acabo mediante: La observación, la entrevista o encuesta.
2. Comprensión de los datos: Hay que desarrollar una exploración con unos datos
iniciales para comprender y familiarizarse con los datos que se van a trabajar junto a la
calidad de los mismos.
a. Recolección de los datos iniciales.
b. Descripción de los datos.
c. Exploración de los datos.
d. Verificación de la calidad de los datos.
2
Ilustración 2 Muestra de cálculo de la media, análisis estadístico básico
3. Preparación de los datos: Esta fase junta los procesos anteriores de selección,
limpieza, generación de variables para determinar los modelos algorítmicos que se van
a utilizar en la minería de datos en el proyecto.
a. Selección de datos.
b. Limpieza de los datos.
c. Estructuración de los datos.
d. Integración de los datos.
e. Formateo de los datos.
Ilustración 3 Histograma de Variables
3
4. Modelado: Se selecciona la técnica más adecuada para el desarrollo de proyecto de
minado de datos en curso con los siguientes criterios:
a. Técnica apropiada al problema
b. Tener los datos adecuados
c. Dar solución a los problemas planteados por el negocio
Fases:
• Selección de la técnica de modelado
• Generar un plan de prueba
• Construir un modelo
• Evaluar el modelo
Ilustración 4 Modelado de datos con Erwin Navigator Edition
5. Evaluación: Se evalúa el método de modelación en la anterior fase teniendo en cuenta,
resolución del problema del negocio, la veracidad y fiabilidad de los resultados.
a. Evaluación de los resultados.
b. Revisión del proceso.
c. Determinar los próximos pasos.
Ilustración 5 Evaluación del modelo
4
6. Implementación: A la fase de implementación se llega una vez el modelo haya pasado
satisfactoriamente la fase de evaluación y todos sus datos han sido validados, esta
consiste en implementar acciones y tomar decisiones en base a los datos para
implementarlo en el negocio.
a. Plan de implementación.
b. Monitorización y mantenimiento.
c. Informe final.
d. Revisión del proyecto.
Comparación de CRISP-DM, SEMMA, KDD
CISP-DM SEMMA KDD
Comprensión del negocio N/A N/A
Muestra Selección
Comprensión de los datos
Exploración Procesamiento
Preparación de los datos Modificación Transformación
Modelado Modelado Minado de datos
Evaluación Evaluación Interpretación
N/A N/A Implementación
5
Bibliografía
Vallalta, J. F. (s.f.). [Link]. [Link]
una-metodologia-para-mineria-de-datos-en-salud/
Minguillón, J. Casas, J. & Minguillón, J. (2017). Minería de datos: modelos y algoritmos..
Editorial UOC. [Link]